Как повысить качество данных и самостоятельно работать с новым инструментарием
Заказчик

Заказчиком услуги выступил инновационный банк, который предоставляет технологичные финансовые сервисы для частных клиентов и бизнеса.

Срок реализации проекта: 18 месяцев

В банке существуют несколько десятков информационных систем и корпоративное хранилище данных. С течением времени у Заказчика возникли опасения в отношении качества данных, которые содержались в хранилище.

Кроме того, доступ к существующему хранилищу и первичным источникам данных имело ограниченное количество пользователей — как правило, технические специалисты обслуживающей организации (подряда). Бизнес-пользователь был вынужден обращаться к посредникам для того, чтобы получить определенный набор данных. Большое количество промежуточных звеньев в работе влекло дополнительные трудозатраты.

Проблемы, с которыми столкнулся Заказчик:

Перед собой Заказчик поставил ряд стратегических целей:

Для достижения этих целей было принято решение о реализации нескольких проектов, которые последовательно решали бы определенный спектр задач.

Задачи:

Решение

Реализация состояла из 3 проектов.

В качестве первого проекта специалисты Invento Labs построили корпоративное хранилище на базе MPP GreenPlum, а также настроили автоматический сбор данных из первичных источников, представляющих ценность для бизнеса.

Также наши специалисты создали справочно-информационную систему — базу знаний о значении тех или иных данных, которая позволяет пользователю определить, где они находятся.

В рамках второго проекта была построена MDM-система — инструментарий по управлению и мониторингу качества данных. Ее задача состояла в разрешении проблематики недостающей информации, множества дубликатов и ошибочных данных. В качестве результата работы этой системы была сформирована “Золотая запись” клиента.

“Золотая запись” клиента — это наиболее достоверное, непротиворечивое и полное представление о каждом объекте данных компании (клиенте, товаре, контрагенте и т.д.). Она содержит в себе все атрибуты, необходимые для описания портрета клиента. К этим данным могут обратиться сотрудники для того, чтобы использовать релевантную информацию.

 

Измерение и повышение качества данных в первичных системах позволяют специалистам выявлять проблемные места в источниках данных и устранять их. Для отслеживания качества данных была сформулирована и описана методика расчета системы показателей, которая была запрограммирована и рассчитывается ежедневно.

Третий проект отвечал за внедрение средства BI-аналитики Tableau и построение аналитических отчетов.

С помощью BI-системы значимая для бизнеса информация предоставляется в виде интерактивных отчетов, где не только аналитики, но и руководители различных уровней могут принимать управленческие решения в режиме реального времени.

В рамках проекта в работе были использованы 16 источников данных в корпоративном хранилище. Планируемый объем на старте проекта — более 50 TB.

Технологии
Greenplum
PostgreSQL
Apache Airflow (Redis, PostgreSQL)
StreamSets (DC, Transformer)
Apache Superset
Apache Atlas
Liquibase
DBeaver
Tableau
Результат

Выгода для Заказчика: