26 февраля 2019

Руслан Сабитов, Национальный клиринговый центр — о big data в банкинге и проблемах с legacy ПО

Технологии big data сегодня упрощают хранение и анализ огромного массива данных в банкинге, сокращая при этом издержки на оборудование. При этом важно постоянно модернизировать системы, чтобы поддерживать их производительность на должном уровне. Это весьма сложно, отмечает руководитель направления в департаменте информационных технологий Национального клирингового центра Руслан Сабитов. Банкам и компаниям достается в наследство устаревшее ПО, от которого невозможно отказаться. Поэтому часто сотрудники продолжают делать отчеты в MS-DOS. Но в НКЦ разработали свое решение, автоматизирующее сдачу отчетности в Банк России на основе big data. Руслан Сабитов рассказал «Хайтеку» на Big Data Conference 2018 об опыте внедрения новых систем сбора и обработки данных в Группе «Московская Биржа», а также о проблемах автоматизации в банковской индустрии.


НКЦ — небанковская кредитная организация, выполняет функции клиринговой организации и центрального контрагента на рынках Московской биржи.. Как центральный контрагент НКЦ берет на себя риски по заключаемым участниками в ходе биржевых торгов сделкам, выступая посредником между сторонами. Главная и основная функция НКЦ — обеспечение стабильности на обслуживаемых сегментах финансового рынка за счет осуществления современной, отвечающей международным стандартам системы управления рисками.


Отчетность легче проводить с big data

Банк России требует от всех финансовых участников — банков, финансовых организаций, в том числе и НКЦ, отчитываться о своей деятельности. Они сообщают, сколько средств на балансе, как он бьется на отдельные счета, сколько прошло операций. Это все должно подготавливаться и предоставляться в ЦБ на регулярной основе. Чтобы упростить задачу, мы внедрили автоматическую систему на основе решений от компании «Неофлекс». Эта компания давно специализируется на построении систем финансовой отчетности для регуляторных органов.

Когда я работал в «Бинбанке», у нас тоже были решения «Неофлекс», но на старых технологиях. Это была база данных Oracle, и вся обработка и подготовка отчетности происходили на ней. А в НКЦ было внедрено решение именно на основе технологии big data — Hadoop, которое мы используем как основное хранилище данных и систему обработки информации.


Базы данных Oracle — одни из самых популярных в мире баз, используемые лидерами ИТ-рынка — Facebook, Twitter, YouTube. Например, базы данных MySQL на основе решений Oracle часто выбирают в качестве встроенной базы данных, распространяемой тысячами поставщиков программного обеспечения и производителей оборудования.

Oracle Database или Oracle RDBMS — объектно-реляционная система управления базами данных компании Oracle. Более 40 лет Oracle помогает компаниям, органам государственного управления и другим организациям из разных стран мира собирать, упорядочивать и использовать данные.

Hadoopпроект с открытым исходным кодом, находящийся под управлением Apache Software Foundation. Hadoop используется для надежных, масштабируемых и распределенных вычислений, а также применяется как хранилище файлов общего назначения, способное вместить петабайты данных.


Парадигмы Hadoop и Oracle совершенно разные. Можно, конечно, сказать, что это дальнейшее развитие. Но на самом деле это уход в сторону, потому что сама суть big data отличается от обычных баз данных. Hadoop не подразумевает транзакционность, но как хранилище и система обработки информации — это самое удачное решение. Издержки на лицензии снижаются. Очень хорошая масштабируемость, и, соответственно, высокая производительность.

Врезка

Разные банки используют разные формы отчетности, но есть основные, присущие всем. Например, НКЦ сдает порядка 200 форм отчетности. Из них на данный момент мы внедрили около 20 форм, создаваемых с помощью Hadoop. Есть две системы источников данных. Из них мы забираем детальные данные для построения отчетности. Это автоматизированная банковская система. Вторая является центральным контрагентом. Это уже не для банков, а специализированно для нас. После этого данные агрегируются в Hadoop. Сначала заливаются в исходном виде, после этого обрабатываются, очищаются, подготавливаются, агрегируются — и перекладываются уже в отдельный слой. В нем создается полноценный портфель данных по каждому клиенту и по каждой витрине. А на базе Oracle уже находится «обертка», с помощью которой мы получаем информацию, уже существующую в самой системе. И на основе этих данных строим полноценные отчеты, подходящие для подачи в регуляторные органы.


Data Lake — централизованное хранилище, позволяющее хранить все данные и структуры. Данные можно хранить прямо так, как они есть, с различными типами аналитики — от информационных панелей и визуализации до режима обработки big data, аналитики в режиме реального времени и машинного обучения для лучшего принятия решений.


«Мы развязываем аналитикам руки»

Одной из причин, почему мы выбрали именно Hadoop, был проект по внедрению Data Lake в Группе «Московская биржа». Продукт еще молодой, постоянно развивается. Туда будут складывать данные не только финансовые подразделения — бухгалтерия, например, но и технические департаменты, которые будут обрабатывать на мощностях Hadoop свои данные — те же самые логи от финансовых систем. На Московской бирже генерируется очень большой объем данных. Для того, чтобы это обработать, стандартные ЦБД (центральные базы данных — «Хайтек») уже не подходят. Они просто не справляются с этим потоком.

Решение Data Lake позволяет упростить эту задачу и повысить производительность. Сейчас у нас есть отчетность ЦБ, сюда добавится налоговая отчетность, Росфинмониторинг. Это подразумевает хранение другого типа данных. Это могут быть просто сканы документов, необходимые для налоговой. Хранить бинарные файлы в базе данных очень накладно и неразумно. Поэтому было выбрано решение с точки зрения big data.

В дальнейшем у этого решения возможно большое будущее. У нас группа компаний, у каждой есть свои задачи для обработки своих данных. Возможно, в дальнейшем это все будет объединено в один кластер, в котором будут обрабатываться все задачи внутри группы.

Врезка

Еще одно направление — снижение издержек на хранение архивных данных. Хранить их на Exadata довольно затратно. После переноса данных на мощности Hadoop это станет дешевле, будет проще анализировать, а для аналитиков появится более высокая производительность. На текущий момент они ограничены тем, что выделяемый под их задачи ресурс довольно узкий — из-за чрезмерной нагрузки на основную систему.

Как legacy ПО может привести к дефолту банка

В любом банке ландшафт используемого программного обеспечения очень разнообразен. Начиная от каких-то собственных разработок и заканчивая промышленными решениями, оставшимися как legacy ПО, от которого уже нельзя избавиться. Его изначально выбрали. Переход с него на другие системы очень дорог. Ввиду этого приходится постоянно его за собой тянуть и поддерживать. Наше решение позволяет избавиться от некоторых болячек систем посредством использования новых технологий.

Например, мы готовили отчетность на основе автоматизированной банковской системы. Но у нее были ограничения — производительность и монопольное использование ресурсов при расчете одного отчета. Соответственно, производительность с точки зрения расчета одной формы по времени была крайне низкой. Иногда у нас одна форма занимала до шести часов и более.

Врезка

От таких моментов просто так не уйдешь: замена автоматизированной системы в банке похожа на катастрофу. Здесь появляется очень много нюансов, которые надо учитывать. Просто так за один день миграцию с одного ПО на другое произвести невозможно. В моей практике был кейс, когда банк переходил с двух или трех автоматизированных банковских систем, стоявших в регионах, на единую, которая, в свою очередь, находилась в головном офисе. Этот процесс длился несколько месяцев.

Так же и в НКЦ — при внедрении данного проекта было задействовано очень много людей. Это и аналитики, и финансовые сотрудники, которые проводили анализ того или иного подхода. Помимо этого привлекалось большое количество технического персонала — нужно заниматься подготовкой инфраструктуры, развертыванием и созданием регламентов по обслуживанию.

Банки, работающие давно, точно имеют legacy ПО. Я работал в четырех банках, везде было такое ПО. Начиная с программного обеспечения, написанного еще под DOS и заканчивая крупным ПО, от которого уже невозможно отказаться, так как оно очень сильно интегрировано в бизнес-процессы. Если оставаться на старых системах, снижается производительность, конкурентоспособность финансовой организации, повышаются риски — если не дефолта, то отзыва лицензии.

У банков и компаний, только начавших свое развитие, есть больший простор для выбора технологий. В том числе и у НКЦ, так как мы относительно молодая компания. ПО используется практически везде современное.