Лідери думок
Розуміння локальної архітектури Data Lakehouse

У сучасному банківському середовищі, що керується даними, здатність ефективно керувати величезними обсягами даних і аналізувати їх є надзвичайно важливою для підтримки конкурентної переваги. The озеро даних представляє революційну концепцію, яка змінює наш підхід до управління даними у фінансовому секторі. Ця інноваційна архітектура поєднує в собі найкращі риси сховища даних та озера дати. Він забезпечує уніфіковану платформу для зберігання, обробки та аналізу як структурованих, так і неструктурованих даних, що робить його безцінним активом для банків, які прагнуть використовувати свої дані для прийняття стратегічних рішень.
Еволюція архітектур даних
Подорож до сховищ даних була еволюційною за своєю природою. Традиційні сховища даних уже давно є основою банківської аналітики, пропонуючи структуроване зберігання даних і швидку роботу запитів. Однак у зв’язку з нещодавнім вибухом неструктурованих даних із таких джерел, як соціальні мережі, взаємодії з клієнтами та пристрої Інтернету речей, озера даних з’явилися як сучасне рішення для зберігання величезних обсягів необроблених даних.
Data lakehouse представляє наступний крок у цій еволюції, усуваючи розрив між сховищами даних і озерами даних. Для таких банків, як Akbank, це означає, що тепер ми можемо користуватися перевагами обох світів – структурою та продуктивністю сховищ даних, а також гнучкістю та масштабованістю озер даних.
Ключові концепції Data Lakehouse
Гібридна архітектура
За своєю суттю сховище даних об’єднує сильні сторони озер даних і сховищ даних. Цей гібридний підхід дозволяє банкам зберігати величезні обсяги необроблених даних, зберігаючи здатність виконувати швидкі складні запити, типові для сховищ даних.
Єдина платформа даних
Однією з найбільш значних переваг Data Lakehouse є його здатність об’єднувати структуровані та неструктуровані дані на одній платформі. Для банків це означає, що ми можемо аналізувати традиційні транзакційні дані разом із неструктурованими даними про взаємодію з клієнтами, надаючи більш повне уявлення про наш бізнес і клієнтів.
Основні характеристики та переваги
Data lakehouses пропонують кілька ключових переваг, які особливо цінні в банківському секторі.
масштабованість
Оскільки обсяги наших даних зростають, архітектуру lakehouse можна легко масштабувати, щоб відповідати цьому зростанню. Це надзвичайно важливо в банківській справі, де ми постійно накопичуємо величезні обсяги даних про транзакції та клієнтів. Lakehouse дозволяє нам розширити наші можливості зберігання та обробки, не порушуючи наші поточні операції.
Гнучкість
Ми можемо зберігати та аналізувати різні типи даних, від записів транзакцій до електронних листів клієнтів. Ця гнучкість є неоціненною в сучасному банківському середовищі, де неструктуровані дані із соціальних медіа, дані про взаємодію з клієнтами та з інших джерел можуть надати багату інформацію в поєднанні з традиційними структурованими даними.
Аналітика в реальному часі
Це має вирішальне значення для виявлення шахрайства, оцінки ризиків і персоналізації клієнтського досвіду. У банківській справі здатність аналізувати дані в режимі реального часу може означати різницю між припиненням шахрайської транзакції та втратою мільйонів. Це також дозволяє нам пропонувати персоналізовані послуги та миттєво приймати рішення щодо схвалення кредитів або інвестиційних рекомендацій.
Ефективність витрат
Консолідуючи нашу інфраструктуру даних, ми можемо зменшити загальні витрати. Замість того, щоб підтримувати окремі системи для сховищ даних і аналітики великих даних, data lakehouse дозволяє нам поєднувати ці функції. Це не тільки зменшує витрати на обладнання та програмне забезпечення, але й спрощує нашу ІТ-інфраструктуру, що призводить до зниження витрат на технічне обслуговування та експлуатацію.
Управління даними
Покращена здатність реалізовувати robust управління даними практики, вирішальні в нашій жорстко регульованій галузі. Уніфікована природа озерця даних полегшує застосування узгоджених заходів щодо якості, безпеки та конфіденційності всіх наших даних. Це особливо важливо в банківській справі, де ми повинні дотримуватися суворих правил, як-от GDPR, PSD2, а також різні національні банківські правила.
Локальна архітектура Data Lakehouse
Локальна архітектура бази даних — це архітектура бази даних, реалізована у власних центрах обробки даних організації, а не в хмарі. Для багатьох банків, у тому числі для Akbank, вибір локального рішення часто обумовлений нормативними вимогами, питаннями суверенітету даних і необхідністю повного контролю над нашою інфраструктурою даних.
Основні компоненти
Локальна база даних зазвичай складається з чотирьох основних компонентів:
- Рівень зберігання даних
- Рівень обробки даних
- Управління метаданими
- Безпека та управління
Кожен із цих компонентів відіграє вирішальну роль у створенні надійної, ефективної та безпечної системи керування даними.
Детальна архітектура On-Premise Data Lakehouse
Рівень зберігання даних
Рівень зберігання є основою локального озерця даних. Ми використовуємо комбінацію Розподілена файлова система Hadoop (HDFS) і рішення для зберігання об’єктів для керування нашими величезними сховищами даних. Для структурованих даних, таких як інформація про облікові записи клієнта та записи транзакцій, ми використовуємо Айсберг Апач. Цей формат відкритої таблиці забезпечує чудову продуктивність для запитів і оновлення великих наборів даних. Для наших більш динамічних даних, таких як журнали транзакцій у реальному часі, ми використовуємо Апач Худі, що дозволяє здійснювати upserts і поступову обробку.
Рівень обробки даних
Рівень обробки даних – це місце, де відбувається магія. Ми використовуємо комбінацію пакетної обробки та обробки в реальному часі, щоб задовольнити наші різноманітні потреби в даних.
Для процесів ETL ми використовуємо Informatica PowerCenter, який дозволяє нам інтегрувати дані з різних джерел у всьому банку. Ми також почали об’єднання dbt (інструмент створення даних) для перетворення даних у нашому сховищі даних.
Apache Spark відіграє вирішальну роль у нашій обробці великих даних, дозволяючи нам виконувати комплексну аналітику великих наборів даних. Для обробки в режимі реального часу, зокрема для виявлення шахрайства та аналізу клієнтів у реальному часі, ми використовуємо Apache Flash.
Запит і аналітика
Щоб дати можливість нашим дослідникам даних і аналітикам отримувати інформацію з нашого озерця даних, ми впровадили Trino для інтерактивного запиту. Це дозволяє виконувати швидкі запити SQL до всього нашого озера даних, незалежно від того, де зберігаються дані.
Управління метаданими
Ефективне керування метаданими має вирішальне значення для підтримки порядку в нашому озері даних. Ми використовуємо Метасховище Apache Hive у поєднанні з Apache Iceberg для каталогізації та індексації наших даних. Ми також реалізували Амундсен, механізм метаданих LinkedIn з відкритим вихідним кодом, щоб допомогти нашій команді даних знайти та зрозуміти дані, доступні в нашому Lakehouse.
Безпека та управління
У банківському секторі безпека та управління є найважливішими. Ми використовуємо рейнджер апач для контролю доступу та конфіденційності даних, забезпечуючи доступ до конфіденційних даних клієнтів лише авторизованому персоналу. Для визначення походження даних і аудиту ми впровадили Атлас Apache, що допомагає нам відстежувати потік даних через наші системи та виконувати нормативні вимоги.
Зауваження щодо реалізації
Вимоги до інфраструктури
Впровадження локального озерця даних вимагає значних інвестицій в інфраструктуру. У Akbank нам довелося оновити апаратне забезпечення, щоб відповідати збільшеним вимогам до зберігання й обробки. Це включало високопродуктивні сервери, надійне мережеве обладнання та масштабовані рішення для зберігання.
Інтеграція з існуючими системами
Однією з наших ключових проблем була інтеграція бази даних із існуючими системами. Ми розробили стратегію поетапної міграції, поступово переміщуючи дані та процеси з наших застарілих систем на нову архітектуру. Такий підхід дозволив зберегти безперервність роботи під час переходу на нову систему.
Продуктивність та масштабованість
Забезпечення високої продуктивності в міру того, як наші дані зростають, було ключовою метою. Ми впровадили стратегії розподілу даних і оптимізували наші механізми запитів, щоб підтримувати швидкий час відповіді на запити, навіть коли обсяги наших даних збільшуються.
Проблеми та найкращі практики
Загальні проблеми
На нашому шляху до впровадження локального озерця даних ми зіткнулися з кількома проблемами:
- Проблеми з інтеграцією даних, особливо із застарілими системами
- Підтримка продуктивності в міру зростання обсягів даних
- Забезпечення якості даних із різних джерел даних
- Навчання нашої команди новим технологіям і процесам
Кращі практики
Ось кілька найкращих практик, які ми застосували:
- Впроваджуйте надійне управління даними з самого початку
- Інвестуйте в інструменти та процеси якості даних
- Забезпечте комплексне навчання для вашої команди
- Почніть з пілотного проекту перед повномасштабним впровадженням
- Регулярно переглядайте та оптимізуйте свою архітектуру
Тенденції майбутнього
Забігаючи наперед, ми бачимо кілька захоплюючих тенденцій у просторі озера даних:
- Збільшення впровадження штучного інтелекту та машинного навчання для керування даними та аналітики
- Більша інтеграція краю обчислень з даними lakehouses
- Покращена автоматизація управління даними та управління якістю
- Триває розвиток технологій з відкритим вихідним кодом, що підтримують архітектури озер даних
Висновок
Локальний центр даних є значним кроком уперед в управлінні даними для банківського сектору. В Akbank це дозволило нам уніфікувати нашу інфраструктуру даних, розширити наші аналітичні можливості та підтримувати найвищі стандарти безпеки та управління даними.
Оскільки ми продовжуємо орієнтуватися в постійно мінливому ландшафті банківських технологій, база даних, безсумнівно, відіграватиме вирішальну роль у нашій здатності використовувати дані для отримання стратегічної переваги. Для банків, які прагнуть залишатися конкурентоспроможними в цифровому світі тому серйозно розглядати архітектуру озера даних – локальну чи хмарну – більше не є необов’язковим, це необхідно.