Liderzy myśli
Zrozumienie lokalnej architektury Data Lakehouse

W dzisiejszym krajobrazie bankowości opartej na danych zdolność do efektywnego zarządzania ogromnymi ilościami danych i analizowania ich ma kluczowe znaczenie dla utrzymania przewagi konkurencyjnej. The Lakehouse danych przedstawia rewolucyjną koncepcję, która zmienia sposób, w jaki podchodzimy do zarządzania danymi w sektorze finansowym. Ta innowacyjna architektura łączy w sobie najlepsze cechy magazyn danych oraz jeziora danych. Zapewnia ujednoliconą platformę do przechowywania, przetwarzania i analizowania zarówno danych ustrukturyzowanych, jak i nieustrukturyzowanych, co czyni go nieocenionym nabytkiem dla banków chcących wykorzystać swoje dane do podejmowania strategicznych decyzji.
Ewolucja architektur danych
Droga do jezior danych ma charakter ewolucyjny. Tradycyjne hurtownie danych od dawna stanowią podstawę analityki bankowej, oferując ustrukturyzowane przechowywanie danych i szybką wydajność zapytań. Jednak wraz z niedawną eksplozją nieustrukturyzowanych danych pochodzących ze źródeł takich jak media społecznościowe, interakcje z klientami i urządzenia IoT, jeziora danych stały się współczesnym rozwiązaniem do przechowywania ogromnych ilości surowych danych.
Data Lakehouse stanowi kolejny krok w tej ewolucji, wypełniając lukę pomiędzy hurtowniami danych a jeziorami danych. Dla banków takich jak Akbank oznacza to, że możemy teraz cieszyć się korzyściami płynącymi z obu światów – strukturą i wydajnością hurtowni danych oraz elastycznością i skalowalnością jezior danych.
Kluczowe koncepcje Data Lakehouse
Architektura hybrydowa
W swej istocie Data Lakehouse integruje mocne strony jezior danych i hurtowni danych. To hybrydowe podejście pozwala bankom przechowywać ogromne ilości surowych danych, zachowując jednocześnie możliwość wykonywania szybkich, złożonych zapytań typowych dla hurtowni danych.
Ujednolicona platforma danych
Jedną z najważniejszych zalet jeziora danych jest możliwość łączenia danych ustrukturyzowanych i nieustrukturyzowanych na jednej platformie. Dla banków oznacza to, że możemy analizować tradycyjne dane transakcyjne wraz z nieustrukturyzowanymi danymi pochodzącymi z interakcji z klientami, zapewniając pełniejszy obraz naszej działalności i klientów.
Najważniejsze cechy i zalety
Data Lakehouse oferują kilka kluczowych korzyści, które są szczególnie cenne w sektorze bankowym.
Skalowalność
W miarę wzrostu ilości danych architekturę Lakehouse można łatwo skalować, aby dostosować się do tego wzrostu. Ma to kluczowe znaczenie w bankowości, gdzie stale gromadzimy ogromne ilości danych transakcyjnych i klientów. Lakehouse pozwala nam rozszerzać nasze możliwości w zakresie przechowywania i przetwarzania bez zakłócania naszej dotychczasowej działalności.
Elastyczność
Możemy przechowywać i analizować różne typy danych, od zapisów transakcji po e-maile klientów. Ta elastyczność jest nieoceniona w dzisiejszym środowisku bankowym, gdzie nieustrukturyzowane dane z mediów społecznościowych, interakcji z obsługą klienta i innych źródeł mogą zapewnić bogate informacje w połączeniu z tradycyjnymi danymi ustrukturyzowanymi.
Analiza w czasie rzeczywistym
Ma to kluczowe znaczenie dla wykrywania oszustw, oceny ryzyka i personalizacji doświadczeń klientów. W bankowości możliwość analizowania danych w czasie rzeczywistym może oznaczać różnicę między zatrzymaniem oszukańczej transakcji a utratą milionów. Umożliwia nam to także oferowanie spersonalizowanych usług i podejmowanie decyzji w sprawie zatwierdzenia pożyczki lub rekomendacji inwestycyjnych w ułamku sekundy.
Opłacalność
Konsolidując naszą infrastrukturę danych, możemy obniżyć koszty ogólne. Zamiast utrzymywać oddzielne systemy do hurtowni danych i analityki Big Data, data Lakehouse pozwala nam połączyć te funkcje. To nie tylko zmniejsza koszty sprzętu i oprogramowania, ale także upraszcza naszą infrastrukturę IT, co prowadzi do niższych kosztów konserwacji i operacyjnych.
Zarządzanie danymi
Zwiększona możliwość wdrożenia solidnego zarządzanie danymi praktyk, kluczowych w naszej ściśle regulowanej branży. Ujednolicony charakter jeziora danych ułatwia stosowanie spójnych środków w zakresie jakości, bezpieczeństwa i prywatności danych we wszystkich naszych danych. Jest to szczególnie istotne w bankowości, gdzie musimy przestrzegać rygorystycznych przepisów m.in RODO, PSD2oraz różne krajowe przepisy bankowe.
Architektura Lakehouse danych lokalnych
Lokalne jezioro danych to architektura jeziora danych wdrożona we własnych centrach danych organizacji, a nie w chmurze. W przypadku wielu banków, w tym Akbanku, wybór rozwiązania lokalnego jest często podyktowany wymogami regulacyjnymi, obawami dotyczącymi suwerenności danych i potrzebą pełnej kontroli nad naszą infrastrukturą danych.
Podstawowe komponenty
Lokalne jezioro danych składa się zazwyczaj z czterech podstawowych komponentów:
- Warstwa przechowywania danych
- Warstwa przetwarzania danych
- Zarządzanie metadanymi
- Bezpieczeństwo i zarządzanie
Każdy z tych komponentów odgrywa kluczową rolę w tworzeniu solidnego, wydajnego i bezpiecznego systemu zarządzania danymi.
Szczegółowa architektura lokalnego Data Lakehouse
Warstwa przechowywania danych
Warstwa pamięci masowej stanowi podstawę lokalnego jeziora danych. Używamy kombinacji Rozproszony system plików Hadoop (HDFS) oraz rozwiązania do przechowywania obiektów w celu zarządzania naszymi ogromnymi repozytoriami danych. W przypadku danych strukturalnych, takich jak informacje o kontach klientów i zapisy transakcji, wykorzystujemy dźwignię Góra lodowa Apache. Ten format otwartej tabeli zapewnia doskonałą wydajność podczas wykonywania zapytań i aktualizowania dużych zbiorów danych. W przypadku naszych bardziej dynamicznych danych, takich jak dzienniki transakcji w czasie rzeczywistym, używamy Apache Hudi, co pozwala na wstawki i przetwarzanie przyrostowe.
Warstwa przetwarzania danych
W warstwie przetwarzania danych dzieje się magia. Aby zaspokoić nasze różnorodne potrzeby w zakresie danych, stosujemy kombinację przetwarzania wsadowego i przetwarzania w czasie rzeczywistym.
Do procesów ETL wykorzystujemy Informatica PowerCenter, co pozwala na integrację danych z różnych źródeł w całym banku. Rozpoczęliśmy także wprowadzanie dbt (narzędzie do budowania danych) do transformacji danych w naszej hurtowni danych.
Apache Spark odgrywa kluczową rolę w przetwarzaniu dużych zbiorów danych, umożliwiając nam przeprowadzanie złożonych analiz na dużych zbiorach danych. Do przetwarzania w czasie rzeczywistym, w szczególności do wykrywania oszustw i uzyskiwania informacji o klientach w czasie rzeczywistym, używamy Apache Flash.
Zapytania i analityka
Aby umożliwić naszym badaczom i analitykom danych wyciąganie wniosków z naszego jeziora danych, wdrożyliśmy Tryl do interaktywnych zapytań. Umożliwia to szybkie wykonywanie zapytań SQL w całym naszym jeziorze danych, niezależnie od tego, gdzie dane są przechowywane.
Zarządzanie metadanymi
Efektywne zarządzanie metadanymi jest kluczowe dla utrzymania porządku w naszym jeziorze danych. Używamy Magazyn metadanych Apache Hive we współpracy z Apache Iceberg w celu katalogowania i indeksowania naszych danych. Wdrożyliśmy również Amundsena, silnik metadanych typu open source firmy LinkedIn, który pomaga naszemu zespołowi ds. danych odkrywać i rozumieć dane dostępne w naszym jeziorze.
Bezpieczeństwo i zarządzanie
W sektorze bankowym bezpieczeństwo i zarządzanie mają ogromne znaczenie. Używamy Strażnik Apaczów kontroli dostępu i prywatności danych, zapewniając, że wrażliwe dane klientów będą dostępne wyłącznie dla upoważnionego personelu. Wdrożyliśmy funkcję gromadzenia danych i audytu Atlas Apache, co pomaga nam śledzić przepływ danych przez nasze systemy i spełniać wymogi regulacyjne.
Uwagi dotyczące implementacji
Wymagania dotyczące infrastruktury
Wdrożenie lokalnego jeziora danych wymaga znacznych inwestycji w infrastrukturę. W Akbank musieliśmy zmodernizować nasz sprzęt, aby sprostać zwiększonym wymaganiom w zakresie przechowywania i przetwarzania. Obejmowały one serwery o wysokiej wydajności, solidny sprzęt sieciowy i skalowalne rozwiązania pamięci masowej.
Integracja z istniejącymi systemami
Jednym z naszych kluczowych wyzwań była integracja jeziora danych z naszymi istniejącymi systemami. Opracowaliśmy strategię migracji etapowej, stopniowo przenosząc dane i procesy z naszych starszych systemów do nowej architektury. Takie podejście pozwoliło nam zachować ciągłość działania podczas przejścia na nowy system.
Wydajność i skalowalność
Naszym głównym celem było zapewnienie wysokiej wydajności w miarę wzrostu ilości danych. Wdrożyliśmy strategie partycjonowania danych i zoptymalizowaliśmy nasze silniki zapytań, aby zapewnić szybki czas odpowiedzi na zapytania, nawet w przypadku wzrostu ilości danych.
Wyzwania i najlepsze praktyki
Wspólne wyzwania
Podczas naszej podróży do wdrożenia lokalnego jeziora danych stanęliśmy przed kilkoma wyzwaniami:
- Problemy z integracją danych, szczególnie w przypadku starszych systemów
- Utrzymanie wydajności w miarę wzrostu ilości danych
- Zapewnienie jakości danych w różnych źródłach danych
- Szkolenie naszego zespołu w zakresie nowych technologii i procesów
Najlepsze praktyki
Oto kilka najlepszych praktyk, które przyjęliśmy:
- Od samego początku wdrażaj skuteczne zarządzanie danymi
- Inwestuj w narzędzia i procesy zapewniające jakość danych
- Zapewnij kompleksowe szkolenie swojemu zespołowi
- Rozpocznij od projektu pilotażowego przed wdrożeniem na pełną skalę
- Regularnie przeglądaj i optymalizuj swoją architekturę
Przyszłe trendy
Patrząc w przyszłość, widzimy kilka ekscytujących trendów w przestrzeni Data Lakehouse:
- Większe wykorzystanie sztucznej inteligencji i uczenia maszynowego do zarządzania danymi i analityki
- Większa integracja przetwarzanie krawędziowe z jeziorami danych
- Większa automatyzacja zarządzania danymi i jakością
- Ciągła ewolucja technologii open source wspierających architektury Data Lakehouse
Podsumowanie
Lokalne rozwiązanie Data Lakehouse stanowi znaczący krok naprzód w zarządzaniu danymi w sektorze bankowym. W Akbanku pozwoliło nam to ujednolicić naszą infrastrukturę danych, zwiększyć nasze możliwości analityczne i utrzymać najwyższe standardy bezpieczeństwa danych i zarządzania.
W miarę jak będziemy poruszać się po stale zmieniającym się krajobrazie technologii bankowych, jezioro danych niewątpliwie odegra kluczową rolę w naszej zdolności do wykorzystania danych w celu uzyskania strategicznej przewagi. Dla banków, które chcą pozostać konkurencyjnymi w środowisku cyfrowym wiek, poważnie rozważając architekturę typu data Lakehouse – lokalnie lub w chmurze – nie jest już opcjonalna, ale konieczna.