Tankeledere

Forståelse av On-Premise Data Lakehouse Arkitektur

Published August 27, 2024

Updated April 3, 2026

Metin Sarıkaya, Head of Data Warehouse, Business Intelligence and Big Data at Akbank

I dagens datadrevne banklandskap er evnen til å håndtere og analysere store mengder data effektivt avgjørende for å opprettholde en konkurransefordel. Data lakehouse presenterer et revolusjonerende konsept som endrer hvordan vi nærmer oss datahåndtering i finanssektoren. Denne innovative arkitekturen kombinerer de beste egenskapene til data warehouse og data lakes . Den gir en samlet plattform for lagring, prosessering og analyse av både strukturert og ustrukturert data, og er derfor en uvurderlig ressurs for banker som ønsker å utnytte sine data for strategisk beslutning.

Utvikling av Dataarkitekturer

Reisen til data lakehouse har vært evolusjonær. Tradisjonelle data warehouse har lenge vært ryggraden i bankanalyse, og tilbyr strukturert data lagring og rask spørringsytelse. Men med den nylige eksplosjonen av ustrukturert data fra kilder som inkluderer sosiale medier, kundeinteraksjoner og IoT-enheter, har data lakes dukket opp som en samtids løsning for å lagre store mengder rådata.

Data lakehouse representerer neste skritt i denne utviklingen, og broer gapet mellom data warehouse og data lakes. For banker som Akbank betyr dette at vi nå kan nyte fordelen av begge verdener – struktur og ytelse av data warehouse, og fleksibilitet og skalerbarhet av data lakes.

Nøkkelkonsepter for Data Lakehouse

Hybrid Arkitektur

I kjernen integrerer en data lakehouse styrkene til data lakes og data warehouse. Denne hybridtilnærmingen tillater banker å lagre massive mengder rådata samtidig som de fortsatt kan utføre raske, komplekse spørringer typisk for data warehouse.

Samlet Data Plattform

En av de viktigste fordelenene med en data lakehouse er dens evne til å kombinere strukturert og ustrukturert data i en enkelt plattform. For banker betyr dette at vi kan analysere tradisjonelle transaksjonsdata sammen med ustrukturert data fra kundeinteraksjoner, og dermed få en mer omfattende oversikt over vår virksomhet og kunder.

Nøkelfunksjoner og Fordeler

Data lakehouse tilbyr flere nøkelfordeler som er spesielt verdifulle i banksektoren.

Skalerbarhet

Ettersom våre data volumer vokser, kan lakehouse-arkitekturen lett skaleres for å imøtekomme denne veksten. Dette er avgjørende i bank, hvor vi konstant akkumulerer store mengder transaksjons- og kundedata. Lakehouse tillater oss å utvide våre lagrings- og prosesseringskapasiteter uten å forstyrre våre eksisterende operasjoner.

Fleksibilitet

Vi kan lagre og analysere forskjellige datatyper, fra transaksjonsposter til kunde-e-post. Denne fleksibiliteten er uvurderlig i dagens bankmiljø, hvor ustrukturert data fra sosiale medier, kundeserviceinteraksjoner og andre kilder kan gi rike innsikter når de kombineres med tradisjonell strukturert data.

Sanntidsanalyse

Dette er avgjørende for svindelforebygging, risikovurdering og tilpasset kundeopplevelse. I bank betyr evnen til å analysere data i sanntid forskjellen på å stoppe en svindeltransaksjon og å tape millioner. Det tillater oss også å tilby tilpassede tjenester og å fatte beslutninger om lån eller investeringsanbefalinger i sanntid.

Kostnadseffektivitet

Ved å konsolidere vår datainfrastruktur, kan vi redusere de totale kostnadene. I stedet for å vedlikeholde separate systemer for data warehouse og big data-analyse, tillater en data lakehouse oss å kombinere disse funksjonene. Dette reduserer ikke bare maskinvare- og programvarekostnader, men forenkler også vår IT-infrastruktur, noe som fører til lavere vedlikeholds- og driftskostnader.

Datastyring

Forbedret evne til å implementere robuste datastyring praksis, avgjørende i vår høyt regulerte bransje. Den samlede naturen til en data lakehouse gjør det enklere å anvende konsekvent datakvalitet, sikkerhet og personverns tiltak på alle våre data. Dette er spesielt viktig i bank, hvor vi må overholde strenge reguleringskrav som GDPR , PSD2 og forskjellige nasjonale bankreguleringer.

On-Premise Data Lakehouse Arkitektur

En on-premise data lakehouse er en data lakehouse arkitektur implementert innen en organisasjons egne data sentre, i stedet for i skyen. For mange banker, inkludert Akbank, er valget av en on-premise løsning ofte drevet av regulatoriske krav, datasuverenitets bekymringer og behovet for full kontroll over vår data infrastruktur.

Kjernekomponenter

En on-premise data lakehouse består vanligvis av fire kjernekomponenter:

Data lagringslag
Data prosesseringslag
Metadata styring
Sikkerhet og styring

Hver av disse komponentene spiller en avgjørende rolle i å skape et robust, effektivt og sikker datahåndteringssystem.

Detaljert Arkitektur for On-Premise Data Lakehouse

Data Lagringslag

Lagringslaget er grunnlaget for en on-premise data lakehouse. Vi bruker en kombinasjon av Hadoop Distributed File System (HDFS) og objekt lagringsløsninger for å håndtere våre enorme data repositorier. For strukturert data, som kundeinformasjon og transaksjonsposter, utnytter vi Apache Iceberg . Dette åpne tabellformatet gir utmerket ytelse for spørring og oppdatering av store datasett. For vår mer dynamiske data, som sanntids transaksjonslogger, bruker vi Apache Hudi , som tillater upserts og inkrementell prosessering.

Data Prosesseringslag

Data prosesseringslaget er der magien skjer. Vi anvender en kombinasjon av batch og sanntids prosessering for å håndtere våre forskjellige data behov.

For ETL-prosesser bruker vi Informatica PowerCenter, som lar oss integrere data fra forskjellige kilder over hele banken. Vi har også startet å inkorporere dbt (data build tool) for å transformere data i vårt data warehouse.

Apache Spark spiller en avgjørende rolle i vår big data prosessering, og lar oss utføre kompleks analyse på store datasett. For sanntids prosessering, spesielt for svindelforebygging og sanntids kundeinnsikt, bruker vi Apache Flink .

Spørring og Analyse

For å aktivere våre data vitenskapsmenn og analytikere til å trekke innsikt fra vår data lakehouse, har vi implementert Trino for interaktiv spørring. Dette lar oss utføre raske SQL-spørringer over hele vår data lake, uavhengig av hvor dataene lagres.

Metadata Styring

Effektiv metadata styring er avgjørende for å opprettholde orden i vår data lakehouse. Vi bruker Apache Hive metastore i kombinasjon med Apache Iceberg for å katalogisere og indeksere våre data. Vi har også implementert Amundsen , LinkedIns åpne kilde metadata motor, for å hjelpe vårt data team med å oppdage og forstå dataene tilgjengelige i vår lakehouse.

Sikkerhet og Styring

I banksektoren er sikkerhet og styring avgjørende. Vi bruker Apache Ranger for tilgangskontroll og data personvern, og sikrer at følsomme kundedata bare er tilgjengelig for autoriserte personer. For data linje og revisjon har vi implementert Apache Atlas , som hjelper oss med å spore datastrømmen gjennom våre systemer og overholde regulatoriske krav.

Implementerings Overveielser

Infrastruktur Krav

Implementering av en on-premise data lakehouse krever betydelig infrastruktur investering. Hos Akbank har vi måttet oppgradere vår maskinvare for å håndtere økt lagring og prosesseringskrav. Dette inkluderte høy-ytelses servere, robust nettverksutstyr og skalerbare lagringsløsninger.

Integrasjon med Eksisterende Systemer

En av våre viktigste utfordringer var å integrere data lakehouse med våre eksisterende systemer. Vi utviklet en fasevis migreringsstrategi, og flyttet gradvis data og prosesser fra våre legacy systemer til den nye arkitekturen. Denne tilnærmingen tillot oss å opprettholde forretningskontinuitet mens vi gikk over til det nye systemet.

Ytelse og Skalerbarhet

Sikring av høy ytelse mens våre data vokser har vært et viktig fokus. Vi har implementert data partitioneringsstrategier og optimalisert våre spørringsmotorer for å opprettholde raske spørringsresponstider selv når våre data volumer øker.

Utfordringer og Beste Praksis

Vanlige Utfordinger

I vår reise for å implementere en on-premise data lakehouse, har vi møtt flere utfordringer:

Data integreringsproblemer, spesielt med legacy systemer
Opprettholde ytelse mens data volumer vokser
Sikre datakvalitet over forskjellige data kilder
Trenere vårt team på nye teknologier og prosesser

Beste Praksis

Related Topics:data lakehouse thought leaders