AI 101

Hvad er ETL? (Udtræk, transformer, indlæs) Metodik og brugssager

Opdateret on Januar 14, 2023

ETL står for "extract, transform, load". Det er en proces, der integrerer data fra forskellige kilder i et enkelt depot, så det kan behandles og derefter analyseres, så nyttig information kan udledes fra det. Disse nyttige oplysninger hjælper virksomheder med at træffe datadrevne beslutninger og vokse.

"Data er den nye olie."

Clive Humby, matematiker

Global dataskabelse er steget eksponentielt, så meget, at som ifølge Forbes, med den nuværende hastighed, fordobler mennesker dataskabelsen hvert andet år. Som et resultat har den moderne datastak udviklet sig. Data marts er konverteret til datavarehuse, og når det ikke har været nok, er der lavet datasøer. Selvom i alle disse forskellige infrastrukturer, forblev én proces den samme, ETL-processen.

I denne artikel vil vi se nærmere på ETL's metodologi, dens use cases, dens fordele, og hvordan denne proces har været med til at danne det moderne datalandskab.

Metode for ETL

ETL gør det muligt at integrere data fra forskellige kilder på ét sted, så de kan behandles, analyseres og derefter deles med virksomhedernes interessenter. Det sikrer integriteten af de data, der skal bruges til rapportering, analyse og forudsigelse med maskinlæringsmodeller. Det er en tre-trins proces, der udtrækker data fra flere kilder, transformerer dem og derefter indlæser dem i business intelligence-værktøjer. Disse business intelligence-værktøjer bruges derefter af virksomheder til at træffe datadrevne beslutninger.

Udvindingsfasen

I denne fase udvindes dataene fra flere kilder ved hjælp af SQL-forespørgsler, Python-koder, DBMS (databasestyringssystemer) eller ETL-værktøjer. De mest almindelige kilder er:

CRM-software (Customer Relationship Management).
Analytics-værktøj
Datavarehus
Database
Cloud storage platforme
Salgs- og marketingværktøjer
mobile apps

Disse kilder er enten strukturerede eller ustrukturerede, hvorfor formatet af dataene ikke er ensartet på nuværende tidspunkt.

Forvandlingsfasen

I transformationsfasen transformeres de udtrukne rådata og kompileres til et format, der passer til målsystemet. Til det gennemgår de rå data nogle få transformationsunderprocesser, såsom:

Udrensning – der tages højde for inkonsistente og manglende data.
Standardisering – ensartet formatering anvendes hele vejen igennem.
Duplikeringsfjernelse – redundante data fjernes.
Spotting outliers - outliers spottes og normaliseres.
Sortering – data er organiseret på en måde, der øger effektiviteten.

Ud over at omformatere dataene er der også andre grunde til behovet for transformation af dataene. Nul-værdier, hvis de findes i dataene, bør fjernes; derudover er der ofte outliers i dataene, som påvirker analysen negativt; de bør behandles i transformationsfasen. Ofte støder vi på data, der er overflødige og ikke bringer værdi til virksomheden; sådanne data droppes i transformationsfasen for at spare systemets lagerplads. Det er de problemer, der bliver løst i transformationsfasen.

Belastningsfasen

Når rådata er udtrukket og skræddersyet med transformationsprocesser, indlæses det i målsystemet, som normalt enten er et datavarehus eller en datasø. Der er to forskellige måder at udføre belastningsfasen på.

Fuld Loading: Alle data indlæses på én gang for første gang i målsystemet. Det er teknisk mindre komplekst, men tager mere tid. Det er ideelt i tilfælde, hvor størrelsen af dataene ikke er for store.
Inkrementel belastning: Inkrementel belastning, som navnet antyder, udføres i trin. Den har to underkategorier.

Stream Incremental Loading: Data indlæses i intervaller, normalt dagligt. Denne form for indlæsning er bedst, når data er i små mængder.
Inkrementel batchindlæsning: I batchtypen for trinvis indlæsning indlæses dataene i batches med et interval mellem to batcher. Det er ideelt, når dataene er for store. Det er hurtigt, men teknisk set mere komplekst.

Typer af ETL-værktøjer

ETL udføres på to måder, manuel ETL eller no-code ETL. I manuel ETL er der lidt eller ingen automatisering. Alt er kodet af et team, der involverer dataforskeren, dataanalytikeren og dataingeniøren. Alle pipelines af udtræk, transformation og indlæsning er designet til alle datasæt manuelt. Alt dette forårsager enorm produktivitet og ressourcetab.

Alternativet er no-code ETL; disse værktøjer har normalt træk-og-slip-funktioner. Disse værktøjer fjerner fuldstændigt behovet for kodning, hvilket gør det muligt for selv ikke-teknologiske arbejdere at udføre ETL. For deres interaktive design og inkluderende tilgang bruger de fleste virksomheder Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow og Oracle Data Integrator til deres ETL-drift.

Der findes fire typer ETL-værktøjer uden kode i dataindustrien.

Kommercielle ETL værktøjer
Open Source ETL værktøjer
Brugerdefinerede ETL værktøjer
Cloud-baserede ETL værktøjer

Bedste praksis for ETL

Der er nogle praksisser og protokoller, der bør følges for at sikre en optimeret ETL-pipeline. De bedste fremgangsmåder diskuteres nedenfor:

Forståelse af konteksten af data: Hvordan data indsamles, og hvad metrikkerne betyder, skal forstås korrekt. Det ville hjælpe med at identificere, hvilke attributter der er overflødige og bør fjernes.
Gendannelseskontrolpunkter: I tilfælde af at rørledningen er brudt, og der er et datalæk, skal man have protokoller på plads for at gendanne de lækkede data.
ETL-logbog: Der skal vedligeholdes en ETL-logbog, der har en registrering af hver eneste proces, der er blevet udført med dataene før, under og efter en ETL-cyklus.
Revision: Holder et tjek på dataene efter et interval bare for at sikre, at dataene er i den tilstand, som du ønskede det skulle være.
Lille størrelse af data: Størrelsen af databaserne og deres tabeller bør holdes små på en sådan måde, at data spredes mere vandret end vertikalt. Denne praksis sikrer et boost i behandlingshastigheden og fremskynder i forlængelse heraf ETL-processen.
Oprettelse af et cachelag: Cachelag er et datalager med høj hastighed, der gemmer nyligt brugte data på en disk, hvor der hurtigt kan tilgås dem. Denne praksis hjælper med at spare tid, når de cachelagrede data er dem, systemet anmoder om.
Parallel behandling: At behandle ETL som en seriel proces optager en stor del af virksomhedens tid og ressourcer, hvilket gør hele processen ekstremt ineffektiv. Løsningen er at lave parallel behandling og flere ETL integrationer på én gang.

ETL Use Cases

ETL gør driften smidig og effektiv for virksomheder på en række måder, men vi vil diskutere de tre mest populære use cases her.

Uploader til skyen:

Lagring af data lokalt er en dyr mulighed, der får virksomheder til at bruge ressourcer på at købe, holde, køre og vedligeholde serverne. For at undgå alt dette besvær kan virksomheder uploade data direkte til skyen. Dette sparer værdifulde ressourcer og tid, som derefter kan investeres i at forbedre andre facetter af ETL-processen.

Sammenfletning af data fra forskellige kilder:

Data er ofte spredt på tværs af forskellige systemer i en organisation. Sammenlægning af data fra forskellige kilder på ét sted, så de kan behandles og derefter analyseres til senere at blive delt med interessenterne, sker ved brug af ETL-processen. ETL sørger for, at data fra forskellige kilder formateres ensartet, mens integriteten af dataene forbliver intakte.

Prædiktiv modellering:

Datadrevet beslutningstagning er hjørnestenen i en succesfuld forretningsstrategi. ETL hjælper virksomheder ved at udtrække data, transformere dem og derefter indlæse dem i databaser, der er forbundet med maskinlæringsmodeller. Disse maskinlæringsmodeller analyserer dataene, efter de har gennemgået en ETL-proces, og laver derefter forudsigelser baseret på disse data.

Fremtiden for ETL i datalandskab

ETL spiller bestemt rollen som rygraden for dataarkitekturen; om det ville forblive sådan eller ej, er endnu uvist, for med introduktionen af Zero ETL i tech-industrien er store ændringer nært forestående. Med Zero ETL ville der ikke være behov for de traditionelle udtræks-, transformerings- og indlæsningsprocesser, men dataene ville blive direkte overført til målsystemet i næsten realtid.

Der er adskillige nye tendenser i dataøkosystemet. Tjek ud forene.ai at udvide din viden om tech trends.