AI 101

Wat is ETL? (Extraheren, Transformeren, Laden) Methodologie & Use cases

Bijgewerkt on 14 januari 2023

ETL staat voor "extraheren, transformeren, laden". Het is een proces dat gegevens uit verschillende bronnen integreert in één repository, zodat ze kunnen worden verwerkt en vervolgens geanalyseerd, zodat er bruikbare informatie uit kan worden afgeleid. Deze nuttige informatie helpt bedrijven datagestuurde beslissingen te nemen en te groeien.

“Data is de nieuwe olie.”

Clive Humby, wiskundige

De wereldwijde datacreatie is exponentieel toegenomen, zozeer zelfs dat, volgens Forbes, in het huidige tempo, mensen de datacreatie elke twee jaar verdubbelen. Als gevolg hiervan is de moderne datastack geëvolueerd. Datamarts zijn omgebouwd tot datawarehouses, en als dat nog niet genoeg is, zijn er datameren gecreëerd. Hoewel in al deze verschillende infrastructuren één proces hetzelfde is gebleven, het ETL-proces.

In dit artikel gaan we in op de methodologie van ETL, de use cases, de voordelen en hoe dit proces heeft bijgedragen aan het vormen van het moderne datalandschap.

Methodologie van ETL

ETL maakt het mogelijk om gegevens uit verschillende bronnen op één plek te integreren, zodat deze kunnen worden verwerkt, geanalyseerd en vervolgens gedeeld met de belanghebbenden van bedrijven. Het garandeert de integriteit van de gegevens die moeten worden gebruikt voor rapportage, analyse en voorspelling met machine learning-modellen. Het is een proces in drie stappen dat gegevens uit meerdere bronnen haalt, transformeert en vervolgens in business intelligence-tools laadt. Deze business intelligence-tools worden vervolgens door bedrijven gebruikt om datagestuurde beslissingen te nemen.

De extractiefase

In deze fase worden de gegevens uit meerdere bronnen gehaald met behulp van SQL-query's, Python-codes, DBMS (databasebeheersystemen) of ETL-tools. De meest voorkomende bronnen zijn:

CRM-software (klantrelatiebeheer).
Analytics-tool
Gegevens magazijn
Database
Cloudopslagplatforms
Verkoop- en marketingtools
Mobiele apps

Deze bronnen zijn gestructureerd of ongestructureerd, waardoor het formaat van de gegevens in dit stadium niet uniform is.

De transformatiefase

In de transformatiefase worden de geëxtraheerde onbewerkte gegevens getransformeerd en gecompileerd in een formaat dat geschikt is voor het doelsysteem. Daarvoor ondergaat de ruwe data enkele transformatie-subprocessen, zoals:

Opschonen: er wordt rekening gehouden met inconsistente en ontbrekende gegevens.
Standaardisatie: overal wordt uniforme opmaak toegepast.
Verwijdering van duplicatie: overbodige gegevens worden verwijderd.
Uitschieters opsporen - uitschieters worden opgemerkt en genormaliseerd.
Sorteren: gegevens worden op een manier georganiseerd die de efficiëntie verhoogt.

Naast het opnieuw formatteren van de gegevens, zijn er ook andere redenen waarom de gegevens moeten worden getransformeerd. Null-waarden, indien aanwezig in de gegevens, moeten worden verwijderd; verder zijn er vaak uitschieters in de data die de analyse negatief beïnvloeden; ze moeten worden aangepakt in de transformatiefase. Vaak komen we gegevens tegen die overbodig zijn en geen waarde toevoegen aan het bedrijf; dergelijke gegevens worden in de transformatiefase gedropt om de opslagruimte van het systeem te besparen. Dit zijn de problemen die worden opgelost in de transformatiefase.

De laadfase

Zodra de onbewerkte gegevens zijn geëxtraheerd en aangepast met transformatieprocessen, worden ze geladen in het doelsysteem, dat meestal een datawarehouse of een datameer is. Er zijn twee verschillende manieren om de laadfase uit te voeren.

Volledig laden: alle gegevens worden voor het eerst in één keer in het doelsysteem geladen. Het is technisch minder complex maar kost meer tijd. Het is ideaal in het geval dat de omvang van de gegevens niet te groot is.
Incrementeel laden: Incrementeel laden, zoals de naam al doet vermoeden, wordt in stappen uitgevoerd. Het heeft twee subcategorieën.

Stream incrementeel laden: gegevens worden met tussenpozen geladen, meestal dagelijks. Dit soort laden is het beste wanneer de gegevens in kleine hoeveelheden zijn.
Batch incrementeel laden: bij het batchtype van incrementeel laden worden de gegevens in batches geladen met een interval tussen twee batches. Het is ideaal voor wanneer de gegevens te groot zijn. Het is snel maar technisch complexer.

Soorten ETL-tools

ETL wordt op twee manieren uitgevoerd: handmatige ETL of ETL zonder code. Bij handmatige ETL is er weinig tot geen automatisering. Alles wordt gecodeerd door een team van de datawetenschapper, data-analist en data-engineer. Alle pijplijnen voor extraheren, transformeren en laden zijn handmatig ontworpen voor alle datasets. Dit alles veroorzaakt een enorm productiviteits- en resourceverlies.

Het alternatief is ETL zonder code; deze tools hebben meestal functies voor slepen en neerzetten. Deze tools maken het coderen volledig overbodig, waardoor zelfs niet-technische werknemers ETL kunnen uitvoeren. Vanwege hun interactieve ontwerp en inclusieve benadering gebruiken de meeste bedrijven Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow en Oracle Data Integrator voor hun ETL-activiteiten.

Er bestaan vier soorten ETL-tools zonder code in de data-industrie.

Commerciële ETL-tools
Open Source ETL-tools
Aangepaste ETL-tools
Op de cloud gebaseerde ETL-tools

Beste praktijken voor ETL

Er zijn enkele praktijken en protocollen die moeten worden gevolgd om een geoptimaliseerde ETL-pijplijn te garanderen. De best practices worden hieronder besproken:

De context van gegevens begrijpen: hoe gegevens worden verzameld en wat de statistieken betekenen, moet goed worden begrepen. Het zou helpen identificeren welke attributen overbodig zijn en moeten worden verwijderd.
Recovery Checkpoints: In het geval dat de pijplijn kapot is en er een datalek is, moet men beschikken over protocollen om de gelekte data te herstellen.
ETL-logboek: Er moet een ETL-logboek worden bijgehouden met daarin een overzicht van elk proces dat vóór, tijdens en na een ETL-cyclus met de gegevens is uitgevoerd.
Auditing: de gegevens na een interval controleren om er zeker van te zijn dat de gegevens in de gewenste staat zijn.
Kleine gegevensomvang: De omvang van de databases en hun tabellen moet zo klein worden gehouden dat de gegevens meer horizontaal dan verticaal worden verspreid. Deze praktijk zorgt voor een boost in de verwerkingssnelheid en versnelt bij uitbreiding het ETL-proces.
Een cachelaag maken: Cachelaag is een supersnelle gegevensopslaglaag die recent gebruikte gegevens opslaat op een schijf waar ze snel toegankelijk zijn. Deze praktijk helpt tijd te besparen wanneer de gegevens in de cache degene zijn die door het systeem worden gevraagd.
Parallelle verwerking: ETL behandelen als een serieel proces kost een groot deel van de tijd en middelen van het bedrijf, waardoor het hele proces uiterst inefficiënt wordt. De oplossing is om parallelle verwerking en meerdere ETL-integraties tegelijk uit te voeren.

ETL-gebruiksgevallen

ETL maakt operaties voor bedrijven op een aantal manieren soepel en efficiënt, maar we zullen hier de drie meest populaire use-cases bespreken.

Uploaden naar de cloud:

Gegevens lokaal opslaan is een dure optie waarbij bedrijven middelen besteden aan het kopen, houden, uitvoeren en onderhouden van de servers. Om al dit gedoe te voorkomen, kunnen bedrijven de gegevens rechtstreeks naar de cloud uploaden. Dit bespaart waardevolle middelen en tijd, die vervolgens kunnen worden geïnvesteerd om andere facetten van het ETL-proces te verbeteren.

Gegevens uit verschillende bronnen samenvoegen:

Data is vaak verspreid over verschillende systemen in een organisatie. Het samenvoegen van gegevens uit verschillende bronnen op één plek, zodat deze kunnen worden verwerkt en vervolgens geanalyseerd om later met de belanghebbenden te worden gedeeld, wordt gedaan met behulp van het ETL-proces. ETL zorgt ervoor dat gegevens uit verschillende bronnen uniform worden opgemaakt terwijl de integriteit van de gegevens intact blijft.

Voorspellende modellering:

Datagedreven besluitvorming is de hoeksteen van een succesvolle bedrijfsstrategie. ETL helpt bedrijven door gegevens te extraheren, te transformeren en vervolgens in databases te laden die zijn gekoppeld aan machine learning-modellen. Deze machine learning-modellen analyseren de gegevens nadat deze een ETL-proces hebben doorlopen en doen vervolgens voorspellingen op basis van die gegevens.

Toekomst van ETL in datalandschap

ETL speelt zeker de rol van ruggengraat voor de data-architectuur; of dat zo blijft of niet, valt nog te bezien, want met de introductie van Zero ETL in de tech-industrie staan er grote veranderingen op stapel. Met Zero ETL zouden de traditionele extractie-, transformatie- en laadprocessen niet nodig zijn, maar zouden de gegevens vrijwel in realtime rechtstreeks naar het doelsysteem worden overgebracht.

Er zijn tal van opkomende trends in het data-ecosysteem. Uitchecken verenigen.ai om uw kennis over technische trends uit te breiden.