škrbina Kaj je ETL? (Extract, Transform, Load) Metodologija in primeri uporabe - Unite.AI
Povežite se z nami

AI 101

Kaj je ETL? (Extract, Transform, Load) Metodologija in primeri uporabe

mm
Posodobljeno on

ETL pomeni "izvleček, transformacija, nalaganje". To je postopek, ki združuje podatke iz različnih virov v en sam repozitorij, tako da jih je mogoče obdelati in nato analizirati, tako da je mogoče iz njih sklepati o koristnih informacijah. Te koristne informacije so tisto, kar podjetjem pomaga sprejemati odločitve, ki temeljijo na podatkih, in rasti.

"Podatki so novo olje."

Clive Humby, matematik

Ustvarjanje globalnih podatkov se je tako eksponentno povečalo, da po podatkih Forbesa ljudje s trenutno hitrostjo podvojijo ustvarjanje podatkov vsaki dve leti. Posledično se je razvil sodobni sklad podatkov. Podatkovne tržnice so bile pretvorjene v podatkovna skladišča, in ko to ni bilo dovolj, so nastala podatkovna jezera. Čeprav je v vseh teh različnih infrastrukturah en proces ostal enak, proces ETL.

V tem članku bomo preučili metodologijo ETL, primere njegove uporabe, prednosti in kako je ta proces pomagal oblikovati sodobno podatkovno pokrajino.

Metodologija ETL

ETL omogoča integracijo podatkov iz različnih virov na enem mestu, tako da jih je mogoče obdelati, analizirati in nato deliti z deležniki v podjetjih. Zagotavlja celovitost podatkov, ki se bodo uporabljali za poročanje, analizo in napovedovanje z modeli strojnega učenja. Gre za postopek v treh korakih, ki izvleče podatke iz več virov, jih preoblikuje in nato naloži v orodja za poslovno inteligenco. Ta orodja poslovne inteligence nato uporabljajo podjetja za sprejemanje odločitev na podlagi podatkov.

Faza ekstrakcije

V tej fazi se podatki ekstrahirajo iz več virov z uporabo poizvedb SQL, kod Python, DBMS (sistemov za upravljanje baz podatkov) ali orodij ETL. Najpogostejši viri so:

  • Programska oprema CRM (Customer Relationship Management).
  • Orodje Analytics
  • Skladišče podatkov
  • Baze podatkov
  • Platforme za shranjevanje v oblaku
  • Orodja za prodajo in trženje
  • Mobilne aplikacije

Ti viri so strukturirani ali nestrukturirani, zato format podatkov na tej stopnji ni enoten.

Faza preobrazbe

V fazi transformacije se ekstrahirani neobdelani podatki pretvorijo in prevedejo v obliko, ki je primerna za ciljni sistem. Za to so neobdelani podatki podvrženi nekaj podprocesom transformacije, kot so:

  1. Čiščenje – poskrbljeno je za nedosledne in manjkajoče podatke.
  2. Standardizacija – povsod se uporablja enotno oblikovanje.
  3. Odstranjevanje podvajanja—odstranjeni so odvečni podatki.
  4. Opazovanje izstopnih vrednosti—izstopajoče vrednosti so opažene in normalizirane.
  5. Razvrščanje – podatki so organizirani na način, ki poveča učinkovitost.

Poleg preoblikovanja podatkov obstajajo tudi drugi razlogi za potrebo po preoblikovanju podatkov. Ničelne vrednosti, če so prisotne v podatkih, je treba odstraniti; razen tega so v podatkih pogosto prisotni izstopajoči podatki, ki negativno vplivajo na analizo; obravnavati jih je treba v fazi preoblikovanja. Pogosto naletimo na podatke, ki so odveč in podjetju ne prinašajo nobene vrednosti; taki podatki se v fazi transformacije izločijo, da se prihrani prostor za shranjevanje v sistemu. To so problemi, ki se rešujejo v fazi transformacije.

Faza obremenitve

Ko so neobdelani podatki ekstrahirani in prilagojeni s procesi transformacije, se naložijo v ciljni sistem, ki je običajno bodisi podatkovno skladišče ali podatkovno jezero. Obstajata dva različna načina za izvedbo faze obremenitve.

  1. Polno nalaganje: vsi podatki se prvič naložijo v ciljni sistem. Tehnično je manj zapleteno, a traja več časa. Idealen je v primeru, ko velikost podatkov ni prevelika.
  2. Postopno nalaganje: Postopno nalaganje, kot pove ime, se izvaja v korakih. Ima dve podkategoriji.
  • Pretočno inkrementalno nalaganje: podatki se nalagajo v intervalih, običajno dnevno. Tovrstno nalaganje je najboljše, če so podatki majhni.
  • Paketno inkrementalno nalaganje: Pri paketnem inkrementalnem nalaganju se podatki nalagajo v paketih z intervalom med dvema paketoma. Idealen je, ko so podatki preveliki. Je hiter, a tehnično bolj zapleten.

Vrste orodij ETL

ETL se izvaja na dva načina, ročni ETL ali ETL brez kode. Pri ročnem ETL je avtomatizacije malo ali nič. Vse kodira ekipa, ki vključuje podatkovnega znanstvenika, podatkovnega analitika in podatkovnega inženirja. Vsi cevovodi ekstrahiranja, preoblikovanja in nalaganja so zasnovani za vse nize podatkov ročno. Vse to povzroča veliko produktivnost in izgubo virov.

Alternativa je ETL brez kode; ta orodja imajo običajno funkcije povleci in spusti. Ta orodja popolnoma odpravijo potrebo po kodiranju in tako omogočajo ETL tudi netehničnim delavcem. Za svojo interaktivno zasnovo in vključujoč pristop večina podjetij uporablja Informatico, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow in Oracle Data Integrator za svoje ETL operacije.

V podatkovni industriji obstajajo štiri vrste orodij ETL brez kode.

  1. Komercialna ETL orodja
  2. Odprtokodna ETL orodja
  3. Orodja ETL po meri
  4. ETL orodja v oblaku

Najboljše prakse za ETL

Obstaja nekaj praks in protokolov, ki jih je treba upoštevati, da zagotovimo optimiziran cevovod ETL. Spodaj so obravnavane najboljše prakse:

  1. Razumevanje konteksta podatkov: Kako se podatki zbirajo in kaj pomenijo meritve, je treba pravilno razumeti. Pomagalo bi ugotoviti, kateri atributi so odvečni in jih je treba odstraniti.
  2. Kontrolne točke za obnovitev: Če je cevovod pokvarjen in pride do uhajanja podatkov, je treba imeti vzpostavljene protokole za obnovitev uhajajočih podatkov.
  3. Dnevnik ETL: Dnevnik ETL je treba vzdrževati, ki vsebuje zapis o vsakem postopku, ki je bil izveden s podatki pred, med in po ciklu ETL.
  4. Revizija: preverjanje podatkov po intervalu samo zato, da se prepričate, da so podatki v stanju, kot ste želeli.
  5. Majhna velikost podatkov: Velikost podatkovnih zbirk in njihovih tabel mora biti majhna, tako da so podatki porazdeljeni bolj vodoravno kot navpično. Ta praksa zagotavlja povečanje hitrosti obdelave in posledično pospeši postopek ETL.
  6. Izdelava sloja predpomnilnika: sloj predpomnilnika je sloj za shranjevanje podatkov visoke hitrosti, ki shranjuje nedavno uporabljene podatke na disk, kjer je do njih mogoče hitro dostopati. Ta praksa pomaga prihraniti čas, ko so predpomnjeni podatki tisti, ki jih zahteva sistem.
  7. Vzporedna obdelava: Obravnavanje ETL kot serijskega procesa podjetju požre velik del časa in virov, zaradi česar je celoten proces izjemno neučinkovit. Rešitev je vzporedna obdelava in več integracij ETL hkrati.

Primeri uporabe ETL

ETL omogoča nemoteno in učinkovito poslovanje podjetij na številne načine, vendar bomo tukaj razpravljali o treh najbolj priljubljenih primerih uporabe.

Nalaganje v oblak:

Lokalno shranjevanje podatkov je draga možnost, zaradi katere podjetja porabljajo sredstva za nakup, vzdrževanje, delovanje in vzdrževanje strežnikov. Da bi se izognili vsem tem težavam, lahko podjetja neposredno naložijo podatke v oblak. To prihrani dragocene vire in čas, ki jih je mogoče nato vložiti v izboljšanje drugih vidikov procesa ETL.

Združevanje podatkov iz različnih virov:

Podatki so pogosto razpršeni po različnih sistemih v organizaciji. Združevanje podatkov iz različnih virov na enem mestu, tako da jih je mogoče obdelati in nato analizirati, da se kasneje delijo z deležniki, poteka s pomočjo procesa ETL. ETL poskrbi, da so podatki iz različnih virov enotno oblikovani, medtem ko ostane celovitost podatkov nedotaknjena.

Napovedno modeliranje:

Odločanje na podlagi podatkov je temelj uspešne poslovne strategije. ETL pomaga podjetjem tako, da ekstrahira podatke, jih preoblikuje in nato naloži v zbirke podatkov, ki so povezane z modeli strojnega učenja. Ti modeli strojnega učenja analizirajo podatke, potem ko so šli skozi postopek ETL, in nato na podlagi teh podatkov naredijo napovedi.

Prihodnost ETL v podatkovni pokrajini

ETL zagotovo igra vlogo hrbtenice za podatkovno arhitekturo; ali bo tako tudi ostalo ali ne, še ni videti, saj so z uvedbo Zero ETL v tehnološko industrijo velike spremembe neizbežne. Z Zero ETL ne bi bilo potrebe po tradicionalnih postopkih ekstrakcije, transformacije in nalaganja, ampak bi bili podatki neposredno preneseni v ciljni sistem skoraj v realnem času.

V podatkovnem ekosistemu se pojavljajo številni trendi. Preveri združiti.ai razširiti svoje znanje o tehnoloških trendih.

 

Haziqa je Data Scientist z bogatimi izkušnjami pri pisanju tehnične vsebine za podjetja AI in SaaS.