- Terminologija (A do D)
- Nadzor zmogljivosti AI
- AIOps
- Albumentacije
- Učinkovitost sredstev
- Samodejni kodirnik
- Razmnoževanje
- Bayesov izrek
- Big Podatki
- Chatbot: vodnik za začetnike
- Računalniško razmišljanje
- Računalniška vizija
- Matrica zmede
- Konvolucijsko nevronsko omrežje
- Cybersecurity
- Podatkovna tkanina
- Podatkovno pripovedovanje zgodb
- Znanost podatki
- Skladiščenje podatkov
- Drevo odločitve
- Deepfakes
- Globoko učenje
- Učenje poglobljenega okrepitve
- DevOps
- DevSecOps
- Difuzijski modeli
- Digital Twin
- Zmanjšanje dimenzij
- Terminologija (E do K)
- Edge AI
- AI čustva
- Učenje ansambla
- Etično vdiranje
- ETL
- Razložljiv AI
- Zvezno učenje
- FinOps
- Generativna AI
- Generacijska svetovalna mreža
- Generativno proti diskriminaciji
- Gradient krepitev
- Gradient spust
- Nekajkratno učenje
- Razvrstitev slik
- IT operacije (ITOPs)
- Avtomatizacija incidentov
- Inženiring vpliva
- K-pomeni združevanje v gruče
- K-Najbližji sosedje
- Terminologija (L do Q)
- Terminologija (R do Ž)
- Okrepitveno učenje
- Odgovorni AI
- RLHF
- Robotska procesna avtomatizacija
- Strukturirano proti nestrukturiranemu
- Analiza občutka
- Nadzorovani proti nenadzorovanim
- Podporni vektorski stroji
- Sintetični podatki
- Sintetični mediji
- Razvrstitev besedil
- TinyML
- Prenosno učenje
- Transformatorske nevronske mreže
- Turingov test
- Iskanje podobnosti vektorjev
AI 101
Kaj je ETL? (Extract, Transform, Load) Metodologija in primeri uporabe
By
Haziqa SajidKazalo vsebine
ETL pomeni "izvleček, transformacija, nalaganje". To je postopek, ki združuje podatke iz različnih virov v en sam repozitorij, tako da jih je mogoče obdelati in nato analizirati, tako da je mogoče iz njih sklepati o koristnih informacijah. Te koristne informacije so tisto, kar podjetjem pomaga sprejemati odločitve, ki temeljijo na podatkih, in rasti.
"Podatki so novo olje."
Clive Humby, matematik
Ustvarjanje globalnih podatkov se je tako eksponentno povečalo, da po podatkih Forbesa ljudje s trenutno hitrostjo podvojijo ustvarjanje podatkov vsaki dve leti. Posledično se je razvil sodobni sklad podatkov. Podatkovne tržnice so bile pretvorjene v podatkovna skladišča, in ko to ni bilo dovolj, so nastala podatkovna jezera. Čeprav je v vseh teh različnih infrastrukturah en proces ostal enak, proces ETL.
V tem članku bomo preučili metodologijo ETL, primere njegove uporabe, prednosti in kako je ta proces pomagal oblikovati sodobno podatkovno pokrajino.
Metodologija ETL
ETL omogoča integracijo podatkov iz različnih virov na enem mestu, tako da jih je mogoče obdelati, analizirati in nato deliti z deležniki v podjetjih. Zagotavlja celovitost podatkov, ki se bodo uporabljali za poročanje, analizo in napovedovanje z modeli strojnega učenja. Gre za postopek v treh korakih, ki izvleče podatke iz več virov, jih preoblikuje in nato naloži v orodja za poslovno inteligenco. Ta orodja poslovne inteligence nato uporabljajo podjetja za sprejemanje odločitev na podlagi podatkov.
Faza ekstrakcije
V tej fazi se podatki ekstrahirajo iz več virov z uporabo poizvedb SQL, kod Python, DBMS (sistemov za upravljanje baz podatkov) ali orodij ETL. Najpogostejši viri so:
- Programska oprema CRM (Customer Relationship Management).
- Orodje Analytics
- Skladišče podatkov
- Baze podatkov
- Platforme za shranjevanje v oblaku
- Orodja za prodajo in trženje
- Mobilne aplikacije
Ti viri so strukturirani ali nestrukturirani, zato format podatkov na tej stopnji ni enoten.
Faza preobrazbe
V fazi transformacije se ekstrahirani neobdelani podatki pretvorijo in prevedejo v obliko, ki je primerna za ciljni sistem. Za to so neobdelani podatki podvrženi nekaj podprocesom transformacije, kot so:
- Čiščenje – poskrbljeno je za nedosledne in manjkajoče podatke.
- Standardizacija – povsod se uporablja enotno oblikovanje.
- Odstranjevanje podvajanja—odstranjeni so odvečni podatki.
- Opazovanje izstopnih vrednosti—izstopajoče vrednosti so opažene in normalizirane.
- Razvrščanje – podatki so organizirani na način, ki poveča učinkovitost.
Poleg preoblikovanja podatkov obstajajo tudi drugi razlogi za potrebo po preoblikovanju podatkov. Ničelne vrednosti, če so prisotne v podatkih, je treba odstraniti; razen tega so v podatkih pogosto prisotni izstopajoči podatki, ki negativno vplivajo na analizo; obravnavati jih je treba v fazi preoblikovanja. Pogosto naletimo na podatke, ki so odveč in podjetju ne prinašajo nobene vrednosti; taki podatki se v fazi transformacije izločijo, da se prihrani prostor za shranjevanje v sistemu. To so problemi, ki se rešujejo v fazi transformacije.
Faza obremenitve
Ko so neobdelani podatki ekstrahirani in prilagojeni s procesi transformacije, se naložijo v ciljni sistem, ki je običajno bodisi podatkovno skladišče ali podatkovno jezero. Obstajata dva različna načina za izvedbo faze obremenitve.
- Polno nalaganje: vsi podatki se prvič naložijo v ciljni sistem. Tehnično je manj zapleteno, a traja več časa. Idealen je v primeru, ko velikost podatkov ni prevelika.
- Postopno nalaganje: Postopno nalaganje, kot pove ime, se izvaja v korakih. Ima dve podkategoriji.
- Pretočno inkrementalno nalaganje: podatki se nalagajo v intervalih, običajno dnevno. Tovrstno nalaganje je najboljše, če so podatki majhni.
- Paketno inkrementalno nalaganje: Pri paketnem inkrementalnem nalaganju se podatki nalagajo v paketih z intervalom med dvema paketoma. Idealen je, ko so podatki preveliki. Je hiter, a tehnično bolj zapleten.
Vrste orodij ETL
ETL se izvaja na dva načina, ročni ETL ali ETL brez kode. Pri ročnem ETL je avtomatizacije malo ali nič. Vse kodira ekipa, ki vključuje podatkovnega znanstvenika, podatkovnega analitika in podatkovnega inženirja. Vsi cevovodi ekstrahiranja, preoblikovanja in nalaganja so zasnovani za vse nize podatkov ročno. Vse to povzroča veliko produktivnost in izgubo virov.
Alternativa je ETL brez kode; ta orodja imajo običajno funkcije povleci in spusti. Ta orodja popolnoma odpravijo potrebo po kodiranju in tako omogočajo ETL tudi netehničnim delavcem. Za svojo interaktivno zasnovo in vključujoč pristop večina podjetij uporablja Informatico, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow in Oracle Data Integrator za svoje ETL operacije.
V podatkovni industriji obstajajo štiri vrste orodij ETL brez kode.
- Komercialna ETL orodja
- Odprtokodna ETL orodja
- Orodja ETL po meri
- ETL orodja v oblaku
Najboljše prakse za ETL
Obstaja nekaj praks in protokolov, ki jih je treba upoštevati, da zagotovimo optimiziran cevovod ETL. Spodaj so obravnavane najboljše prakse:
- Razumevanje konteksta podatkov: Kako se podatki zbirajo in kaj pomenijo meritve, je treba pravilno razumeti. Pomagalo bi ugotoviti, kateri atributi so odvečni in jih je treba odstraniti.
- Kontrolne točke za obnovitev: Če je cevovod pokvarjen in pride do uhajanja podatkov, je treba imeti vzpostavljene protokole za obnovitev uhajajočih podatkov.
- Dnevnik ETL: Dnevnik ETL je treba vzdrževati, ki vsebuje zapis o vsakem postopku, ki je bil izveden s podatki pred, med in po ciklu ETL.
- Revizija: preverjanje podatkov po intervalu samo zato, da se prepričate, da so podatki v stanju, kot ste želeli.
- Majhna velikost podatkov: Velikost podatkovnih zbirk in njihovih tabel mora biti majhna, tako da so podatki porazdeljeni bolj vodoravno kot navpično. Ta praksa zagotavlja povečanje hitrosti obdelave in posledično pospeši postopek ETL.
- Izdelava sloja predpomnilnika: sloj predpomnilnika je sloj za shranjevanje podatkov visoke hitrosti, ki shranjuje nedavno uporabljene podatke na disk, kjer je do njih mogoče hitro dostopati. Ta praksa pomaga prihraniti čas, ko so predpomnjeni podatki tisti, ki jih zahteva sistem.
- Vzporedna obdelava: Obravnavanje ETL kot serijskega procesa podjetju požre velik del časa in virov, zaradi česar je celoten proces izjemno neučinkovit. Rešitev je vzporedna obdelava in več integracij ETL hkrati.
Primeri uporabe ETL
ETL omogoča nemoteno in učinkovito poslovanje podjetij na številne načine, vendar bomo tukaj razpravljali o treh najbolj priljubljenih primerih uporabe.
Nalaganje v oblak:
Lokalno shranjevanje podatkov je draga možnost, zaradi katere podjetja porabljajo sredstva za nakup, vzdrževanje, delovanje in vzdrževanje strežnikov. Da bi se izognili vsem tem težavam, lahko podjetja neposredno naložijo podatke v oblak. To prihrani dragocene vire in čas, ki jih je mogoče nato vložiti v izboljšanje drugih vidikov procesa ETL.
Združevanje podatkov iz različnih virov:
Podatki so pogosto razpršeni po različnih sistemih v organizaciji. Združevanje podatkov iz različnih virov na enem mestu, tako da jih je mogoče obdelati in nato analizirati, da se kasneje delijo z deležniki, poteka s pomočjo procesa ETL. ETL poskrbi, da so podatki iz različnih virov enotno oblikovani, medtem ko ostane celovitost podatkov nedotaknjena.
Napovedno modeliranje:
Odločanje na podlagi podatkov je temelj uspešne poslovne strategije. ETL pomaga podjetjem tako, da ekstrahira podatke, jih preoblikuje in nato naloži v zbirke podatkov, ki so povezane z modeli strojnega učenja. Ti modeli strojnega učenja analizirajo podatke, potem ko so šli skozi postopek ETL, in nato na podlagi teh podatkov naredijo napovedi.
Prihodnost ETL v podatkovni pokrajini
ETL zagotovo igra vlogo hrbtenice za podatkovno arhitekturo; ali bo tako tudi ostalo ali ne, še ni videti, saj so z uvedbo Zero ETL v tehnološko industrijo velike spremembe neizbežne. Z Zero ETL ne bi bilo potrebe po tradicionalnih postopkih ekstrakcije, transformacije in nalaganja, ampak bi bili podatki neposredno preneseni v ciljni sistem skoraj v realnem času.
V podatkovnem ekosistemu se pojavljajo številni trendi. Preveri združiti.ai razširiti svoje znanje o tehnoloških trendih.
Haziqa je Data Scientist z bogatimi izkušnjami pri pisanju tehnične vsebine za podjetja AI in SaaS.
Morda vam bo všeč
AniPortrait: zvočno vodena sinteza fotorealistične portretne animacije
Notranji dialog AI: Kako samorefleksija izboljša klepetalnice in virtualne pomočnike
Instant-Style: Ohranjanje sloga pri ustvarjanju besedila v sliko
LoReFT: Natančna nastavitev reprezentacije za jezikovne modele
Onkraj iskalnikov: Vzpon spletnih agentov, ki jih poganja LLM
Izboljšanje preglednosti AI in zaupanja s sestavljenim AI