peň čo je ETL? (Extract, Transform, Load) Metodológia a prípady použitia - Unite.AI
Spojte sa s nami
Masterclass AI:

AI 101

čo je ETL? (Extract, Transform, Load) Metodológia a prípady použitia

mm
Aktualizované on

ETL znamená „extrahovať, transformovať, načítať“. Je to proces, ktorý integruje údaje z rôznych zdrojov do jedného úložiska, aby ich bolo možné spracovať a následne analyzovať, aby sa z nich dali odvodiť užitočné informácie. Tieto užitočné informácie pomáhajú podnikom robiť rozhodnutia založené na údajoch a rásť.

"Údaje sú nový olej."

Clive Humby, matematik

Globálna tvorba údajov sa exponenciálne zvýšila, a to natoľko, že podľa Forbesu pri súčasnom tempe ľudia zdvojnásobujú vytváranie údajov každé dva roky. V dôsledku toho sa vyvinul moderný zásobník údajov. Dátové trhy boli prevedené na dátové sklady, a keď to nestačilo, vytvorili sa dátové jazerá. Aj keď vo všetkých týchto rôznych infraštruktúrach zostal jeden proces rovnaký, proces ETL.

V tomto článku sa pozrieme na metodológiu ETL, jeho prípady použitia, jeho výhody a ako tento proces pomohol vytvoriť moderné dátové prostredie.

Metodológia ETL

ETL umožňuje integrovať údaje z rôznych zdrojov na jedno miesto, aby ich bolo možné spracovať, analyzovať a následne zdieľať so zainteresovanými stranami podnikov. Zabezpečuje integritu údajov, ktoré sa majú použiť na vytváranie správ, analýzy a predpovede pomocou modelov strojového učenia. Ide o trojkrokový proces, ktorý extrahuje údaje z viacerých zdrojov, transformuje ich a potom ich načíta do nástrojov business intelligence. Tieto nástroje business intelligence potom podniky používajú na rozhodovanie na základe údajov.

Extrakčná fáza

V tejto fáze sa dáta extrahujú z viacerých zdrojov pomocou SQL dotazov, Python kódov, DBMS (systémy na správu databáz) alebo ETL nástrojov. Najbežnejšie zdroje sú:

  • Softvér CRM (Customer Relationship Management).
  • Nástroj Analytics
  • Dátový sklad
  • databázy
  • Cloudové úložné platformy
  • Predajné a marketingové nástroje
  • Mobilné aplikácie

Tieto zdroje sú buď štruktúrované alebo neštruktúrované, a preto formát údajov nie je v tejto fáze jednotný.

Fáza transformácie

Vo fáze transformácie sa extrahované nespracované údaje transformujú a skompilujú do formátu, ktorý je vhodný pre cieľový systém. Na tento účel sa nespracované údaje podrobia niekoľkým transformačným čiastkovým procesom, ako napríklad:

  1. Čistenie – nekonzistentné a chýbajúce údaje sú postarané.
  2. Štandardizácia—všade sa používa jednotné formátovanie.
  3. Odstránenie duplikácie—odstránia sa nadbytočné údaje.
  4. Odľahlé hodnoty – odľahlé hodnoty sú bodované a normalizované.
  5. Triedenie – údaje sú organizované spôsobom, ktorý zvyšuje efektivitu.

Okrem preformátovania údajov existujú aj ďalšie dôvody na potrebu transformácie údajov. Nulové hodnoty, ak sú v údajoch prítomné, by sa mali odstrániť; okrem toho sú v údajoch často prítomné odľahlé hodnoty, ktoré negatívne ovplyvňujú analýzu; mali by sa riešiť vo fáze transformácie. Často sa stretávame s údajmi, ktoré sú nadbytočné a neprinášajú podniku žiadnu hodnotu; takéto údaje sa vypustia vo fáze transformácie, aby sa ušetril úložný priestor systému. Toto sú problémy, ktoré sa riešia vo fáze transformácie.

Fáza zaťaženia

Akonáhle sú nespracované údaje extrahované a prispôsobené transformačným procesom, sú načítané do cieľového systému, ktorým je zvyčajne buď dátový sklad alebo dátové jazero. Existujú dva rôzne spôsoby, ako vykonať fázu zaťaženia.

  1. Úplné načítanie: Všetky údaje sa prvýkrát načítajú do cieľového systému naraz. Je to technicky menej zložité, ale zaberie to viac času. Je ideálny v prípade, keď veľkosť dát nie je príliš veľká.
  2. Prírastkové načítanie: Prírastkové načítanie, ako už názov napovedá, sa vykonáva v prírastkoch. Má dve podkategórie.
  • Stream Incremental Loading: Údaje sa načítavajú v intervaloch, zvyčajne denne. Tento druh načítania je najlepší, keď sú údaje v malom množstve.
  • Dávkové prírastkové načítanie: Pri dávkovom type prírastkového načítania sa údaje načítavajú v dávkach s intervalom medzi dvoma dávkami. Je ideálny, keď sú dáta príliš veľké. Je to rýchle, ale technicky zložitejšie.

Typy nástrojov ETL

ETL sa vykonáva dvoma spôsobmi, manuálne ETL alebo ETL bez kódu. V manuálnom ETL je automatizácia malá alebo žiadna. Všetko je kódované tímom, ktorý zahŕňa dátového vedca, dátového analytika a dátového inžiniera. Všetky kanály extrahovania, transformácie a načítania sú navrhnuté pre všetky súbory údajov manuálne. To všetko spôsobuje obrovskú produktivitu a stratu zdrojov.

Alternatívou je ETL bez kódu; tieto nástroje zvyčajne obsahujú funkcie drag-and-drop. Tieto nástroje úplne odstraňujú potrebu kódovania, čím umožňujú vykonávať ETL aj netechnickým pracovníkom. Pre svoj interaktívny dizajn a inkluzívny prístup používa väčšina firiem pre svoje ETL operácie Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow a Oracle Data Integrator.

V dátovom priemysle existujú štyri typy nástrojov ETL bez kódu.

  1. Komerčné ETL nástroje
  2. Open Source ETL nástroje
  3. Vlastné ETL nástroje
  4. Cloudové ETL nástroje

Najlepšie postupy pre ETL

Existuje niekoľko postupov a protokolov, ktoré by sa mali dodržiavať, aby sa zabezpečilo optimalizované vedenie ETL. Najlepšie postupy sú uvedené nižšie:

  1. Pochopenie kontextu údajov: Je potrebné správne pochopiť, ako sa údaje zhromažďujú a čo znamenajú metriky. Pomohlo by to identifikovať, ktoré atribúty sú nadbytočné a mali by sa odstrániť.
  2. Kontrolné body obnovy: V prípade, že je potrubie prerušené a dôjde k úniku údajov, musíte mať zavedené protokoly na obnovenie uniknutých údajov.
  3. Denník ETL: Musí sa viesť denník ETL, ktorý obsahuje záznamy o každom jednom procese, ktorý sa vykonal s údajmi pred, počas a po cykle ETL.
  4. Auditovanie: Kontrola údajov po určitom intervale, aby ste sa uistili, že údaje sú v stave, v akom ste ich chceli mať.
  5. Malá veľkosť údajov: Veľkosť databáz a ich tabuliek by mala byť malá, aby sa údaje šírili viac horizontálne ako vertikálne. Tento postup zaisťuje zvýšenie rýchlosti spracovania a tým aj zrýchlenie procesu ETL.
  6. Vytvorenie vyrovnávacej pamäte: Vrstva vyrovnávacej pamäte je vysokorýchlostná vrstva na ukladanie údajov, ktorá ukladá nedávno použité údaje na disk, kde k nim možno rýchlo pristupovať. Tento postup pomáha šetriť čas, keď sú údaje uložené vo vyrovnávacej pamäti tie, ktoré požaduje systém.
  7. Paralelné spracovanie: Zaobchádzanie s ETL ako so sériovým procesom zaberá veľkú časť času a zdrojov podniku, čo robí celý proces extrémne neefektívnym. Riešením je paralelné spracovanie a viacero integrácií ETL naraz.

Prípady použitia ETL

ETL robí operácie pre podniky plynulými a efektívnymi mnohými spôsobmi, ale tu budeme diskutovať o troch najpopulárnejších prípadoch použitia.

Nahrávanie do cloudu:

Lokálne ukladanie údajov je drahá možnosť, vďaka ktorej podniky vynakladajú prostriedky na nákup, udržiavanie, prevádzku a údržbu serverov. Aby sa predišlo všetkým týmto problémom, podniky môžu priamo nahrať údaje do cloudu. To šetrí cenné zdroje a čas, ktoré možno potom investovať do zlepšenia iných aspektov procesu ETL.

Zlúčenie údajov z rôznych zdrojov:

Údaje sú často rozptýlené v rôznych systémoch v organizácii. Zlúčenie údajov z rôznych zdrojov na jednom mieste, aby bolo možné ich spracovať a následne analyzovať na neskoršie zdieľanie so zainteresovanými stranami, sa vykonáva pomocou procesu ETL. ETL zaisťuje, že údaje z rôznych zdrojov sú naformátované jednotne, pričom integrita údajov zostáva nedotknutá.

Prediktívne modelovanie:

Rozhodovanie založené na údajoch je základným kameňom úspešnej obchodnej stratégie. ETL pomáha podnikom extrahovaním údajov, ich transformáciou a následným načítaním do databáz, ktoré sú prepojené s modelmi strojového učenia. Tieto modely strojového učenia analyzujú údaje po tom, čo prešli procesom ETL, a potom na základe týchto údajov robia predpovede.

Budúcnosť ETL v Data Landscape

ETL určite hrá časť chrbtice dátovej architektúry; Či by to tak zostalo alebo nie, sa ešte len uvidí, pretože so zavedením Zero ETL v technologickom priemysle sú bezprostredné veľké zmeny. S Zero ETL by neboli potrebné tradičné procesy extrakcie, transformácie a načítania, ale dáta by boli priamo prenesené do cieľového systému takmer v reálnom čase.

V dátovom ekosystéme existuje množstvo nových trendov. Odhlásiť sa zjednotiť.ai rozšíriť svoje znalosti o technologických trendoch.

 

Haziqa je Data Scientist s rozsiahlymi skúsenosťami s písaním technického obsahu pre spoločnosti AI a SaaS.