Spojte se s námi

AI 101

Co je ETL? (Extrahovat, transformovat, načíst) Metodologie a případy použití

mm

ETL znamená „extract, transform, load“. Je to proces, který integruje data z různých zdrojů do jednoho úložiště, takže je lze zpracovat a následně analyzovat, aby z nich bylo možné odvodit užitečné informace. Tyto užitečné informace pomáhají podnikům činit rozhodnutí na základě dat a růst.

"Data jsou nový olej."

Clive Humby, matematik

Globální tvorba dat exponenciálně vzrostla, a to natolik, že podle Forbesu při současném tempu lidé zdvojnásobují tvorbu dat každé dva roky. V důsledku toho se vyvinul moderní datový zásobník. Datové tržiště byly převedeny na datové sklady, a když to nestačilo, byla vytvořena datová jezera. Ačkoli ve všech těchto různých infrastrukturách zůstal jeden proces stejný, proces ETL.

V tomto článku se podíváme na metodologii ETL, jeho případy použití, jeho přínosy a jak tento proces pomohl formovat moderní datové prostředí.

Metodika ETL

ETL umožňuje integrovat data z různých zdrojů do jednoho místa, takže je lze zpracovávat, analyzovat a poté sdílet se zainteresovanými stranami podniků. Zajišťuje integritu dat, která mají být použita pro hlášení, analýzu a predikci pomocí modelů strojového učení. Jedná se o třístupňový proces, který extrahuje data z více zdrojů, transformuje je a poté je načte do nástrojů business intelligence. Tyto nástroje business intelligence pak podniky používají k rozhodování na základě dat.

Extrakční fáze

V této fázi jsou data extrahována z více zdrojů pomocí SQL dotazů, kódů Pythonu, DBMS (systémy pro správu databází) nebo nástrojů ETL. Nejběžnější zdroje jsou:

  • Software CRM (Customer Relationship Management).
  • Nástroj Analytics
  • Datový sklad
  • Databáze
  • Platformy cloudového úložiště
  • Prodejní a marketingové nástroje
  • Mobilní aplikace

Tyto zdroje jsou buď strukturované, nebo nestrukturované, a proto formát dat není v této fázi jednotný.

Fáze transformace

Ve fázi transformace jsou extrahovaná nezpracovaná data transformována a zkompilována do formátu, který je vhodný pro cílový systém. Za tímto účelem procházejí nezpracovaná data několika transformačními dílčími procesy, jako jsou:

  1. Čištění – nekonzistentní a chybějící data jsou řešena.
  2. Standardizace – jednotné formátování je aplikováno v celém textu.
  3. Odstranění duplikace—odstraňují se nadbytečná data.
  4. Odlehlé hodnoty – odlehlé hodnoty jsou tečkované a normalizované.
  5. Třídění – data jsou organizována způsobem, který zvyšuje efektivitu.

Kromě přeformátování dat existují i ​​další důvody pro potřebu transformace dat. Hodnoty Null, pokud jsou v datech přítomny, by měly být odstraněny; kromě toho jsou v datech často přítomné odlehlé hodnoty, které negativně ovlivňují analýzu; měly by být řešeny ve fázi transformace. Často se setkáváme s daty, která jsou nadbytečná a nepřinášejí podniku žádnou hodnotu; taková data jsou ve fázi transformace vypuštěna, aby se ušetřilo úložné místo systému. To jsou problémy, které se řeší ve fázi transformace.

Fáze zatížení

Jakmile jsou nezpracovaná data extrahována a přizpůsobena transformačním procesům, jsou načtena do cílového systému, kterým je obvykle datový sklad nebo datové jezero. Existují dva různé způsoby, jak provést fázi zatížení.

  1. Úplné načítání: Všechna data se do cílového systému načtou poprvé najednou. Je to technicky méně složité, ale zabere to více času. Je ideální v případě, kdy velikost dat není příliš velká.
  2. Přírůstkové načítání: Přírůstkové načítání, jak název napovídá, se provádí v přírůstcích. Má dvě podkategorie.
  • Stream Incremental Loading: Data se načítají v intervalech, obvykle denně. Tento druh načítání je nejlepší, když jsou data v malém množství.
  • Dávkové přírůstkové načítání: V dávkovém typu přírůstkového načítání jsou data načítána v dávkách s intervalem mezi dvěma dávkami. Je ideální, když jsou data příliš velká. Je to rychlé, ale technicky složitější.

Typy ETL nástrojů

ETL se provádí dvěma způsoby, manuální ETL nebo ETL bez kódu. V manuálním ETL existuje jen malá nebo žádná automatizace. Vše je kódováno týmem zahrnujícím datového vědce, datového analytika a datového inženýra. Všechny kanály extrahování, transformace a načítání jsou navrženy pro všechny datové sady ručně. To vše způsobuje obrovskou produktivitu a ztrátu zdrojů.

Alternativou je ETL bez kódu; tyto nástroje obvykle obsahují funkce přetažení. Tyto nástroje zcela odstraňují potřebu kódování a umožňují tak i netechnickým pracovníkům provádět ETL. Pro svůj interaktivní design a inkluzivní přístup používá většina firem pro své ETL operace Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow a Oracle Data Integrator.

V datovém průmyslu existují čtyři typy nástrojů ETL bez kódu.

  1. Komerční ETL nástroje
  2. Open Source ETL nástroje
  3. Vlastní ETL nástroje
  4. Cloudové ETL nástroje

Nejlepší postupy pro ETL

Existují určité postupy a protokoly, které by měly být dodržovány, aby bylo zajištěno optimalizované potrubí ETL. Osvědčené postupy jsou popsány níže:

  1. Pochopení kontextu dat: Je třeba správně porozumět tomu, jak jsou data shromažďována a co metriky znamenají. Pomohlo by to určit, které atributy jsou nadbytečné a měly by být odstraněny.
  2. Kontrolní body obnovy: V případě, že je potrubí přerušeno a dojde k úniku dat, je nutné mít k dispozici protokoly pro obnovu uniklých dat.
  3. Deník ETL: Musí být veden deník ETL, který obsahuje záznamy o každém procesu, který byl proveden s daty před, během a po cyklu ETL.
  4. Auditování: Kontrola dat po určitém intervalu, abyste se ujistili, že data jsou ve stavu, který jste chtěli mít.
  5. Malá velikost dat: Velikost databází a jejich tabulek by měla být malá, aby byla data rozložena více horizontálně než vertikálně. Tato praxe zajišťuje zvýšení rychlosti zpracování a tím i urychlení procesu ETL.
  6. Vytvoření mezipaměti: Mezipaměťová vrstva je vysokorychlostní vrstva pro ukládání dat, která ukládá nedávno použitá data na disk, kde k nim lze rychle přistupovat. Tento postup pomáhá ušetřit čas, když jsou data uložená v mezipaměti data požadovaná systémem.
  7. Paralelní zpracování: Zacházení s ETL jako se sériovým procesem zabírá velkou část času a zdrojů podniku, což činí celý proces extrémně neefektivním. Řešením je provádět paralelní zpracování a více integrací ETL najednou.

Případy použití ETL

ETL usnadňuje a zefektivňuje provoz podniků v mnoha ohledech, ale zde probereme tři nejoblíbenější případy použití.

Nahrávání do cloudu:

Lokální ukládání dat je drahá možnost, která nutí podniky vynakládat prostředky na nákup, údržbu, provoz a údržbu serverů. Aby se podniky vyhnuly všem těmto potížím, mohou data přímo nahrávat do cloudu. To šetří cenné zdroje a čas, které lze následně investovat do zlepšení dalších aspektů procesu ETL.

Slučování dat z různých zdrojů:

Data jsou často rozptýlena v různých systémech v organizaci. Sloučení dat z různých zdrojů na jednom místě tak, aby je bylo možné zpracovat a následně analyzovat, aby je později mohli sdílet se zúčastněnými stranami, se provádí pomocí procesu ETL. ETL zajišťuje, že data z různých zdrojů jsou formátována jednotně, přičemž integrita dat zůstává nedotčena.

Prediktivní modelování:

Rozhodování založené na datech je základním kamenem úspěšné obchodní strategie. ETL pomáhá podnikům extrahováním dat, jejich transformací a následným načtením do databází, které jsou propojeny s modely strojového učení. Tyto modely strojového učení analyzují data poté, co projdou procesem ETL, a poté na základě těchto dat vytvářejí předpovědi.

Budoucnost ETL v Data Landscape

ETL jistě hraje roli páteře datové architektury; zda by to tak zůstalo nebo ne, se teprve uvidí, protože se zavedením Zero ETL v technologickém průmyslu se blíží velké změny. S Zero ETL by nebyly potřeba tradiční procesy extrahování, transformace a načítání, ale data by byla přímo přenášena do cílového systému téměř v reálném čase.

V datovém ekosystému existuje řada nových trendů. Překontrolovat unite.ai rozšířit své znalosti o technologických trendech.

 

Haziqa je datový vědec s rozsáhlými zkušenostmi s psaním technického obsahu pro společnosti AI a SaaS.