csonk Mi az az ETL? (Kivonat, átalakítás, betöltés) Módszertan és használati esetek - Unite.AI
Kapcsolatba velünk
AI mesterkurzus:

AI 101

Mi az az ETL? (Kivonat, átalakítás, betöltés) Módszertan és felhasználási esetek

mm
korszerűsített on

Az ETL az „extract, transform, load” rövidítése. Ez egy olyan folyamat, amely a különböző forrásokból származó adatokat egyetlen adattárba integrálja, így azok feldolgozhatók, majd elemezhetők, így hasznos információkra lehet következtetni belőlük. Ez a hasznos információ segít a vállalkozásoknak adatvezérelt döntések meghozatalában és növekedésében.

"Az adatok az új olaj."

Clive Humby, matematikus

A globális adattermelés exponenciálisan megnövekedett, olyannyira, hogy a Forbes szerint a jelenlegi ütemben az emberek kétévente megduplázzák az adattermelést. Ennek eredményeként a modern adathalom fejlődött. Az adatpiacokat adattárházakká alakították át, és amikor ez nem volt elég, adattókat hoztak létre. Bár ezekben a különböző infrastruktúrákban egy folyamat ugyanaz maradt, az ETL folyamat.

Ebben a cikkben megvizsgáljuk az ETL módszertanát, felhasználási eseteit, előnyeit, valamint azt, hogy ez a folyamat hogyan segítette a modern adatkör kialakítását.

Az ETL módszertana

Az ETL lehetővé teszi a különböző forrásokból származó adatok egy helyre történő integrálását, így azok feldolgozhatók, elemezhetők, majd megoszthatók a vállalkozások érintettjeivel. Gépi tanulási modellekkel biztosítja a jelentéskészítéshez, elemzéshez és előrejelzéshez felhasznált adatok integritását. Ez egy három lépésből álló folyamat, amely több forrásból kinyeri az adatokat, átalakítja azokat, majd betölti az üzleti intelligencia eszközökbe. Ezeket az üzleti intelligencia eszközöket ezután a vállalkozások adatvezérelt döntések meghozatalára használják.

A kivonat fázisa

Ebben a fázisban az adatokat több forrásból nyerik ki SQL-lekérdezések, Python-kódok, DBMS (adatbázis-kezelő rendszerek) vagy ETL-eszközök segítségével. A leggyakoribb források a következők:

  • CRM (Customer Relationship Management) szoftver
  • Analytics eszköz
  • Adatraktár
  • adatbázis
  • Felhőalapú tárolási platformok
  • Értékesítési és marketing eszközök
  • mobil alkalmazások

Ezek a források strukturáltak vagy strukturálatlanok, ezért az adatok formátuma ebben a szakaszban nem egységes.

Az átalakítási fázis

Az átalakítási fázisban a kinyert nyers adatokat transzformáljuk és a célrendszernek megfelelő formátumba állítjuk össze. Ehhez a nyers adatok néhány átalakítási részfolyamaton esnek át, például:

  1. Tisztítás – a következetlen és hiányzó adatokról gondoskodunk.
  2. Szabványosítás – mindenhol egységes formázást alkalmazunk.
  3. Ismétlődés eltávolítása – a redundáns adatok eltávolításra kerülnek.
  4. Kiugró értékek észlelése – a kiugró értékek foltosak és normalizáltak.
  5. Rendezés – az adatok rendszerezése a hatékonyságot növelő módon történik.

Az adatok újraformázásán túl más okai is vannak az adatok átalakításának. A null értékeket, ha szerepelnek az adatokban, el kell távolítani; ettől eltekintve gyakran vannak kiugró értékek az adatokban, amelyek negatívan befolyásolják az elemzést; az átalakítás fázisában kell velük foglalkozni. Gyakran találkozunk olyan adatokkal, amelyek redundánsak és nem hoznak értéket a vállalkozás számára; az ilyen adatokat az átalakítási fázisban eldobják, hogy megtakarítsák a rendszer tárhelyét. Ezek azok a problémák, amelyek az átalakítási szakaszban megoldódnak.

A terhelési fázis

A nyers adatok kinyerése és átalakítási folyamatokkal való testreszabása után betöltődnek a célrendszerbe, amely általában vagy egy adattárház vagy egy adattó. A terhelési fázis végrehajtásának két különböző módja van.

  1. Teljes betöltés: Minden adat egyszerre töltődik be először a célrendszerbe. Technikailag kevésbé bonyolult, de több időt vesz igénybe. Ideális abban az esetben, ha az adatok mérete nem túl nagy.
  2. Növekményes terhelés: A növekményes terhelés, ahogy a neve is sugallja, lépésekben történik. Két alkategóriája van.
  • Folyamatos adatfolyam betöltés: Az adatok rendszerint naponta töltődnek be. Ez a fajta betöltés akkor a legjobb, ha kis mennyiségű adat van.
  • Kötegelt növekményes betöltés: A kötegelt növekményes betöltésnél az adatok kötegekben töltődnek be, két köteg közötti időközzel. Ideális, ha az adatok túl nagyok. Gyors, de technikailag bonyolultabb.

Az ETL eszközök típusai

Az ETL kétféleképpen hajtható végre: kézi ETL vagy kód nélküli ETL. A kézi ETL-ben alig van automatizálás, vagy egyáltalán nem. Mindent egy adattudósból, adatelemzőből és adatmérnökből álló csapat kódol. Az összes kivonat, átalakítás és betöltés folyamatát az összes adatkészlethez manuálisan tervezték. Mindez hatalmas termelékenységet és erőforrás-veszteséget okoz.

Az alternatíva a kód nélküli ETL; ezekben az eszközökben általában drag-and-drop funkciók vannak. Ezek az eszközök teljesen megszüntetik a kódolás szükségességét, így még a nem technológiai munkások is végezhetnek ETL-t. Az interaktív tervezés és a befogadó megközelítés érdekében a legtöbb vállalkozás az Informaticát, az Integrate.io-t, az IBM Storage-ot, a Hadoop-ot, az Azure-t, a Google Cloud Dataflow-t és az Oracle Data Integratort használja ETL-műveleteihez.

Az adatiparban négyféle kód nélküli ETL-eszköz létezik.

  1. Kereskedelmi ETL eszközök
  2. Nyílt forráskódú ETL eszközök
  3. Egyedi ETL eszközök
  4. Felhőalapú ETL eszközök

Az ETL legjobb gyakorlatai

Vannak olyan gyakorlatok és protokollok, amelyeket be kell tartani az optimalizált ETL-folyamat biztosításához. A legjobb gyakorlatokat az alábbiakban tárgyaljuk:

  1. Az adatok kontextusának megértése: Megfelelően meg kell érteni az adatok gyűjtésének módját és a mérőszámok jelentését. Segítene azonosítani, mely attribútumok redundánsak, és melyeket kell eltávolítani.
  2. Helyreállítási ellenőrzőpontok: Abban az esetben, ha a csővezeték megszakad és adatszivárgás történik, protokollokat kell létrehozni a kiszivárgott adatok helyreállításához.
  3. ETL napló: Egy ETL naplót kell vezetni, amely minden egyes folyamatról feljegyzést tartalmaz, amelyet az adatokkal egy ETL ciklus előtt, alatt és után végrehajtottak.
  4. Auditálás: Az adatok ellenőrzése bizonyos idő elteltével, hogy megbizonyosodjon arról, hogy az adatok abban az állapotban vannak, ahogyan Ön szeretné.
  5. Kis adatméret: Az adatbázisok és tábláik méretét kicsiben kell tartani, hogy az adatok inkább vízszintesen, mint függőlegesen oszlanak el. Ez a gyakorlat növeli a feldolgozási sebességet, és ezen túlmenően felgyorsítja az ETL folyamatot.
  6. Gyorsítótár-réteg készítése: A gyorsítótárréteg egy nagy sebességű adattárolási réteg, amely a legutóbb használt adatokat egy lemezen tárolja, ahol azok gyorsan elérhetők. Ez a gyakorlat időt takarít meg, ha a gyorsítótárazott adatokat a rendszer kéri.
  7. Párhuzamos feldolgozás: Az ETL sorozatos folyamatként való kezelése felemészti a vállalkozás idejének és erőforrásainak nagy részét, ami az egész folyamatot rendkívül hatástalanná teszi. A megoldás a párhuzamos feldolgozás és több ETL integráció egyszerre.

ETL használati esetek

Az ETL számos módon teszi gördülékenyebbé és hatékonnyá a vállalkozások működését, de itt a három legnépszerűbb felhasználási esetről fogunk beszélni.

Feltöltés a felhőbe:

Az adatok helyben történő tárolása költséges lehetőség, amely miatt a vállalkozások erőforrásokat költenek a szerverek megvásárlására, karbantartására, futtatására és karbantartására. A gondok elkerülése érdekében a vállalkozások közvetlenül feltölthetik az adatokat a felhőbe. Ezzel értékes erőforrásokat és időt takaríthat meg, amelyet aztán az ETL-folyamat egyéb aspektusainak javítására fordíthat.

Különböző forrásokból származó adatok egyesítése:

Az adatok gyakran szétszórva vannak egy szervezet különböző rendszerei között. A különböző forrásokból származó adatok egy helyen történő összevonása, hogy azok feldolgozhatók, majd elemezhetők legyenek, hogy később megoszthassák az érintettekkel, az ETL folyamat segítségével történik. Az ETL gondoskodik arról, hogy a különböző forrásokból származó adatok egységesen legyenek formázva, miközben az adatok sértetlensége sértetlen marad.

Prediktív modellezés:

Az adatvezérelt döntéshozatal a sikeres üzleti stratégia sarokköve. Az ETL az adatok kinyerésével, átalakításával, majd gépi tanulási modellekkel összekapcsolt adatbázisokba való betöltésével segíti a vállalkozásokat. Ezek a gépi tanulási modellek elemzik az adatokat, miután azok egy ETL-folyamaton mentek keresztül, majd az adatok alapján előrejelzéseket készítenek.

Az ETL jövője a Data Landscape-ben

Az ETL minden bizonnyal az adatarchitektúra gerincét tölti be; Hogy ez így marad-e vagy sem, az még nem látható, mert a Zero ETL technológiai iparban való bevezetésével nagy változások várhatók. A Zero ETL-lel nem lenne szükség a hagyományos kivonási, átalakítási és betöltési folyamatokra, hanem az adatok közvetlenül, szinte valós időben kerülnének a célrendszerbe.

Az adatökoszisztémában számos új trend van kialakulóban. Nézze meg egyesülj.ai hogy bővítse tudását a technológiai trendekről.

 

Haziqa egy adattudós, aki nagy tapasztalattal rendelkezik a mesterséges intelligencia és SaaS cégek számára készült műszaki tartalom írásában.