AI 101 m

Kas yra ETL? (Ištraukti, paversti, įkelti) Metodika ir naudojimo atvejai

Atnaujinta on Sausis 14, 2023

ETL reiškia „ištraukti, transformuoti, įkelti“. Tai procesas, kurio metu duomenys iš skirtingų šaltinių sujungiami į vieną saugyklą, kad būtų galima juos apdoroti ir analizuoti, kad iš jų būtų galima gauti naudingos informacijos. Ši naudinga informacija padeda įmonėms priimti duomenimis pagrįstus sprendimus ir augti.

„Duomenys yra nauja alyva“.

Clive'as Humby, matematikas

Pasaulinis duomenų kūrimas išaugo eksponentiškai tiek, kad, kaip teigia „Forbes“, dabartiniu tempu žmonės kas dvejus metus sukuria dvigubai daugiau duomenų. Dėl to išsivystė šiuolaikinė duomenų saugykla. Duomenų rinkos buvo konvertuotos į duomenų saugyklas, o kai to nepakako, buvo sukurti duomenų ežerai. Nors visose šiose skirtingose infrastruktūrose vienas procesas liko nepakitęs – ETL procesas.

Šiame straipsnyje apžvelgsime ETL metodiką, jos naudojimo atvejus, naudą ir kaip šis procesas padėjo formuoti šiuolaikinį duomenų kraštovaizdį.

ETL metodika

ETL leidžia integruoti duomenis iš skirtingų šaltinių į vieną vietą, kad juos būtų galima apdoroti, analizuoti ir dalytis su verslo suinteresuotosiomis šalimis. Tai užtikrina duomenų, kurie turi būti naudojami ataskaitoms teikti, analizuoti ir prognozuoti naudojant mašininio mokymosi modelius, vientisumą. Tai trijų etapų procesas, kurio metu duomenys išgaunami iš kelių šaltinių, transformuojami ir įkeliami į verslo žvalgybos įrankius. Tada įmonės naudoja šias verslo žvalgybos priemones priimdamos duomenimis pagrįstus sprendimus.

Ištraukimo fazė

Šiame etape duomenys išgaunami iš kelių šaltinių naudojant SQL užklausas, Python kodus, DBMS (duomenų bazių valdymo sistemas) arba ETL įrankius. Dažniausi šaltiniai yra:

CRM (Customer Relationship Management) programinė įranga
„Analytics“ įrankis
Duomenų saugyklos
duomenų bazė
Debesų saugojimo platformos
Pardavimo ir rinkodaros įrankiai
Programos mobiliesiems

Šie šaltiniai yra struktūrizuoti arba nestruktūrizuoti, todėl duomenų formatas šiame etape nėra vienodas.

Transformacijos fazė

Transformacijos fazėje išgauti neapdoroti duomenys transformuojami ir sukompiliuojami į tikslinei sistemai tinkamą formatą. Tam neapdorotiems duomenims atliekami keli transformavimo poprocesai, tokie kaip:

Valymas – pasirūpinama nenuosekliais ir trūkstamais duomenimis.
Standartizavimas – visur taikomas vienodas formatavimas.
Dubliavimo pašalinimas – pašalinami pertekliniai duomenys.
Nukrypimų nustatymas – išskirtiniai rodikliai pastebimi ir normalizuojami.
Rūšiavimas – duomenys tvarkomi taip, kad padidėtų efektyvumas.

Be duomenų formatavimo iš naujo, yra ir kitų priežasčių, dėl kurių reikia pakeisti duomenis. Nulinės reikšmės, jei jos yra duomenyse, turėtų būti pašalintos; be to, duomenyse dažnai būna nukrypimų, kurie neigiamai veikia analizę; jie turėtų būti sprendžiami transformacijos etape. Dažnai susiduriame su duomenimis, kurie yra pertekliniai ir neduoda jokios vertės verslui; tokie duomenys atmetami transformavimo fazėje, siekiant sutaupyti sistemos saugyklos vietos. Tai problemos, kurios išsprendžiamos transformacijos etape.

Apkrovos fazė

Kai neapdoroti duomenys išgaunami ir pritaikyti transformacijos procesams, jie įkeliami į tikslinę sistemą, kuri paprastai yra duomenų saugykla arba duomenų ežeras. Yra du skirtingi apkrovos etapo atlikimo būdai.

Visas įkėlimas: visi duomenys pirmą kartą įkeliami į tikslinę sistemą. Tai techniškai mažiau sudėtinga, bet užima daugiau laiko. Tai idealiai tinka tuo atveju, kai duomenų dydis nėra per didelis.
Laipsniškas apkrovimas: laipsniškas įkėlimas, kaip rodo pavadinimas, atliekamas žingsniais. Jis turi dvi subkategorijas.

Srauto laipsniškas įkėlimas: duomenys įkeliami intervalais, paprastai kasdien. Toks įkėlimas yra geriausias, kai duomenų yra mažai.
Paketinis laipsniškas įkėlimas: naudojant paketinį laipsniško įkėlimo tipą, duomenys įkeliami paketais su intervalu tarp dviejų partijų. Idealiai tinka, kai duomenys yra per dideli. Tai greita, bet techniškai sudėtingesnė.

ETL įrankių tipai

ETL vykdomas dviem būdais: rankiniu arba be kodo ETL. Rankiniame ETL automatizavimo mažai arba visai nėra. Viską užkoduoja komanda, kurioje dalyvauja duomenų mokslininkas, duomenų analitikas ir duomenų inžinierius. Visi ištraukimo, transformavimo ir įkėlimo vamzdynai yra skirti visiems duomenų rinkiniams rankiniu būdu. Visa tai sukelia didelį produktyvumą ir išteklių praradimą.

Alternatyva yra be kodo ETL; šie įrankiai paprastai turi vilkimo ir numetimo funkcijas. Šie įrankiai visiškai pašalina kodavimo poreikį, todėl net ir ne technologijų darbuotojai gali atlikti ETL. Dėl savo interaktyvaus dizaino ir visa apimančio požiūrio dauguma įmonių savo ETL operacijoms naudoja Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow ir Oracle Data Integrator.

Duomenų pramonėje egzistuoja keturi bekodinių ETL įrankių tipai.

Komerciniai ETL įrankiai
Atvirojo kodo ETL įrankiai
Individualūs ETL įrankiai
Debesimis pagrįsti ETL įrankiai

Geriausia ETL praktika

Norint užtikrinti optimizuotą ETL dujotiekį, reikia laikytis tam tikrų praktikų ir protokolų. Geriausios praktikos pavyzdžiai aptariami toliau:

Duomenų konteksto supratimas: reikia tinkamai suprasti, kaip renkami duomenys ir ką reiškia metrika. Tai padėtų nustatyti, kurie atributai yra nereikalingi ir turėtų būti pašalinti.
Atkūrimo kontroliniai taškai: nutrūkus dujotiekiui ir nutekėjus duomenims, reikia turėti protokolus, kad būtų galima atkurti nutekėjusius duomenis.
ETL žurnalas: turi būti tvarkomas ETL žurnalas, kuriame būtų įrašas apie kiekvieną procesą, kuris buvo atliktas su duomenimis prieš ETL ciklą, jo metu ir po jo.
Auditas: patikrinkite duomenis po tam tikro laiko, kad įsitikintumėte, jog duomenys yra tokios būsenos, kokios norėjote.
Mažas duomenų dydis: Duomenų bazių ir jų lentelių dydis turėtų būti mažas, kad duomenys būtų paskleisti daugiau horizontaliai nei vertikaliai. Ši praktika padidina apdorojimo greitį ir, beje, pagreitina ETL procesą.
Talpyklos sluoksnio kūrimas: Talpyklos sluoksnis yra didelės spartos duomenų saugojimo sluoksnis, kuriame neseniai naudojami duomenys saugomi diske, kur juos galima greitai pasiekti. Ši praktika padeda sutaupyti laiko, kai talpykloje saugomi duomenys yra tie, kurių reikalauja sistema.
Lygiagretusis apdorojimas: ETL traktavimas kaip serijinis procesas sunaudoja didelę verslo laiko ir išteklių dalį, todėl visas procesas tampa itin neefektyvus. Sprendimas yra lygiagretus apdorojimas ir kelios ETL integracijos vienu metu.

ETL naudojimo atvejai

ETL įvairiais būdais palengvina ir efektyvina verslo veiklą, tačiau čia aptarsime tris populiariausius naudojimo atvejus.

Įkėlimas į debesį:

Duomenų saugojimas vietoje yra brangi galimybė, dėl kurios įmonės išleidžia išteklius serveriams pirkti, laikyti, valdyti ir prižiūrėti. Kad išvengtų visų šių rūpesčių, įmonės gali tiesiogiai įkelti duomenis į debesį. Taip sutaupoma vertingų išteklių ir laiko, kurį vėliau galima investuoti į kitus ETL proceso aspektus.

Duomenų iš skirtingų šaltinių sujungimas:

Duomenys dažnai yra išsklaidyti įvairiose organizacijos sistemose. Duomenų iš skirtingų šaltinių sujungimas vienoje vietoje, kad juos būtų galima apdoroti ir analizuoti, kad vėliau būtų galima dalytis su suinteresuotosiomis šalimis, atliekamas naudojant ETL procesą. ETL užtikrina, kad duomenys iš skirtingų šaltinių būtų vienodai suformatuoti, o duomenų vientisumas išliktų nepakitęs.

Nuspėjamasis modeliavimas:

Duomenimis pagrįstas sprendimų priėmimas yra sėkmingos verslo strategijos kertinis akmuo. ETL padeda įmonėms išgauti duomenis, juos transformuoti ir įkelti į duomenų bazes, susietas su mašininio mokymosi modeliais. Šie mašininio mokymosi modeliai analizuoja duomenis po to, kai buvo atliktas ETL procesas, ir pagal tuos duomenis daro prognozes.

ETL ateitis duomenų kraštovaizdyje

ETL tikrai atlieka duomenų architektūros pagrindo dalį; Ar tai išliks taip, ar ne, kol kas paaiškės, nes technologijų pramonėje įdiegus Zero ETL, neišvengiami dideli pokyčiai. Naudojant Zero ETL, nereikėtų tradicinių ištraukimo, transformavimo ir įkėlimo procesų, tačiau duomenys būtų tiesiogiai perduodami į tikslinę sistemą beveik realiuoju laiku.

Duomenų ekosistemoje yra daug naujų tendencijų. Patikrinkite vienytis.ai išplėsti savo žinias apie technologijų tendencijas.