AI 101

Mikä on ETL? (Extract, Transform, Load) Metodologia ja käyttötapaukset

Päivitetty on Tammikuu 14, 2023

ETL tulee sanoista "extract, transform, load". Se on prosessi, joka yhdistää tiedot eri lähteistä yhdeksi arkistoon, jotta se voidaan käsitellä ja sitten analysoida, jotta siitä voidaan päätellä hyödyllistä tietoa. Nämä hyödylliset tiedot auttavat yrityksiä tekemään datalähtöisiä päätöksiä ja kasvamaan.

"Data on uusi öljy."

Clive Humby, matemaatikko

Maailmanlaajuinen tiedontuotanto on lisääntynyt eksponentiaalisesti, niin paljon, että Forbesin mukaan nykyisellä vauhdilla ihmiset kaksinkertaistavat tiedon luomisen joka toinen vuosi. Tämän seurauksena nykyaikainen tietopino on kehittynyt. Datamarketit on muunnettu tietovarastoiksi, ja kun se ei ole riittänyt, on luotu datajärviä. Vaikka kaikissa näissä erilaisissa infrastruktuureissa yksi prosessi pysyi samana, ETL-prosessi.

Tässä artikkelissa tarkastellaan ETL:n metodologiaa, sen käyttötapauksia, etuja ja sitä, kuinka tämä prosessi on auttanut muodostamaan nykyaikaisen tietomaiseman.

ETL:n metodologia

ETL mahdollistaa eri lähteistä peräisin olevan tiedon yhdistämisen yhteen paikkaan, jotta sitä voidaan käsitellä, analysoida ja sitten jakaa yritysten sidosryhmien kanssa. Se varmistaa raportointiin, analysointiin ja ennustamiseen koneoppimismalleilla käytettävien tietojen eheyden. Se on kolmivaiheinen prosessi, joka poimii tiedot useista lähteistä, muuntaa sen ja lataa ne sitten business intelligence -työkaluihin. Yritykset käyttävät näitä business intelligence -työkaluja tehdäkseen tietoon perustuvia päätöksiä.

Poistovaihe

Tässä vaiheessa tiedot poimitaan useista lähteistä käyttämällä SQL-kyselyitä, Python-koodeja, DBMS (tietokannan hallintajärjestelmiä) tai ETL-työkaluja. Yleisimmät lähteet ovat:

CRM (Customer Relationship Management) -ohjelmisto
Analytics-työkalu
Tietovarasto
tietokanta
Pilvitallennusalustat
Myynnin ja markkinoinnin työkalut
Mobile Apps

Nämä lähteet ovat joko jäsenneltyjä tai jäsentelemättömiä, minkä vuoksi tietojen muoto ei ole tässä vaiheessa yhtenäinen.

Muutosvaihe

Muunnosvaiheessa poimittu raakadata muunnetaan ja käännetään kohdejärjestelmään sopivaan muotoon. Tätä varten raakadata käy läpi muutaman muunnosaliprosessin, kuten:

Puhdistus – epäjohdonmukaiset ja puuttuvat tiedot huomioidaan.
Standardointi – yhtenäinen muotoilu on käytössä kaikkialla.
Päällekkäisyyden poisto — ylimääräiset tiedot poistetaan.
Poikkeamien havaitseminen – poikkeamat havaitaan ja normalisoidaan.
Lajittelu – tiedot järjestetään tavalla, joka lisää tehokkuutta.

Tietojen uudelleenmuotoilun lisäksi on muitakin syitä tiedon muuntamisen tarpeeseen. Nolla-arvot, jos ne ovat tiedoissa, tulee poistaa; Muutoin tiedoissa on usein poikkeavuuksia, jotka vaikuttavat analyysiin negatiivisesti; niitä tulisi käsitellä muutosvaiheessa. Usein törmäämme tietoihin, jotka ovat tarpeettomia eivätkä tuo yritykselle arvoa. tällaiset tiedot jätetään pois muunnosvaiheessa järjestelmän tallennustilan säästämiseksi. Nämä ovat ongelmia, jotka ratkaistaan muutosvaiheessa.

Latausvaihe

Kun raakadata on poimittu ja räätälöity muunnosprosesseilla, se ladataan kohdejärjestelmään, joka on yleensä joko tietovarasto tai datajärvi. On kaksi eri tapaa suorittaa kuormitusvaihe.

Täysi lataus: Kaikki tiedot ladataan kerralla ensimmäistä kertaa kohdejärjestelmään. Se on teknisesti vähemmän monimutkainen, mutta vie enemmän aikaa. Se on ihanteellinen silloin, kun datan koko ei ole liian suuri.
Inkrementaalinen kuormitus: Inkrementaalinen kuormitus, kuten nimestä voi päätellä, suoritetaan portaittain. Siinä on kaksi alaluokkaa.

Stream Incremental Loading: Tiedot ladataan aikavälein, yleensä päivittäin. Tällainen lataus on parasta, kun dataa on pieniä määriä.
Erän asteittainen lataus: Erätyypissä tiedot ladataan erissä kahden erän välissä. Se on ihanteellinen, kun data on liian suuri. Se on nopea, mutta teknisesti monimutkaisempi.

ETL -työkalujen tyypit

ETL suoritetaan kahdella tavalla, manuaalinen ETL tai kooditon ETL. Manuaalisessa ETL:ssä automaatiota on vähän tai ei ollenkaan. Kaiken koodaa tiimi, johon kuuluu datatieteilijä, dataanalyytikko ja tietoinsinööri. Kaikki purku-, muunnos- ja latausputket on suunniteltu kaikille tietojoukoille manuaalisesti. Tämä kaikki aiheuttaa valtavaa tuottavuutta ja resurssien menetystä.

Vaihtoehto on kooditon ETL; näissä työkaluissa on yleensä vedä ja pudota -toimintoja. Nämä työkalut poistavat kokonaan koodauksen tarpeen, jolloin jopa ei-teknologiatyöntekijät voivat suorittaa ETL:n. Vuorovaikutteisen suunnittelunsa ja kattavan lähestymistavan vuoksi useimmat yritykset käyttävät Informaticaa, Integrate.io:ta, IBM Storagea, Hadoopia, Azurea, Google Cloud Dataflow:ta ja Oracle Data Integraattoria ETL-toimintoihinsa.

Tietoteollisuudessa on olemassa neljän tyyppisiä koodittomia ETL-työkaluja.

Kaupalliset ETL-työkalut
Avoimen lähdekoodin ETL-työkalut
Mukautetut ETL-työkalut
Pilvipohjaiset ETL-työkalut

ETL:n parhaat käytännöt

On joitain käytäntöjä ja protokollia, joita tulee noudattaa optimoidun ETL-putkiston varmistamiseksi. Parhaita käytäntöjä käsitellään alla:

Tietojen kontekstin ymmärtäminen: On ymmärrettävä oikein, kuinka tietoja kerätään ja mitä mittarit tarkoittavat. Se auttaisi tunnistamaan, mitkä määritteet ovat tarpeettomia ja ne pitäisi poistaa.
Palautuksen tarkistuspisteet: Jos putkisto on rikki ja tietovuoto tapahtuu, on oltava käytössä protokollat vuotaneiden tietojen palauttamiseksi.
ETL-lokikirja: On ylläpidettävä ETL-lokikirjaa, jossa on tietue jokaisesta prosessista, joka on suoritettu tiedoilla ennen ETL-sykliä, sen aikana ja sen jälkeen.
Tarkastus: Tarkkaile tietoja tietyn ajan kuluttua vain varmistaaksesi, että tiedot ovat siinä tilassa, kuin haluat sen olevan.
Datan pieni koko: Tietokantojen ja niiden taulukoiden koko tulee pitää pienenä niin, että tiedot leviävät enemmän vaakasuunnassa kuin pystysuunnassa. Tämä käytäntö varmistaa prosessointinopeuden lisäämisen ja lisäksi nopeuttaa ETL-prosessia.
Välimuistikerroksen tekeminen: Välimuistikerros on nopea tiedontallennuskerros, joka tallentaa äskettäin käytetyt tiedot levylle, josta niitä voidaan käyttää nopeasti. Tämä käytäntö auttaa säästämään aikaa, kun välimuistissa olevat tiedot ovat järjestelmän pyytämiä.
Rinnakkaiskäsittely: ETL:n käsitteleminen sarjaprosessina kuluttaa suuren osan yrityksen ajasta ja resursseista, mikä tekee koko prosessista erittäin tehottoman. Ratkaisu on tehdä rinnakkaiskäsittely ja useita ETL-integraatioita kerralla.

ETL-käyttötapaukset

ETL tekee toiminnasta sujuvaa ja tehokasta yrityksille monella tapaa, mutta käsittelemme tässä kolmea suosituinta käyttötapaa.

Lataaminen pilveen:

Tietojen säilyttäminen paikallisesti on kallis vaihtoehto, jonka vuoksi yritykset käyttävät resursseja palvelimien ostamiseen, ylläpitämiseen, käyttämiseen ja ylläpitoon. Kaiken tämän vaivan välttämiseksi yritykset voivat ladata tiedot suoraan pilveen. Tämä säästää arvokkaita resursseja ja aikaa, jotka voidaan sitten investoida ETL-prosessin muiden osien parantamiseen.

Tietojen yhdistäminen eri lähteistä:

Tiedot ovat usein hajallaan organisaation eri järjestelmissä. Eri lähteistä peräisin olevien tietojen yhdistäminen yhteen paikkaan, jotta se voidaan käsitellä ja analysoida myöhemmin sidosryhmien kanssa jaettavaksi, tapahtuu ETL-prosessin avulla. ETL varmistaa, että eri lähteistä peräisin olevat tiedot muotoillaan yhtenäisesti ja että tietojen eheys säilyy.

Ennakoiva mallinnus:

Tietoihin perustuva päätöksenteko on menestyvän liiketoimintastrategian kulmakivi. ETL auttaa yrityksiä poimimalla dataa, muuntamalla sitä ja lataamalla sen sitten tietokantoihin, jotka on linkitetty koneoppimismalleihin. Nämä koneoppimismallit analysoivat tiedot sen jälkeen, kun ne ovat käyneet läpi ETL-prosessin, ja tekevät sitten ennusteita näiden tietojen perusteella.

ETL:n tulevaisuus Data Landscapessa

ETL on varmasti tietoarkkitehtuurin selkäranka; pysyykö se sellaisena vai ei, jää nähtäväksi, koska Zero ETL:n käyttöönoton myötä teknologiateollisuudessa suuret muutokset ovat lähellä. Zero ETL:llä ei tarvittaisi perinteisiä poiminta-, muunnos- ja latausprosesseja, vaan tiedot siirtyisivät suoraan kohdejärjestelmään lähes reaaliajassa.

Dataekosysteemissä on lukuisia nousevia trendejä. Tarkista unite.ai laajentaaksesi tietämyksesi tekniikan trendeistä.