AI 101

Kas ir ETL? (Izvilkšana, pārveidošana, ielāde) Metodoloģija un lietošanas gadījumi

Atjaunināts on Janvāris 14, 2023

ETL nozīmē “izvilkt, pārveidot, ielādēt”. Tas ir process, kas integrē datus no dažādiem avotiem vienā repozitorijā, lai tos varētu apstrādāt un pēc tam analizēt, lai no tā varētu secināt noderīgu informāciju. Šī noderīgā informācija palīdz uzņēmumiem pieņemt uz datiem balstītus lēmumus un augt.

"Dati ir jaunā eļļa."

Klaivs Hambijs, matemātiķis

Globālā datu radīšana ir pieaugusi eksponenciāli, tik daudz, ka saskaņā ar Forbes pašreizējo ātrumu cilvēki divkāršo datu radīšanu ik pēc diviem gadiem. Tā rezultātā ir attīstījusies mūsdienu datu steks. Datu centri ir pārveidoti par datu noliktavām, un, kad ar to nav pietiekami, ir izveidoti datu ezeri. Lai gan visās šajās dažādajās infrastruktūrās viens process palika nemainīgs, ETL process.

Šajā rakstā mēs apskatīsim ETL metodoloģiju, tās izmantošanas gadījumus, priekšrocības un to, kā šis process ir palīdzējis veidot mūsdienu datu ainavu.

ETL metodoloģija

ETL ļauj integrēt datus no dažādiem avotiem vienā vietā, lai tos varētu apstrādāt, analizēt un pēc tam kopīgot ar uzņēmumu ieinteresētajām pusēm. Tas nodrošina to datu integritāti, kas tiks izmantoti ziņošanai, analīzei un prognozēšanai ar mašīnmācīšanās modeļiem. Tas ir trīspakāpju process, kas iegūst datus no vairākiem avotiem, pārveido tos un pēc tam ielādē biznesa informācijas rīkos. Pēc tam uzņēmumi izmanto šos biznesa informācijas rīkus, lai pieņemtu uz datiem balstītus lēmumus.

Ekstrakta fāze

Šajā fāzē dati tiek iegūti no vairākiem avotiem, izmantojot SQL vaicājumus, Python kodus, DBMS (datu bāzes pārvaldības sistēmas) vai ETL rīkus. Visizplatītākie avoti ir:

CRM (Customer Relationship Management) programmatūra
Analīzes rīks
Datu noliktava
Datubāze
Mākoņu krātuves platformas
Pārdošanas un mārketinga instrumenti
Mobilās lietotnes

Šie avoti ir strukturēti vai nestrukturēti, tāpēc datu formāts šajā posmā nav vienāds.

Pārveidošanas fāze

Pārveidošanas fāzē iegūtie neapstrādātie dati tiek pārveidoti un apkopoti mērķa sistēmai piemērotā formātā. Šim nolūkam neapstrādātajos datos tiek veikti daži pārveidošanas apakšprocesi, piemēram:

Tīrīšana — tiek nodrošināti nekonsekventi un trūkstošie dati.
Standartizācija — visā tiek izmantots vienots formatējums.
Dublēšanās noņemšana — tiek noņemti liekie dati.
Noviržu noteikšana — novirzes tiek pamanītas un normalizētas.
Kārtošana — dati tiek sakārtoti tā, lai palielinātu efektivitāti.

Papildus datu pārformatēšanai ir arī citi iemesli datu pārveidošanas nepieciešamībai. Null vērtības, ja tādas ir datos, ir jānoņem; izņemot to, datos bieži sastopamas novirzes, kas negatīvi ietekmē analīzi; tie būtu jārisina transformācijas fāzē. Bieži vien mēs saskaramies ar datiem, kas ir lieki un nerada uzņēmumam vērtību; šādi dati tiek izmesti transformācijas fāzē, lai ietaupītu sistēmas krātuves vietu. Tās ir problēmas, kas tiek atrisinātas transformācijas fāzē.

Slodzes fāze

Kad neapstrādātie dati ir iegūti un pielāgoti transformācijas procesiem, tie tiek ielādēti mērķa sistēmā, kas parasti ir datu noliktava vai datu ezers. Ir divi dažādi veidi, kā veikt slodzes fāzi.

Pilna ielāde: pirmo reizi mērķa sistēmā visi dati tiek ielādēti uzreiz. Tas ir tehniski mazāk sarežģīts, bet aizņem vairāk laika. Tas ir ideāli piemērots gadījumā, ja datu apjoms nav pārāk liels.
Pakāpeniska iekraušana: kā norāda nosaukums, pakāpeniska iekraušana tiek veikta pakāpeniski. Tam ir divas apakškategorijas.

Straumes pakāpeniska ielāde: dati tiek ielādēti ar intervāliem, parasti katru dienu. Šāda veida ielāde ir vislabākā, ja datu apjoms ir mazs.
Partijas pakāpeniskā ielāde: Pakešu ielādes tipa gadījumā dati tiek ielādēti pa partijām ar intervālu starp divām partijām. Tas ir ideāli piemērots, ja dati ir pārāk lieli. Tas ir ātrs, bet tehniski sarežģītāks.

ETL rīku veidi

ETL tiek veikts divos veidos: manuālā ETL vai bezkoda ETL. Manuālajā ETL ir maz vai nav nekādas automatizācijas. Visu kodē komanda, kurā ir iesaistīts datu zinātnieks, datu analītiķis un datu inženieris. Visi izvilkšanas, pārveidošanas un ielādes cauruļvadi ir paredzēti visām datu kopām manuāli. Tas viss rada milzīgus produktivitātes un resursu zudumus.

Alternatīva ir bezkoda ETL; šiem rīkiem parasti ir vilkšanas un nomešanas funkcijas. Šie rīki pilnībā novērš vajadzību pēc kodēšanas, tādējādi ļaujot pat netehnoloģiju darbiniekiem veikt ETL. Interaktīvai dizainam un iekļaujošai pieejai lielākā daļa uzņēmumu izmanto Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow un Oracle Data Integrator savām ETL darbībām.

Datu nozarē pastāv četri bezkoda ETL rīku veidi.

Komerciālie ETL rīki
Atvērtā koda ETL rīki
Pielāgoti ETL rīki
Mākoņos bāzēti ETL rīki

ETL labākā prakse

Ir dažas prakses un protokoli, kas jāievēro, lai nodrošinātu optimizētu ETL cauruļvadu. Paraugprakse ir apspriesta tālāk:

Datu konteksta izpratne: pareizi jāsaprot, kā dati tiek vākti un ko nozīmē metrika. Tas palīdzētu noteikt, kuri atribūti ir lieki un ir jānoņem.
Atkopšanas kontrolpunkti: ja cauruļvads ir bojāts un notiek datu noplūde, ir jābūt izveidotiem protokoliem, lai atgūtu noplūdušos datus.
ETL žurnāls: ir jāuztur ETL žurnāls, kurā ir ieraksts par katru procesu, kas veikts ar datiem pirms ETL cikla, tā laikā un pēc tā.
Auditēšana: pārbaudiet datus pēc noteikta laika, lai pārliecinātos, ka dati ir tādā stāvoklī, kādu vēlaties.
Neliels datu apjoms: datu bāzu un to tabulu izmēriem jābūt maziem, lai dati tiktu izplatīti vairāk horizontāli, nevis vertikāli. Šī prakse nodrošina apstrādes ātruma palielināšanos un, attiecīgi, paātrina ETL procesu.
Kešatmiņas slāņa izveide: Kešatmiņas slānis ir ātrgaitas datu glabāšanas slānis, kas glabā nesen izmantotos datus diskā, kur tiem var ātri piekļūt. Šī prakse palīdz ietaupīt laiku, ja kešatmiņā saglabātie dati ir tie, kurus pieprasa sistēma.
Paralēlā apstrāde: ETL traktēšana kā sērijveida process patērē lielu daļu uzņēmuma laika un resursu, kas padara visu procesu ārkārtīgi neefektīvu. Risinājums ir veikt paralēlu apstrādi un vairākas ETL integrācijas vienlaikus.

ETL lietošanas gadījumi

ETL padara uzņēmumu darbību gludu un efektīvu vairākos veidos, taču mēs šeit apspriedīsim trīs populārākos lietošanas gadījumus.

Augšupielāde mākonī:

Datu glabāšana lokāli ir dārga iespēja, kas liek uzņēmumiem tērēt resursus serveru iegādei, uzturēšanai, darbināšanai un uzturēšanai. Lai izvairītos no visām šīm grūtībām, uzņēmumi var tieši augšupielādēt datus mākonī. Tas ietaupa vērtīgus resursus un laiku, ko pēc tam var ieguldīt, lai uzlabotu citus ETL procesa aspektus.

Datu apvienošana no dažādiem avotiem:

Dati bieži vien ir izkaisīti dažādās organizācijas sistēmās. Datu no dažādiem avotiem apvienošana vienuviet, lai tos varētu apstrādāt un pēc tam analizēt, lai vēlāk tos kopīgotu ar ieinteresētajām personām, tiek veikta, izmantojot ETL procesu. ETL nodrošina, ka dati no dažādiem avotiem tiek formatēti vienādi, vienlaikus saglabājot neskartu datu integritāti.

Prognozējošā modelēšana:

Uz datiem balstīta lēmumu pieņemšana ir veiksmīgas biznesa stratēģijas stūrakmens. ETL palīdz uzņēmumiem, iegūstot datus, pārveidojot tos un pēc tam ielādējot tos datu bāzēs, kas ir saistītas ar mašīnmācīšanās modeļiem. Šie mašīnmācīšanās modeļi analizē datus pēc tam, kad tie ir izgājuši ETL procesu, un pēc tam veic prognozes, pamatojoties uz šiem datiem.

ETL nākotne datu ainavā

ETL noteikti ir datu arhitektūras mugurkaula daļa; Tas, vai tas tā paliks vai nē, vēl ir redzams, jo līdz ar Zero ETL ieviešanu tehnoloģiju nozarē gaidāmas lielas pārmaiņas. Izmantojot Zero ETL, nebūtu nepieciešami tradicionālie izvilkšanas, pārveidošanas un ielādes procesi, bet dati tiktu tieši pārsūtīti uz mērķa sistēmu gandrīz reāllaikā.

Datu ekosistēmā ir vairākas jaunas tendences. Pārbaudiet apvienoties.ai lai paplašinātu savas zināšanas par tehnoloģiju tendencēm.