stub ETL гэж юу вэ? (Extract, Transform, Load) Арга зүй, Хэрэглээний тохиолдлууд - Unite.AI
бидэнтэй хамт холбоно
AI мастер анги:

AI 101

ETL гэж юу вэ? (Хандлах, Хувиргах, Ачаалах) Арга зүй, Хэрэглэх тохиолдол

mm
шинэчлэгдсэн on

ETL нь "худлах, хувиргах, ачаалах" гэсэн утгатай. Энэ нь өөр өөр эх сурвалжаас авсан өгөгдлийг нэг репозитор болгон нэгтгэн боловсруулж, дараа нь дүн шинжилгээ хийж, үр дүнтэй мэдээллээс дүгнэлт гаргах үйл явц юм. Энэхүү ашигтай мэдээлэл нь бизнесүүдэд өгөгдөлд тулгуурласан шийдвэр гаргах, өсөхөд тусалдаг.

"Өгөгдөл бол шинэ тос юм."

Клайв Хамби, математикч

Дэлхий дахинд мэдээлэл бий болгох нь асар хурдацтай нэмэгдэж, Форбес сэтгүүлийн мэдээлснээр одоогийн хурдаар хүмүүс хоёр жил тутамд өгөгдөл бүтээх ажлыг хоёр дахин нэмэгдүүлж байна. Үүний үр дүнд орчин үеийн мэдээллийн стек хөгжиж ирсэн. Өгөгдлийн захуудыг өгөгдлийн агуулах болгон хувиргасан бөгөөд энэ нь хангалтгүй үед дата нууруудыг бий болгосон. Хэдийгээр эдгээр бүх өөр өөр дэд бүтцүүдэд нэг үйл явц ижил хэвээр байсан, ETL процесс.

Энэ нийтлэлд бид ETL-ийн аргачлал, түүний хэрэглээний тохиолдол, ашиг тус, энэ үйл явц нь орчин үеийн мэдээллийн ландшафтыг бүрдүүлэхэд хэрхэн тусалсан талаар авч үзэх болно.

ETL-ийн арга зүй

ETL нь өөр өөр эх сурвалжаас авсан өгөгдлийг нэг газар нэгтгэх боломжийг олгодог бөгөөд ингэснээр тэдгээрийг боловсруулж, дүн шинжилгээ хийж, дараа нь бизнесийн оролцогч талуудтай хуваалцах боломжтой. Энэ нь машин сургалтын загвараар тайлагнах, дүн шинжилгээ хийх, таамаглахад ашиглагдах өгөгдлийн бүрэн бүтэн байдлыг хангадаг. Энэ нь олон эх сурвалжаас өгөгдлийг гаргаж аваад хувиргаж, дараа нь бизнесийн тагнуулын хэрэгсэл болгон ачаалдаг гурван үе шаттай процесс юм. Эдгээр бизнесийн тагнуулын хэрэгслүүдийг дараа нь бизнесүүд өгөгдөлд тулгуурласан шийдвэр гаргахад ашигладаг.

Хандлах үе шат

Энэ үе шатанд өгөгдлийг SQL асуулга, Python код, DBMS (өгөгдлийн сангийн удирдлагын систем) эсвэл ETL хэрэгслүүдийг ашиглан олон эх сурвалжаас гаргаж авдаг. Хамгийн түгээмэл эх сурвалжууд нь:

  • CRM (Хэрэглэгчийн харилцааны менежмент) програм хангамж
  • Аналитик хэрэгсэл
  • Өгөгдлийн агуулах
  • Өгөгдлийн сан
  • Үүл хадгалах платформууд
  • Борлуулалт, маркетингийн хэрэгслүүд
  • Гар утасны програм

Эдгээр эх сурвалжууд нь бүтэцтэй эсвэл бүтэцгүй байдаг тул энэ үе шатанд өгөгдлийн формат жигд биш байна.

Өөрчлөлтийн үе шат

Өөрчлөлтийн үе шатанд гаргаж авсан түүхий өгөгдлийг зорилтот системд тохирсон формат руу хөрвүүлэн хөрвүүлдэг. Үүний тулд түүхий өгөгдөл нь хэд хэдэн хувиргах дэд процесст ордог, тухайлбал:

  1. Цэвэрлэгээ-зохицуулалт, дутуу өгөгдлийг хангана.
  2. Стандартчилал - нэг төрлийн форматыг бүхэлд нь ашигладаг.
  3. Давхардлыг арилгах - илүүдэл өгөгдлийг устгана.
  4. Толбо хэтрүүлсэн үзүүлэлтүүд - хэт давсан үзүүлэлтүүдийг ялгаж, хэвийн болгодог.
  5. Эрэмбэлэх-өгөгдлийг үр ашгийг нэмэгдүүлэх байдлаар зохион байгуулдаг.

Өгөгдлийг дахин форматлахаас гадна өгөгдлийг өөрчлөх шаардлагатай болсон бусад шалтгаанууд бий. Хэрэв өгөгдөлд байгаа бол тэг утгыг хасах хэрэгтэй; үүнээс бусад тохиолдолд өгөгдөлд хэт давсан үзүүлэлтүүд ихэвчлэн байдаг бөгөөд энэ нь шинжилгээнд сөргөөр нөлөөлдөг; тэдгээрийг хувиргах үе шатанд шийдвэрлэх ёстой. Ихэнхдээ бид илүү их мэдээлэлтэй тулгардаг бөгөөд бизнест ямар ч үнэ цэнэ авчирдаггүй; Системийн хадгалах зайг хэмнэхийн тулд ийм өгөгдлийг хувиргах үе шатанд хасдаг. Эдгээр нь өөрчлөлтийн үе шатанд шийдэгддэг асуудлууд юм.

Ачааллын үе шат

Түүхий өгөгдлийг задалж, хувиргах процесст тохируулсны дараа тэдгээрийг зорилтот системд ачаалдаг бөгөөд энэ нь ихэвчлэн мэдээллийн агуулах эсвэл мэдээллийн нуур юм. Ачааллын үе шатыг гүйцэтгэх хоёр өөр арга байдаг.

  1. Бүрэн ачаалал: Зорилтот системд анх удаа бүх өгөгдлийг нэг дор ачаална. Энэ нь техникийн хувьд төвөгтэй биш боловч илүү их цаг хугацаа шаарддаг. Энэ нь өгөгдлийн хэмжээ тийм ч том биш тохиолдолд тохиромжтой.
  2. Өсөн нэмэгдэж буй ачаалал: Нэмэх ачааллыг нэрнээс нь харахад шат дамжлагаар гүйцэтгэдэг. Энэ нь хоёр дэд ангилалтай.
  • Урсгалын нэмэгдэл ачаалал: Өгөгдлийг ихэвчлэн өдөр бүр интервалаар ачаалдаг. Өгөгдөл бага хэмжээгээр байх үед ийм төрлийн ачаалал хамгийн тохиромжтой.
  • Багцын нэмэгдэл ачаалал: Өсөн нэмэгдэж буй ачааллын багцын төрөлд өгөгдлийг хоёр багцын хоорондох зайтай багцаар ачаална. Энэ нь өгөгдөл хэт том байх үед тохиромжтой. Энэ нь хурдан боловч техникийн хувьд илүү төвөгтэй.

ETL хэрэгслийн төрлүүд

ETL нь гарын авлагын ETL эсвэл кодгүй ETL гэсэн хоёр аргаар явагддаг. Гарын авлагын ETL-д автоматжуулалт бараг байдаггүй. Бүх зүйлийг өгөгдөл судлаач, өгөгдлийн шинжээч, мэдээллийн инженер оролцуулсан баг кодлодог. Олборлох, хувиргах, ачаалах бүх дамжуулах хоолой нь бүх өгөгдлийн багцад зориулж гараар бүтээгдсэн. Энэ бүхэн асар их бүтээмж, нөөцийн алдагдалд хүргэдэг.

Өөр хувилбар бол кодгүй ETL; Эдгээр хэрэгслүүд нь ихэвчлэн чирэх, буулгах функцтэй байдаг. Эдгээр хэрэгслүүд нь кодлох хэрэгцээг бүрмөсөн арилгаж, технологийн бус ажилчдад хүртэл ETL хийх боломжийг олгодог. Интерактив дизайн, хүртээмжтэй арга барилын хувьд ихэнх бизнесүүд ETL үйл ажиллагаандаа Informatica, Integrate.io, IBM Storage, Hadoop, Azure, Google Cloud Dataflow, Oracle Data Integrator ашигладаг.

Өгөгдлийн салбарт дөрвөн төрлийн кодгүй ETL хэрэгсэл байдаг.

  1. Арилжааны ETL хэрэгслүүд
  2. Нээлттэй эхийн ETL хэрэгслүүд
  3. Захиалгат ETL хэрэгслүүд
  4. Үүлэн дээр суурилсан ETL хэрэгслүүд

ETL-ийн шилдэг туршлагууд

Оновчтой ETL дамжуулах хоолойг баталгаажуулахын тулд дагаж мөрдөх ёстой зарим практик, протоколууд байдаг. Шилдэг туршлагуудыг доор авч үзнэ.

  1. Өгөгдлийн контекстийг ойлгох нь: Өгөгдлийг хэрхэн цуглуулж, хэмжүүрүүд нь юу гэсэн үг болохыг зөв ойлгох ёстой. Энэ нь ямар шинж чанарууд илүүдэхгүй, устгах ёстойг тодорхойлоход тусална.
  2. Сэргээх хяналтын цэгүүд: Дамжуулах хоолой эвдэрсэн, мэдээлэл алдагдсан тохиолдолд алдагдсан өгөгдлийг сэргээх протоколтой байх ёстой.
  3. ETL бүртгэлийн дэвтэр: ETL мөчлөгийн өмнө, үеэр болон дараа нь өгөгдөлтэй хамт гүйцэтгэсэн үйл явц бүрийн бүртгэлийг агуулсан ETL бүртгэлийн дэвтэр хөтлөх ёстой.
  4. Аудит: Өгөгдөл таны хүссэн төлөвт байгаа эсэхийг шалгахын тулд завсарлагааны дараа өгөгдлийг шалгах.
  5. Өгөгдлийн жижиг хэмжээ: Өгөгдлийн сан болон тэдгээрийн хүснэгтийн хэмжээг жижиг байлгах ёстой бөгөөд ингэснээр өгөгдөл босоо чиглэлээс илүү хэвтээ байдлаар тархдаг. Энэ практик нь боловсруулалтын хурдыг нэмэгдүүлэх бөгөөд өргөтгөлөөр ETL процессыг хурдасгадаг.
  6. Кэшийн давхарга хийх: Кэшийн давхарга нь сүүлийн үед ашигласан өгөгдлийг дискэнд хадгалдаг өндөр хурдны өгөгдөл хадгалах давхарга бөгөөд тэдгээрт хурдан хандах боломжтой. Энэ дадлага нь системээс хүссэн өгөгдлийг санах ойд хадгалсан үед цаг хэмнэхэд тусалдаг.
  7. Зэрэгцээ боловсруулалт: ETL-ийг цуваа процесс гэж үзэх нь бизнесийн цаг хугацаа, нөөцийн ихээхэн хэсгийг зарцуулдаг бөгөөд энэ нь бүх үйл явцыг туйлын үр ашиггүй болгодог. Үүний шийдэл нь зэрэгцээ боловсруулалт болон олон ETL интеграцчлалыг нэгэн зэрэг хийх явдал юм.

ETL ашиглах тохиолдлууд

ETL нь бизнесийн үйл ажиллагааг хэд хэдэн аргаар жигд, үр ашигтай болгодог боловч бид энд хамгийн түгээмэл хэрэглээний гурван тохиолдлыг авч үзэх болно.

Cloud руу байршуулж байна:

Мэдээллийг дотооддоо хадгалах нь бизнесүүд сервер худалдаж авах, хадгалах, ажиллуулах, засвар үйлчилгээ хийхэд нөөцийг зарцуулдаг үнэтэй сонголт юм. Энэ бүх бэрхшээлээс зайлсхийхийн тулд бизнесүүд өгөгдлийг үүлэн дээр шууд байршуулах боломжтой. Энэ нь үнэ цэнэтэй нөөц, цаг хугацааг хэмнэж, дараа нь ETL үйл явцын бусад талыг сайжруулахад хөрөнгө оруулалт хийж болно.

Өөр өөр эх сурвалжаас авсан өгөгдлийг нэгтгэх:

Байгууллагын янз бүрийн системд өгөгдөл нь ихэвчлэн тархсан байдаг. Өөр өөр эх сурвалжаас авсан өгөгдлийг нэг дор нэгтгэж, боловсруулж, дараа нь сонирхогч талуудтай хуваалцахын тулд дүн шинжилгээ хийх нь ETL процессыг ашиглан хийгддэг. ETL нь өгөгдлийн бүрэн бүтэн байдал хэвээр байхын зэрэгцээ өөр өөр эх сурвалжаас авсан өгөгдлийг жигд форматлахыг баталгаажуулдаг.

Урьдчилан таамаглах загварчлал:

Мэдээлэлд суурилсан шийдвэр гаргах нь амжилттай бизнесийн стратегийн тулгын чулуу юм. ETL нь өгөгдлийг задлах, хувиргах, дараа нь машин сургалтын загвартай холбоотой мэдээллийн санд ачаалах замаар бизнесүүдэд тусалдаг. Эдгээр машин сургалтын загварууд нь ETL процессыг дамжуулсны дараа өгөгдөлд дүн шинжилгээ хийж, дараа нь энэ өгөгдөл дээр үндэслэн таамаглал гаргадаг.

Өгөгдлийн ландшафт дахь ETL-ийн ирээдүй

ETL нь өгөгдлийн архитектурын үндсэн хэсгийг гүйцэтгэдэг нь гарцаагүй; Технологийн салбарт Zero ETL-ийг нэвтрүүлснээр томоохон өөрчлөлтүүд удахгүй гарах гэж байгаа тул энэ хэвээрээ үлдэх эсэх нь хараахан тодорхойгүй байна. Zero ETL-ийн тусламжтайгаар уламжлалт задлах, хувиргах, ачаалах процесс шаардлагагүй болно, гэхдээ өгөгдлийг бараг бодит цаг хугацаанд зорилтот систем рүү шууд дамжуулах болно.

Өгөгдлийн экосистемд шинээр гарч ирж буй олон чиг хандлага бий. Шалгах unite.ai технологийн чиг хандлагын талаархи мэдлэгээ өргөжүүлэх.