Connect with us

ما هو ETL؟ (استخراج، تحويل، تحميل) منهجية والحالات الاستخدامية

الذكاء الاصطناعي 101

ما هو ETL؟ (استخراج، تحويل، تحميل) منهجية والحالات الاستخدامية

mm

يُشير ETL إلى “استخراج، تحويل، تحميل”. إنه عملية تدمج البيانات من مصادر مختلفة في مستودع واحد حتى يمكن معالجتها ومن ثم تحليلها حتى يمكن استخلاص معلومات مفيدة منها. هذه المعلومات المفيدة هي ما يساعد الشركات على اتخاذ قرارات مدفوعة بالبيانات والنمو.

“البيانات هي النفط الجديد.”

كليف هومبي، رياضياتي

ازدادت خلق البيانات العالمية بشكل كبير، لدرجة أن الإنسان يضاعف خلق البيانات كل عامين، حسبما ذكرته مجلة فوربس. ونتيجة لذلك، تطور堆 البيانات الحديث. تم تحويل مخازن البيانات إلى مستودعات بيانات، وعندما لم يكن ذلك كافياً، تم إنشاء بحيرات بيانات. على الرغم من أن العملية واحدة في جميع هذه البنيات المختلفة، ظلت عملية ETL هي نفسها.

في هذه المقالة، سننظر في منهجية ETL، وحالات استخدامها، وفوائدها، وكيف ساهمت هذه العملية في تشكيل منظومة البيانات الحديثة.

منهجية ETL

يُمكن للـ ETL دمج البيانات من مصادر مختلفة في مكان واحد حتى يمكن معالجتها، وتحليلها، ومن ثم مشاركةها مع أصحاب المصلحة في الشركات. يضمن سلامة البيانات التي سيتم استخدامها للتقرير، والتحليل، والتنبؤ بالنمذجة بالتعلم الآلي. إنه عملية ثلاثية تُستخرج البيانات من مصادر متعددة، وتحويلها، ومن ثم تحميلها في أدوات ذكاء الأعمال. ثم يتم استخدام أدوات ذكاء الأعمال هذه من قبل الشركات لاتخاذ قرارات مدفوعة بالبيانات.

مرحلة الاستخراج

في هذه المرحلة، تُستخرج البيانات من مصادر متعددة باستخدام استفسارات SQL، ورمز البايثون، ونظم إدارة قواعد البيانات (DBMS)، أو أدوات ETL. أكثر المصادر شيوعًا هي:

  • برامج إدارة علاقات العملاء (CRM)
  • أداة تحليل
  • مستودع بيانات
  • قاعدة بيانات
  • منصات تخزين السحابية
  • أدوات المبيعات والتسويق
  • التطبيقات المحمولة

هذه المصادر إما منظمة أو غير منظمة، ولهذا السبب ليس تنسيق البيانات موحدًا في هذه المرحلة.

مرحلة التحويل

في مرحلة التحويل، تُحول البيانات الخام إلى تنسيق مناسب للنظام المستهدف. من أجل ذلك، تخضع البيانات الخام لبعض عمليات التحويل الفرعية، مثل:

  1. تنقية: تُعالج البيانات غير المتسقة والبيانات المفقودة.
  2. توحيد: تُطبق تنسيق موحد في جميع أنحاء النظام.
  3. إزالة التكرار: تُزال البيانات المتكررة.
  4. كشف الشواذ: تُكشف الشواذ وتُطبيق عليها معايير معينة.
  5. ترتيب: تُоргز البيانات بطريقة تزيد من الكفاءة.

بالإضافة إلى إعادة تنسيق البيانات، هناك أسباب أخرى أيضًا لضرورة تحويل البيانات. إذا كانت هناك قيم غير موجودة في البيانات، فيجب إزالتها؛ علاوة على ذلك، غالبًا ما نجد بيانات غير متسقة تؤثر سلبًا على التحليل؛ يجب التعامل معها في مرحلة التحويل. في بعض الأحيان، نجد بيانات مكررة لا تقدم أي قيمة للأعمال؛ يجب إسقاط هذه البيانات في مرحلة التحويل لتوفير مساحة تخزين النظام. هذه هي المشاكل التي تُحل في مرحلة التحويل.

مرحلة التحميل

مرة واحدة تُستخرج البيانات الخام وتُحول بالعمليات التحويلية، تُحمل في النظام المستهدف، وهو عادةً مستودع بيانات أو بحيرة بيانات. هناك طريقتان لتنفيذ مرحلة التحميل.

  1. التحميل الكامل: تُحمل جميع البيانات في المرة الأولى في النظام المستهدف. إنه أقل تعقيدًا تقنيًا ولكنه يأخذ وقتًا أطول. إنه مثالي في حالة عدم كبر حجم البيانات.
  2. التحميل المتزايد: التحميل المتزايد، كما يوحي اسمها، تُنجز بالتدريج. لديها فئتان فرعيتان.
  • تحميل متزايد بالتدفق: تُحمل البيانات في فترات زمنية، عادةً يوميًا. هذا النوع من التحميل هو الأفضل عندما تكون البيانات في كميات صغيرة.
  • تحميل متزايد بالدفعات: في نوع التحميل المتزايد بالدفعات، تُحمل البيانات في دفعات بفاصل زمني بين دفعتين. إنه مثالي عندما تكون البيانات كبيرة الحجم. إنه سريع ولكنه أكثر تعقيدًا تقنيًا.

أنواع أدوات ETL

تُنجز عملية ETL بطرقتين، ETL اليدوي أو ETL بدون كود. في ETL اليدوي، هناك القليل من التأتمتة. كل شيء يُكتب بواسطة فريق يتضمن عالم البيانات، ومتخصص البيانات، ومهندس البيانات. جميع خطوط الاستخراج، والتحويل، والتحميل تُصمم يدويًا لجميع مجموعات البيانات. هذا يسبب خسارة كبيرة في الإنتاجية والموارد.

البديل هو ETL بدون كود؛ هذه الأدوات عادةً ما تحتوي على وظائف سحب وإفلات. هذه الأدوات تزيل تمامًا الحاجة إلى الكود، وبالتالي تسمح حتى للموظفين غير التقنيين بأداء ETL. لمصممهم التفاعلي ومنهجهم الشامل، تستخدم معظم الشركات Informatica، وIntegrate.io، وIBM Storage، وHadoop، وAzure، وGoogle Cloud Dataflow، وOracle Data Integrator لأداء عمليات ETL.

توجد أربعة أنواع من أدوات ETL بدون كود في ngành البيانات.

  1. أدوات ETL التجارية
  2. أدوات ETL مفتوحة المصدر
  3. أدوات ETL المخصصة
  4. أدوات ETL السحابية

أفضل الممارسات لأداء ETL

توجد بعض الممارسات والبروتوكولات التي يجب اتباعها لضمان خط أنابيب ETL المُحسَّن. تُناقش أفضل الممارسات فيما يلي:

  1. فهم سياق البيانات: كيف تُجمَع البيانات وما تعني الإحصائيات يجب فهمها جيدًا. سيساعد ذلك في تحديد السمات الزائدة ويجب إزالتها.
  2. نقاط استعادة: في حالة كسر الأنابيب وتسرب البيانات، يجب أن يكون هناك بروتوكولات في مكانها لاستعادة البيانات المفقودة.
  3. دفتر يوميات ETL: يجب الحفاظ على دفتر يوميات ETL يحتوي على سجل لكل عملية تُجرى على البيانات قبل، وأثناء، وبعد دورة ETL.
  4. مراجعة: الحفاظ على مراجعة البيانات بعد فترة زمنية لضمان أن تكون البيانات في الحالة التي تريدها.
  5. حجم البيانات الصغير: يجب الحفاظ على حجم قواعد البيانات وجدولها صغيرًا بحيث تكون البيانات موزعة بشكل أفقي أكثر من رأسياً. هذه الممارسة تضمن زيادة في سرعة المعالجة، وبالتالي تسريع عملية ETL.
  6. إنشاء طبقة ذاكرة التخزين المؤقتة: طبقة ذاكرة التخزين المؤقتة هي طبقة تخزين بيانات عالية السرعة تخزين البيانات المستخدمة مؤخرًا على قرص حيث يمكن الوصول إليها بسرعة. هذه الممارسة تساعد في توفير الوقت عند طلب النظام البيانات المخزنة مؤخرًا.
  7. المعالجة الموازية: معاملات ETL كعملية تسلسلية تستهلك جزءًا كبيرًا من وقت الشركة والموارد، مما يجعل العملية برمتها غير فعالة للغاية. الحل هو المعالجة الموازية وتكاملات ETL المتعددة في نفس الوقت.

حالات استخدام ETL

يُجعل ETL العمليات أسهل وأكثر كفاءة للشركات بعدة طرق، ولكننا سنناقش ثلاث حالات استخدام شائعة هنا.

تحميل إلى السحابة:

تخزين البيانات محليًا هو خيار مكلف يُجبر الشركات على إنفاق الموارد على شراء، وتنظيف، وتنفيذ، وضمان الخوادم. لتجنب كل هذه المتاعب، يمكن للشركات تحميل البيانات مباشرة إلى السحابة. هذا يوفر الموارد والوقت القيمة، والتي يمكن استثمارها لتحسين جوانب أخرى من عملية ETL.

دمج البيانات من مصادر مختلفة:

البيانات غالبًا ما تكون متفرقة عبر أنظمة مختلفة في المنظمة. دمج البيانات من مصادر مختلفة في مكان واحد حتى يمكن معالجتها، ومن ثم تحليلها، ومن ثم مشاركةها مع أصحاب المصلحة لاحقًا، تُنجز باستخدام عملية ETL. يضمن ETL أن تكون البيانات من مصادر مختلفة موحدة التنسيق مع الحفاظ على سلامة البيانات.

النمذجة التنبؤية:

اتخاذ القرارات مدفوعة بالبيانات هو الركن الأساسي لاستراتيجية الأعمال الناجحة. يساعد ETL الشركات bằng استخراج البيانات، وتحويلها، ومن ثم تحميلها في قواعد بيانات متصلة بنماذج التعلم الآلي. هذه نماذج التعلم الآلي تُحلل البيانات بعد أن تمر بعملية ETL، ومن ثم تقدم تنبؤات بناءً على تلك البيانات.

مستقبل ETL في منظومة البيانات

يلعب ETL بالتأكيد دور العمود الفقري لعمارة البيانات؛ سواء سيبقى على هذا النحو أم لا مازال يُنتظر، لأن التغييرات الكبيرة هي قادمة مع إدخال Zero ETL في صناعة التكنولوجيا. مع Zero ETL، لن يكون هناك حاجة لعملية الاستخراج، والتحويل، والتحميل التقليدية، ولكن سيتحرك البيانات مباشرة إلى النظام المستهدف تقريبًا في الوقت الفعلي.

توجد اتجاهات ناشئة عديدة في منظومة البيانات. راجع unite.ai لتوسيع معرفتك بالاتجاهات التكنولوجية.

Haziqa هي عالمة بيانات ذات خبرة واسعة في كتابة المحتوى الفني لشركات الذكاء الاصطناعي والبرمجيات كخدمة.