رطم ما هو ETL؟ (استخراج وتحويل وتحميل) المنهجية وحالات الاستخدام - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

ما هو ETL؟ (استخراج وتحويل وتحميل) المنهجية وحالات الاستخدام

mm
تحديث on

ETL تعني "استخراج ، تحويل ، تحميل". إنها عملية تدمج البيانات من مصادر مختلفة في مستودع واحد بحيث يمكن معالجتها ثم تحليلها بحيث يمكن استنتاج المعلومات المفيدة منها. هذه المعلومات المفيدة هي ما يساعد الشركات على اتخاذ قرارات تعتمد على البيانات والنمو.

"البيانات هي النفط الجديد."

كلايف همبي ، عالم رياضيات

لقد زاد إنشاء البيانات العالمية بشكل كبير ، لدرجة أنه ، وفقًا لمجلة فوربس ، بالمعدل الحالي ، يضاعف البشر إنشاء البيانات كل عامين. نتيجة لذلك ، تطورت مجموعة البيانات الحديثة. تم تحويل مجموعات البيانات إلى مستودعات البيانات ، وعندما لم يكن ذلك كافيًا ، تم إنشاء بحيرات البيانات. رغم أنه في كل هذه البنى التحتية المختلفة ، بقيت عملية واحدة كما هي ، وهي عملية ETL.

في هذه المقالة ، سننظر في منهجية ETL ، وحالات استخدامها ، وفوائدها ، وكيف ساعدت هذه العملية في تشكيل مشهد البيانات الحديث.

منهجية ETL

تتيح ETL إمكانية دمج البيانات من مصادر مختلفة في مكان واحد بحيث يمكن معالجتها وتحليلها ومن ثم مشاركتها مع أصحاب المصلحة في الشركات. فهو يضمن سلامة البيانات التي سيتم استخدامها لإعداد التقارير والتحليل والتنبؤ باستخدام نماذج التعلم الآلي. إنها عملية من ثلاث خطوات تستخرج البيانات من مصادر متعددة، وتحولها، ثم تقوم بتحميلها إلى أدوات ذكاء الأعمال. يتم بعد ذلك استخدام أدوات ذكاء الأعمال هذه من قبل الشركات لاتخاذ قرارات تعتمد على البيانات.

مرحلة الاستخراج

في هذه المرحلة ، يتم استخراج البيانات من مصادر متعددة باستخدام استعلامات SQL أو رموز Python أو DBMS (أنظمة إدارة قواعد البيانات) أو أدوات ETL. المصادر الأكثر شيوعًا هي:

  • برنامج CRM (إدارة علاقات العملاء)
  • أداة التحليلات
  • مستودع البيانات
  • قاعدة البيانات
  • منصات التخزين السحابية
  • أدوات المبيعات والتسويق
  • تطبيقات الجوال

هذه المصادر إما منظمة أو غير منظمة ، وهذا هو السبب في أن تنسيق البيانات ليس موحدًا في هذه المرحلة.

مرحلة التحول

في مرحلة التحويل ، يتم تحويل البيانات الأولية المستخرجة وتصنيفها إلى تنسيق مناسب للنظام المستهدف. لذلك ، تخضع البيانات الأولية لعدد قليل من عمليات التحويل الفرعية ، مثل:

  1. التطهير - يتم الاهتمام بالبيانات غير المتسقة والمفقودة.
  2. التوحيد القياسي - يتم تطبيق تنسيق موحد طوال الوقت.
  3. إزالة الازدواجية - تتم إزالة البيانات الزائدة عن الحاجة.
  4. اكتشاف القيم المتطرفة - يتم رصد القيم المتطرفة وتطبيعها.
  5. الفرز - يتم تنظيم البيانات بطريقة تزيد من الكفاءة.

بالإضافة إلى إعادة تنسيق البيانات ، هناك أسباب أخرى أيضًا للحاجة إلى تحويل البيانات. يجب إزالة القيم الفارغة ، إذا كانت موجودة في البيانات ؛ بخلاف ذلك ، غالبًا ما توجد قيم متطرفة في البيانات ، مما يؤثر سلبًا على التحليل ؛ يجب التعامل معها في مرحلة التحول. في كثير من الأحيان نصادف بيانات زائدة عن الحاجة ولا تقدم أي قيمة للأعمال التجارية ؛ يتم إسقاط هذه البيانات في مرحلة التحويل لتوفير مساحة تخزين النظام. هذه هي المشاكل التي تم حلها في مرحلة التحول.

مرحلة التحميل

بمجرد استخراج البيانات الأولية وتكييفها مع عمليات التحويل ، يتم تحميلها في النظام المستهدف ، والذي يكون عادةً إما مستودع بيانات أو بحيرة بيانات. هناك طريقتان مختلفتان لتنفيذ مرحلة التحميل.

  1. تحميل كامل: يتم تحميل جميع البيانات مرة واحدة لأول مرة في النظام المستهدف. إنه أقل تعقيدًا من الناحية الفنية ولكنه يستغرق وقتًا أطول. إنه مثالي في حالة عدم وجود حجم كبير من البيانات.
  2. تحميل تزايدي: يتم التحميل الإضافي ، كما يوحي الاسم ، بزيادات. لديها فئتين فرعيتين.
  • دفق التحميل المتزايد: يتم تحميل البيانات على فترات ، عادةً يوميًا. يكون هذا النوع من التحميل أفضل عندما تكون البيانات بكميات صغيرة.
  • تحميل تراكمي دفعي: في نوع الدُفعة للتحميل المتزايد ، يتم تحميل البيانات على دفعات بفاصل زمني بين دفعتين. إنه مثالي عندما تكون البيانات كبيرة جدًا. إنه سريع ولكنه أكثر تعقيدًا من الناحية الفنية.

أنواع أدوات ETL

يتم تنفيذ ETL بطريقتين ، ETL يدويًا أو ETL بدون رمز. في ETL اليدوي ، لا يوجد سوى القليل من الأتمتة. يتم ترميز كل شيء من قبل فريق يضم عالم البيانات ومحلل البيانات ومهندس البيانات. تم تصميم جميع خطوط أنابيب الاستخراج والتحويل والتحميل لجميع مجموعات البيانات يدويًا. كل هذا يسبب خسارة هائلة في الإنتاجية والموارد.

البديل هو عدم وجود كود ETL ؛ تحتوي هذه الأدوات عادةً على وظائف السحب والإفلات. تزيل هذه الأدوات تمامًا الحاجة إلى الترميز ، مما يسمح حتى للعمال غير التقنيين بأداء ETL. بالنسبة لتصميمها التفاعلي ونهجها الشامل ، تستخدم معظم الشركات Informatica و Integrate.io و IBM Storage و Hadoop و Azure و Google Cloud Dataflow و Oracle Data Integrator لعمليات ETL الخاصة بهم.

توجد أربعة أنواع من أدوات ETL بدون رمز في صناعة البيانات.

  1. أدوات ETL التجارية
  2. أدوات ETL مفتوحة المصدر
  3. أدوات ETL المخصصة
  4. أدوات ETL المستندة إلى السحابة

أفضل الممارسات لـ ETL

هناك بعض الممارسات والبروتوكولات التي يجب اتباعها لضمان خط أنابيب ETL محسن. تتم مناقشة أفضل الممارسات أدناه:

  1. فهم سياق البيانات: يجب فهم كيفية جمع البيانات وما تعنيه المقاييس بشكل صحيح. سيساعد ذلك في تحديد السمات الزائدة عن الحاجة ويجب إزالتها.
  2. نقاط فحص الاسترداد: في حالة كسر خط الأنابيب وكان هناك تسرب للبيانات ، يجب أن يكون لدى المرء بروتوكولات في مكانه لاستعادة البيانات المسربة.
  3. ETL Logbook: يجب الاحتفاظ بسجل ETL يحتوي على سجل لكل عملية تم إجراؤها مع البيانات قبل وأثناء وبعد دورة ETL.
  4. التدقيق: الحفاظ على فحص البيانات بعد فترة زمنية فقط للتأكد من أن البيانات في الحالة التي تريدها.
  5. حجم البيانات الصغير: يجب أن يظل حجم قواعد البيانات وجداولها صغيراً بحيث تنتشر البيانات أفقياً أكثر من عمودياً. تضمن هذه الممارسة زيادة سرعة المعالجة وبالتالي تسريع عملية ETL.
  6. إنشاء طبقة ذاكرة تخزين مؤقت: طبقة ذاكرة التخزين المؤقت هي طبقة تخزين بيانات عالية السرعة تخزن البيانات المستخدمة مؤخرًا على قرص حيث يمكن الوصول إليها بسرعة. تساعد هذه الممارسة في توفير الوقت عندما تكون البيانات المخزنة مؤقتًا هي التي يطلبها النظام.
  7. المعالجة المتوازية: معالجة ETL كعملية تسلسلية تستهلك جزءًا كبيرًا من وقت العمل وموارده ، مما يجعل العملية برمتها غير فعالة للغاية. الحل هو القيام بمعالجة متوازية وتكاملات ETL متعددة في وقت واحد.

وقائع استخدام ETL

تجعل ETL العمليات سلسة وفعالة للشركات بعدة طرق ، لكننا سنناقش حالات الاستخدام الثلاثة الأكثر شيوعًا هنا.

تحميل إلى السحابة:

يعد تخزين البيانات محليًا خيارًا مكلفًا حيث تنفق الشركات موارد على شراء الخوادم وحفظها وتشغيلها وصيانتها. لتجنب كل هذه المتاعب ، يمكن للشركات تحميل البيانات مباشرة على السحابة. هذا يوفر الموارد والوقت الثمين ، والذي يمكن استثماره بعد ذلك لتحسين الجوانب الأخرى لعملية ETL.

دمج البيانات من مصادر مختلفة:

غالبًا ما تكون البيانات مبعثرة عبر أنظمة مختلفة في المؤسسة. يتم دمج البيانات من مصادر مختلفة في مكان واحد بحيث يمكن معالجتها ثم تحليلها لمشاركتها مع أصحاب المصلحة لاحقًا ، باستخدام عملية ETL. تتأكد ETL من تنسيق البيانات من مصادر مختلفة بشكل موحد بينما تظل سلامة البيانات سليمة.

النمذجة التنبؤية:

صنع القرار القائم على البيانات هو حجر الزاوية لاستراتيجية عمل ناجحة. تساعد ETL الشركات عن طريق استخراج البيانات وتحويلها ثم تحميلها في قواعد بيانات مرتبطة بنماذج التعلم الآلي. تقوم نماذج التعلم الآلي هذه بتحليل البيانات بعد أن تمر بعملية ETL ثم تقوم بالتنبؤات بناءً على تلك البيانات.

مستقبل ETL في مشهد البيانات

من المؤكد أن ETL تلعب دور العمود الفقري لهندسة البيانات ؛ ما إذا كان سيبقى على هذا النحو أم لا ، لم يتم رؤيته بعد لأنه مع إدخال Zero ETL في صناعة التكنولوجيا ، هناك تغييرات كبيرة وشيكة. باستخدام Zero ETL ، لن تكون هناك حاجة لعمليات الاستخراج والتحويل والتحميل التقليدية ، ولكن سيتم نقل البيانات مباشرة إلى النظام المستهدف في الوقت الفعلي تقريبًا.

هناك العديد من الاتجاهات الناشئة في النظام البيئي للبيانات. الدفع Unite.ai لتوسيع معرفتك حول اتجاهات التكنولوجيا.

 

حازقة هو عالم بيانات يتمتع بخبرة واسعة في كتابة المحتوى التقني لشركات AI و SaaS.