منظمة العفو الدولية 101
ما هي البيانات الضخمة؟
ما هي البيانات الضخمة؟
"البيانات الضخمة" هي إحدى الكلمات الطنانة الشائعة الاستخدام في عصرنا الحالي ، ولكن ماذا تعني حقًا؟
إليك تعريف سريع وبسيط للبيانات الضخمة. البيانات الكبيرة هي بيانات كبيرة جدًا ومعقدة بحيث لا يمكن معالجتها بواسطة طرق معالجة البيانات التقليدية وتخزينها. في حين أن هذا تعريف سريع يمكنك استخدامه كإرشاد ، سيكون من المفيد أن يكون لديك فهم أعمق وأكثر اكتمالاً للبيانات الضخمة. دعنا نلقي نظرة على بعض المفاهيم التي تكمن وراء البيانات الضخمة ، مثل التخزين والهيكل والمعالجة.
ما حجم البيانات الضخمة؟
ليس الأمر بسيطًا مثل قول "أي بيانات أكبر من الحجم" X "هي بيانات ضخمة" ، فالبيئة التي يتم التعامل فيها مع البيانات تعد عاملاً بالغ الأهمية في تحديد ما يمكن اعتباره بيانات ضخمة. يعتمد الحجم الذي يجب أن تكون عليه البيانات ، من أجل اعتبارها بيانات كبيرة ، على السياق أو المهمة التي تُستخدم فيها البيانات. يمكن اعتبار مجموعتي بيانات ذات أحجام مختلفة إلى حد كبير "بيانات ضخمة" في سياقات مختلفة.
لكي تكون أكثر واقعية ، إذا حاولت إرسال ملف بحجم 200 ميغا بايت كمرفق بريد إلكتروني ، فلن تتمكن من القيام بذلك. في هذا السياق ، يمكن اعتبار ملف 200 ميغا بايت بيانات ضخمة. في المقابل ، قد لا يستغرق نسخ ملف بحجم 200 ميغا بايت إلى جهاز آخر داخل نفس الشبكة المحلية أي وقت على الإطلاق ، وفي هذا السياق ، لن يتم اعتباره بيانات كبيرة.
ومع ذلك، لنفترض أن حجم الفيديو الذي تبلغ مساحته 15 تيرابايت يحتاج إلى معالجة مسبقة لاستخدامه في تدريب تطبيقات الرؤية الحاسوبية. في هذه الحالة، تشغل ملفات الفيديو مساحة كبيرة لدرجة أنه حتى جهاز كمبيوتر قوي قد يستغرق وقتًا طويلاً لمعالجتها جميعًا، وبالتالي يتم توزيع المعالجة عادةً عبر أجهزة كمبيوتر متعددة مرتبطة معًا لتقليل وقت المعالجة. من المؤكد أن بيانات الفيديو التي يبلغ حجمها 15 تيرابايت مؤهلة على أنها بيانات ضخمة.
أنواع هياكل البيانات الضخمة
تأتي البيانات الضخمة في ثلاث فئات مختلفة من الهيكل: البيانات غير المنظمة ، والبيانات شبه المنظمة ، والبيانات المنظمة.
البيانات غير المنظمة هي البيانات التي ليس لها بنية محددة، مما يعني أن البيانات موجودة بشكل أساسي في مجموعة واحدة كبيرة فقط. من أمثلة البيانات غير المنظمة قاعدة بيانات مليئة بالصور غير المسماة.
البيانات شبه المنظمة هي البيانات التي ليس لها بنية رسمية ، ولكنها موجودة داخل بنية فضفاضة. على سبيل المثال ، قد يتم احتساب بيانات البريد الإلكتروني على أنها بيانات شبه منظمة ، لأنه يمكنك الرجوع إلى البيانات الموجودة في رسائل البريد الإلكتروني الفردية ، ولكن لم يتم إنشاء أنماط البيانات الرسمية.
البيانات المنظمة هي البيانات التي لها بنية رسمية ، مع تصنيف نقاط البيانات حسب الميزات المختلفة. أحد الأمثلة على البيانات المنظمة هو جدول بيانات Excel يحتوي على معلومات الاتصال مثل الأسماء ورسائل البريد الإلكتروني وأرقام الهواتف والمواقع الإلكترونية.
إذا كنت ترغب في قراءة المزيد حول الاختلافات في أنواع البيانات هذه ، فتحقق من الرابط هنا.
مقاييس تقييم البيانات الضخمة
يمكن تحليل البيانات الضخمة من حيث ثلاثة مقاييس مختلفة: الحجم والسرعة والتنوع.
الحجم يشير إلى حجم البيانات. غالبًا ما يتزايد متوسط حجم مجموعات البيانات. على سبيل المثال ، كان أكبر محرك أقراص ثابتة في عام 2006 عبارة عن محرك أقراص ثابت بسعة 750 جيجابايت. في المقابل ، يُعتقد أن Facebook ينتج أكثر من 500 تيرابايت من البيانات في اليوم ، وأكبر محرك أقراص ثابت متاح للمستهلكين اليوم هو محرك أقراص ثابتة بسعة 16 تيرابايت. ما يمكن اعتباره بيانات ضخمة في عصر ما قد لا يكون بيانات ضخمة في عصر آخر. يتم إنشاء المزيد من البيانات اليوم لأن المزيد والمزيد من الكائنات المحيطة بنا مجهزة بأجهزة استشعار وكاميرات وميكروفونات وأجهزة أخرى لجمع البيانات.
تشير السرعة إلى مدى سرعة نقل البيانات ، أو بعبارة أخرى ، مقدار البيانات التي يتم إنشاؤها خلال فترة زمنية معينة. تولد تدفقات الوسائط الاجتماعية مئات الآلاف من المنشورات والتعليقات كل دقيقة ، بينما من المحتمل أن يكون لصندوق البريد الإلكتروني الخاص بك نشاطًا أقل بكثير. تدفقات البيانات الضخمة هي تدفقات غالبًا ما تتعامل مع مئات الآلاف أو الملايين من الأحداث في وقت حقيقي أو أكثر. ومن أمثلة تدفقات البيانات هذه منصات الألعاب عبر الإنترنت وخوارزميات تداول الأسهم عالية التردد.
يشير التنوع إلى أنواع مختلفة من البيانات الموجودة في مجموعة البيانات. يمكن أن تتكون البيانات من العديد من التنسيقات المختلفة ، مثل الصوت أو الفيديو أو النص أو الصور أو الأرقام التسلسلية. بشكل عام ، يتم تنسيق قواعد البيانات التقليدية للتعامل مع نوع واحد أو نوعين من البيانات. لوضع ذلك بطريقة أخرى ، يتم تنظيم قواعد البيانات التقليدية بحيث تحتوي على بيانات متجانسة إلى حد ما وذات بنية متسقة ويمكن التنبؤ بها. نظرًا لأن التطبيقات أصبحت أكثر تنوعًا ، ومليئة بالميزات المختلفة ، ويستخدمها المزيد من الأشخاص ، فقد تعين على قواعد البيانات أن تتطور لتخزين المزيد من أنواع البيانات. تعد قواعد البيانات غير المهيكلة مثالية للاحتفاظ بالبيانات الضخمة ، حيث يمكنها الاحتفاظ بأنواع بيانات متعددة لا ترتبط ببعضها البعض.
طرق التعامل مع البيانات الضخمة
هناك عدد من المنصات والأدوات المختلفة المصممة لتسهيل تحليل البيانات الضخمة. تحتاج مجموعات البيانات الكبيرة إلى التحليل لاستخراج أنماط ذات مغزى من البيانات ، وهي مهمة يمكن أن تكون صعبة للغاية باستخدام أدوات تحليل البيانات التقليدية. استجابة للحاجة إلى أدوات لتحليل كميات كبيرة من البيانات ، أنشأت مجموعة متنوعة من الشركات أدوات تحليل البيانات الضخمة. تتضمن أدوات تحليل البيانات الضخمة أنظمة مثل ZOHO Analytics و Cloudera و Microsoft BI.