Connect with us

ما هي البيانات الكبيرة؟

الذكاء الاصطناعي

ما هي البيانات الكبيرة؟

mm

ما هي البيانات الكبيرة؟

“البيانات الكبيرة” هي واحدة من الكلمات الشائعة المستخدمة في عصرنا الحالي، ولكن ماذا تعني حقًا؟

هنا تعريف سريع وبسيط للبيانات الكبيرة. البيانات الكبيرة هي بيانات كبيرة جدًا ومت复عة بحيث لا يمكن التعامل معها بواسطة طرق المعالجة والتخزين التقليدية. بينما هذا تعريف سريع يمكن استخدامه كأداة، سيكون من المفيد الحصول على فهم أعمق وأكثر اكتمالاً للبيانات الكبيرة. دعونا نلقي نظرة على بعض المفاهيم التي تقوم على أساس البيانات الكبيرة، مثل التخزين والهيكل والمعالجة.

كيف كبيرة هي البيانات الكبيرة؟

ليس من البسيط القول “أي بيانات أكبر من حجم ‘X‘ هي بيانات كبيرة”, البيئة التي يتم التعامل مع البيانات فيها هي عامل مهم جدًا في تحديد ما يعتبر بيانات كبيرة. الحجم الذي يجب أن تكون عليه البيانات لكي تعتبر بيانات كبيرة يعتمد على السياق أو المهمة التي يتم استخدام البيانات فيها. يمكن اعتبار مجموعتين من البيانات بحجمين مختلفين بشكل كبير “بيانات كبيرة” في سياقات مختلفة.

لمزيد من الدقة، إذا حاولت إرسال ملف بحجم 200 ميغابايت كملحق بريد إلكتروني، لن تتمكن من القيام بذلك. في هذا السياق، يمكن اعتبار ملف 200 ميغابايت بيانات كبيرة. في المقابل، نسخ ملف 200 ميغابايت إلى جهاز آخر داخل نفس الشبكة المحلية قد لا يستغرق وقتًا على الإطلاق، وفي هذا السياق، لن يُعتبر بيانات كبيرة.

ومع ذلك، دعونا نفترض أن هناك 15 تيرابايت من الفيديو تحتاج إلى المعالجة المسبقة لاستخدامها في تطبيقات الرؤية الحاسوبية. في هذه الحالة، تستهلك ملفات الفيديو مساحة كبيرة جدًا بحيث يستغرق حتى جهاز كمبيوتر قوي وقتًا طويلاً لمعالجتها جميعًا، وبالتالي يتم توزيع المعالجة عادةً على عدة أجهزة كمبيوتر متصلة ببعضها البعض لتقليل وقت المعالجة. هذه 15 تيرابايت من بيانات الفيديو ستعتبر بالتأكيد بيانات كبيرة.

أنواع هياكل البيانات الكبيرة

تأتي البيانات الكبيرة في ثلاث فئات مختلفة من الهيكل: بيانات غير منظم، شبه منظم، ومنظم.

البيانات غير المنظمة هي بيانات لا تمتلك هيكلاً محددًا، مما يعني أن البيانات موجودة في حوض كبير. أمثلة على البيانات غير المنظمة ستكون قاعدة بيانات كاملة من الصور غير المسمى.

البيانات شبه المنظمة هي بيانات لا تمتلك هيكلاً رسميًا، ولكنها موجودة داخل هيكل فضفاض. على سبيل المثال، يمكن اعتبار بيانات البريد الإلكتروني بيانات شبه منظم، لأنك يمكن أن تشير إلى البيانات الموجودة في رسائل البريد الإلكتروني الفردية، ولكن الأنماط الرسمية للبيانات لم يتم تحديدها.

البيانات المنظمة هي بيانات تمتلك هيكلاً رسميًا، مع نقاط بيانات مصنفة حسب ميزات مختلفة. مثال على البيانات المنظمة هو جدول إكسل يحتوي على معلومات الاتصال مثل الأسماء والبريد الإلكتروني وأرقام الهواتف والمواقع الإلكترونية.

إذا كنت ترغب في قراءة المزيد حول الفروق في أنواع البيانات هذه، تحقق من الرابط هنا.

المقاييس لتقييم البيانات الكبيرة

يمكن تحليل البيانات الكبيرة من حيث ثلاثة مقاييس مختلفة: الحجم والسرعة والتنوع.

الحجم يُشير إلى حجم البيانات. الحجم المتوسط لمجموعات البيانات يزداد بشكل متكرر. على سبيل المثال، كان أكبر قرص صلب في عام 2006 هو قرص صلب 750 جيجابايت. في المقابل، يُعتقد أن فيسبوك يولد أكثر من 500 تيرابايت من البيانات في يوم واحد وأكبر قرص صلب للاستهلاك المتاح اليوم هو قرص صلب 16 تيرابايت. ما يُعتبر بيانات كبيرة في عصر ما قد لا يكون بيانات كبيرة في عصر آخر. يتم توليد المزيد من البيانات اليوم لأن المزيد والمزيد من الكائنات المحيطة بنا مجهزة بمستشعرات وكاميرات وميكروفونات وأجهزة جمع بيانات أخرى.

السرعة تشير إلى مدى سرعة حركة البيانات، أو بعبارة أخرى، كمية البيانات التي يتم توليدها في فترة زمنية معينة. تُولد تيارات الوسائط الاجتماعية مئات الآلاف من المنشورات والتعليقات كل دقيقة، بينما سيكون لديك صندوق الوارد الخاص بك أقل نشاطًا. تيارات البيانات الكبيرة هي تيارات تتعامل عادةً مع مئات الآلاف أو الملايين من الأحداث في الوقت الفعلي أو تقريبًا. أمثلة على هذه التيارات هي منصات الألعاب عبر الإنترنت وخيارات التداول المالي عالية التردد.

التنوع يُشير إلى أنواع مختلفة من البيانات الموجودة في مجموعة البيانات. يمكن أن تتكون البيانات من العديد من التنسيقات المختلفة، مثل الصوت والفيديو والنص والصور والأرقام التسلسلية. بشكل عام، يتم تنسيق القواعد التقليدية للتعامل مع نوع أو نوعين من البيانات. بعبارة أخرى، يتم هيكلة القواعد التقليدية لاحتواء بيانات متجانسة وهيكل متسق ومُتوقع.随着 تطور التطبيقات وتزايد تنوعها وزيادة استخدامها من قبل المزيد من الأشخاص، تمت إعادة تطوير القواعد لتحمل المزيد من أنواع البيانات. القواعد غير المنظمة مثالية لاحتواء البيانات الكبيرة، لأنها يمكن أن تحتوي على أنواع متعددة من البيانات غير المرتبطة ببعضها البعض.

طرق التعامل مع البيانات الكبيرة

هناك العديد من المنصات والأدوات المصممة لتسهيل تحليل البيانات الكبيرة. تحتاج برك البيانات الكبيرة إلى تحليل لاستخراج أنماط ذات معنى من البيانات، وهو مهمة يمكن أن تثبت صعبة مع أدوات تحليل البيانات التقليدية. استجابةً لاحتياج الأدوات لتحليل كميات كبيرة من البيانات، قام العديد من الشركات بإنشاء أدوات تحليل البيانات الكبيرة. تشمل أدوات تحليل البيانات الكبيرة أنظمة مثل ZOHO Analytics وCloudera وMicrosoft BI.

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.