اتصل بنا للحصول على مزيد من المعلومات

ما هو علم البيانات؟

منظمة العفو الدولية 101

ما هو علم البيانات؟

mm

يبدو أن مجال علم البيانات يزداد حجمًا وشعبية كل يوم. وفقًا لـ LinkedIn ، علم البيانات كان أحد مجالات العمل الأسرع نموًا في عام 2017 وفي عام 2020 ، صنّف Glassdoor وظيفة علم البيانات على أنها واحدة من أفضل ثلاث وظائف داخل الولايات المتحدة. بالنظر إلى الشعبية المتزايدة لعلوم البيانات ، فليس من المستغرب أن يهتم المزيد من الأشخاص بهذا المجال. ومع ذلك ، ما هو علم البيانات بالضبط؟

دعنا نتعرف على علم البيانات ، ونأخذ بعض الوقت لتحديد علم البيانات ، واستكشاف كيف تعمل البيانات الضخمة والذكاء الاصطناعي على تغيير المجال ، والتعرف على بعض أدوات علوم البيانات الشائعة ، ودراسة بعض الأمثلة على علم البيانات.

ما هو علم البيانات؟

قبل أن نتمكن من استكشاف أي أدوات أو أمثلة لعلوم البيانات ، سنرغب في الحصول على تعريف موجز لها علم البيانات.

يعد تعريف "علم البيانات" في الواقع أمرًا صعبًا بعض الشيء ، لأنه يتم تطبيق المصطلح على العديد من المهام وطرق الاستقصاء والتحليل المختلفة. يمكننا أن نبدأ بتذكير أنفسنا بما يعنيه مصطلح "علم". العلم هو الدراسة المنهجية للعالم المادي والطبيعي من خلال الملاحظة والتجريب ، بهدف تعزيز فهم الإنسان للعمليات الطبيعية. الكلمات الهامة في هذا التعريف هي "الملاحظة" و "الفهم".

إذا كان علم البيانات هو عملية فهم العالم من الأنماط الموجودة في البيانات ، فعندئذٍ مسؤولية عالم البيانات هو تحويل البيانات وتحليل البيانات واستخراج الأنماط من البيانات. بمعنى آخر ، يتم تزويد عالم البيانات بالبيانات ويستخدمون عددًا من الأدوات والتقنيات المختلفة لمعالجة البيانات مسبقًا (اجعلها جاهزة للتحليل) ثم تحليل البيانات للحصول على أنماط ذات مغزى.

دور عالم البيانات مشابه لدور العالم التقليدي. كلاهما يُعنى بتحليل البيانات لدعم أو دحض فرضيات حول كيفية عمل العالم، ومحاولة فهم أنماط البيانات لتحسين فهمنا له. يستخدم علماء البيانات نفس الأساليب العلمية التي يستخدمها العالم التقليدي. يبدأ عالم البيانات بجمع الملاحظات حول بعض الظواهر التي يرغب في دراستها، ثم يصوغ فرضية حول الظاهرة المعنية، ويحاول إيجاد بيانات تُبطل فرضيته بطريقة ما.

إذا لم تتعارض الفرضية مع البيانات ، فقد يكونون قادرين على بناء نظرية ، أو نموذج ، حول كيفية عمل هذه الظاهرة ، والتي يمكنهم اختبارها مرارًا وتكرارًا من خلال معرفة ما إذا كانت صحيحة بالنسبة لمجموعات البيانات المماثلة الأخرى. إذا كان النموذج قويًا بدرجة كافية ، وإذا كان يشرح الأنماط جيدًا ولم يتم إلغاؤه أثناء الاختبارات الأخرى ، فيمكن استخدامه للتنبؤ بحدوث هذه الظاهرة في المستقبل.

لن يقوم عالم البيانات عادةً بجمع بياناته الخاصة من خلال التجربة. عادة لا يصممون تجارب مع عناصر تحكم وتجارب مزدوجة التعمية لاكتشاف متغيرات مربكة قد تتداخل مع فرضية. ستكون معظم البيانات التي يتم تحليلها بواسطة عالم البيانات عبارة عن بيانات تم الحصول عليها من خلال دراسات وأنظمة قائمة على الملاحظة ، وهي طريقة قد تختلف بها وظيفة عالم البيانات عن وظيفة العالم التقليدي ، الذي يميل إلى إجراء المزيد من التجارب.

ومع ذلك ، قد يُطلب من عالم البيانات القيام بنوع من التجارب يسمى اختبار أ / ب حيث يتم إجراء التعديلات على نظام يجمع البيانات لمعرفة كيف تتغير أنماط البيانات.

بغض النظر عن التقنيات والأدوات المستخدمة ، يهدف علم البيانات في النهاية إلى تحسين فهمنا للعالم من خلال جعل البيانات منطقية ، ويتم اكتساب البيانات من خلال الملاحظة والتجريب. علم البيانات هو عملية استخدام الخوارزميات والمبادئ الإحصائية والأدوات والآلات المختلفة لاستخلاص رؤى من البيانات والرؤى التي تساعدنا على فهم الأنماط في العالم من حولنا.

ماذا يفعل علماء البيانات؟

قد ترى أن أي نشاط يتضمن تحليل البيانات بطريقة علمية يمكن أن يسمى علم البيانات ، وهو جزء مما يجعل تعريف علم البيانات صعبًا للغاية. لتوضيح الأمر أكثر ، دعنا نستكشف بعض الأنشطة التي يقوم بها عالم البيانات قد تفعل بشكل يومي.

يجمع علم البيانات بين العديد من التخصصات والتخصصات المختلفة. الصورة: Calvin Andrus عبر Wikimeedia Commons، CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

في أي يوم، قد يُطلب من عالم البيانات: إنشاء مخطط لتخزين البيانات واسترجاعها، وإنشاء خطوط أنابيب ETL (استخراج وتحويل وتحميل) البيانات وتنظيف البيانات، واستخدام الأساليب الإحصائية، وصياغة تصورات البيانات ولوحات المعلومات، وتنفيذ الذكاء الاصطناعي و خوارزميات التعلم الآلي، تقدم توصيات بشأن الإجراءات بناءً على البيانات.

دعنا نقسم المهام المذكورة أعلاه لأسفل قليلاً.

قد يُطلب من عالم البيانات التعامل مع تثبيت التقنيات اللازمة لتخزين البيانات واستردادها ، مع الانتباه إلى كل من الأجهزة والبرامج. يمكن أيضًا الإشارة إلى الشخص المسؤول عن هذا المنصب باسم "مهندس بيانات". ومع ذلك ، فإن بعض الشركات تُدرج هذه المسؤوليات تحت دور علماء البيانات. قد يحتاج عالم البيانات أيضًا إلى إنشاء أو المساعدة في إنشاء ، خطوط أنابيب ETL. نادرًا ما تأتي البيانات منسقة تمامًا كما يحتاج عالم البيانات. بدلاً من ذلك ، يجب استلام البيانات في شكل أولي من مصدر البيانات ، وتحويلها إلى تنسيق قابل للاستخدام ، ومعالجتها مسبقًا (أشياء مثل توحيد البيانات ، وإلغاء التكرار ، وإزالة البيانات التالفة).

الطرق الإحصائية لعلوم البيانات

استخدم تطبيق الإحصاء من الضروري تحويل مجرد النظر إلى البيانات وتفسيرها إلى علم حقيقي. تُستخدم الأساليب الإحصائية لاستخراج الأنماط ذات الصلة من مجموعات البيانات، ويحتاج عالم البيانات إلى إلمام جيد بالمفاهيم الإحصائية. يجب أن يكون قادرًا على تمييز الارتباطات ذات المغزى من الارتباطات الزائفة من خلال التحكم في المتغيرات المربكة. كما يحتاج إلى معرفة الأدوات المناسبة لتحديد السمات المهمة لنموذجه/التي تتمتع بقوة تنبؤية في مجموعة البيانات. يحتاج عالم البيانات إلى معرفة متى يستخدم نهج الانحدار مقابل نهج التصنيف، ومتى يهتم بمتوسط ​​العينة مقابل وسيطها. لن يكون عالم البيانات عالمًا بدون هذه المهارات الأساسية.

عرض مرئي للمعلومات

يتمثل جزء مهم من وظيفة عالم البيانات في توصيل نتائجهم للآخرين. إذا لم يتمكن عالم البيانات من توصيل النتائج التي توصلوا إليها بشكل فعال للآخرين ، فإن الآثار المترتبة على النتائج التي توصلوا إليها لا تهم. يجب أن يكون عالم البيانات راويًا فعالًا أيضًا. وهذا يعني إنتاج تصورات تنقل النقاط ذات الصلة حول مجموعة البيانات والأنماط المكتشفة داخلها. هناك عدد كبير من الاختلاف عرض مرئي للمعلومات الأدوات التي قد يستخدمها عالم البيانات ، وقد يصورون البيانات لأغراض الاستكشاف الأولي والأساسي (تحليل البيانات الاستكشافية) أو تصور النتائج التي ينتجها النموذج.

التوصيات وتطبيقات الأعمال

يحتاج عالم البيانات إلى بعض الحدس لمتطلبات وأهداف مؤسسته أو أعماله. يحتاج عالم البيانات إلى فهم هذه الأشياء لأنهم بحاجة إلى معرفة أنواع المتغيرات والميزات التي يجب عليهم تحليلها ، واستكشاف الأنماط التي ستساعد مؤسستهم على تحقيق أهدافها. يحتاج علماء البيانات إلى أن يكونوا على دراية بالقيود التي يعملون في ظلها والافتراضات التي تضعها قيادة المنظمة.

التعلم الآلي والذكاء الاصطناعي

تعلم الآلة وغيرها من خوارزميات ونماذج الذكاء الاصطناعي هي أدوات يستخدمها علماء البيانات لتحليل البيانات ، وتحديد الأنماط في البيانات ، وتمييز العلاقات بين المتغيرات ، والتنبؤ بالأحداث المستقبلية.

علوم البيانات التقليدية مقابل علوم البيانات الضخمة

نظرًا لأن أساليب جمع البيانات أصبحت أكثر تعقيدًا وقواعد البيانات أكبر ، فقد نشأ فرق بين علم البيانات التقليدي و "البيانات الكبيرة" علم.

يتم إجراء تحليلات البيانات التقليدية وعلوم البيانات باستخدام التحليلات الوصفية والاستكشافية ، بهدف العثور على أنماط وتحليل نتائج أداء المشاريع. غالبًا ما تركز طرق تحليل البيانات التقليدية على البيانات السابقة والبيانات الحالية فقط. غالبًا ما يتعامل محللو البيانات مع البيانات التي تم تنظيفها وتوحيدها بالفعل ، بينما يتعامل علماء البيانات غالبًا مع البيانات المعقدة والقذرة. يمكن استخدام تحليلات البيانات الأكثر تقدمًا وتقنيات علوم البيانات للتنبؤ بالسلوك المستقبلي ، على الرغم من أن هذا يتم في كثير من الأحيان باستخدام البيانات الضخمة ، حيث تحتاج النماذج التنبؤية غالبًا إلى كميات كبيرة من البيانات ليتم بناؤها بشكل موثوق.

تشير "البيانات الضخمة" إلى البيانات الكبيرة جدًا والمعقدة بحيث لا يمكن معالجتها باستخدام أدوات تحليل البيانات التقليدية وتقنيات وأدوات العلوم. غالبًا ما يتم جمع البيانات الضخمة من خلال الأنظمة الأساسية عبر الإنترنت ويتم استخدام أدوات تحويل البيانات المتقدمة لجعل الأحجام الكبيرة من البيانات جاهزة للفحص بواسطة علم البيانات. نظرًا لأنه يتم جمع المزيد من البيانات طوال الوقت ، فإن المزيد من عمل علماء البيانات يتضمن تحليل البيانات الضخمة.

أدوات علوم البيانات

علم البيانات المشترك تشمل الأدوات أدواتٍ لتخزين البيانات، وإجراء تحليلات استكشافية للبيانات، ونمذجتها، واستخراج البيانات وتحويلها، وتصورها. تُقدم منصاتٌ مثل Amazon Web Services وMicrosoft Azure وGoogle Cloud أدواتٍ تُساعد علماء البيانات على تخزين البيانات وتحويلها وتحليلها ونمذجتها. كما تتوفر أدواتٌ مستقلةٌ لعلم البيانات مثل Airflow (البنية التحتية للبيانات) وTableau (تصور البيانات وتحليلها).

من حيث التعلم الآلي وخوارزميات الذكاء الاصطناعي المستخدمة لنمذجة البيانات ، غالبًا ما يتم توفيرها من خلال وحدات علم البيانات والأنظمة الأساسية مثل TensorFlow و PyTorch واستوديو Azure للتعلم الآلي. تقوم هذه الأنظمة الأساسية ، مثل علماء البيانات ، بإجراء تعديلات على مجموعات البيانات الخاصة بهم ، وتكوين هياكل التعلم الآلي ، وتدريب نماذج التعلم الآلي.

تشمل مكتبات وأدوات علوم البيانات الشائعة الأخرى SAS (للنمذجة الإحصائية) ، و Apache Spark (لتحليل تدفق البيانات) ، و D3.js (للتصورات التفاعلية في المتصفح) ، و Jupyter (للكتل والتصورات التفاعلية القابلة للمشاركة) .

الصورة: سيونجاي جو عبر فليكر، CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

أمثلة على علم البيانات

أمثلة على علم البيانات وتطبيقاته موجودة في كل مكان. علم البيانات له تطبيقات في كل شيء بدءًا من توصيل الطعام والرياضة وحركة المرور والصحة. البيانات موجودة في كل مكان ولذا يمكن تطبيق علم البيانات على كل شيء.

فيما يتعلق بالطعام ، تستثمر أوبر في توسعة نظام مشاركة الركوب الذي يركز على توصيل الطعام ، يوبر يأكل. تحتاج أوبر إيتس (Uber Eats) إلى توفير طعام للناس في الوقت المناسب ، بينما لا يزال ساخنًا وطازجًا. من أجل حدوث ذلك ، يحتاج علماء البيانات في الشركة إلى استخدام النمذجة الإحصائية التي تأخذ في الاعتبار جوانب مثل المسافة من المطاعم إلى نقاط التسليم ، واندفاع العطلات ، ووقت الطهي ، وحتى الظروف الجوية ، وكل ذلك يتم النظر فيه بهدف تحسين أوقات التسليم .

يستخدم مديرو الفريق الإحصائيات الرياضية لتحديد أفضل اللاعبين وتشكيل فرق قوية وموثوقة تفوز بالمباريات. أحد الأمثلة البارزة هو علم البيانات الذي وثقه مايكل لويس في الكتاب Moneyball، حيث قام المدير العام لفريق أوكلاند لألعاب القوى بتحليل مجموعة متنوعة من الإحصاءات لتحديد اللاعبين الجيدين الذين يمكن توقيعهم مع الفريق بتكلفة منخفضة نسبيًا.

يعد تحليل أنماط حركة المرور أمرًا بالغ الأهمية لإنشاء مركبات ذاتية القيادة. مركبات ذاتية القيادة يجب أن تكون قادرة على التنبؤ بالنشاط من حولهم والاستجابة للتغيرات في ظروف الطريق ، مثل زيادة مسافة التوقف المطلوبة عند هطول الأمطار ، فضلاً عن وجود المزيد من السيارات على الطريق خلال ساعة الذروة. بخلاف المركبات ذاتية القيادة ، تحلل تطبيقات مثل خرائط Google أنماط حركة المرور لإخبار الركاب بالمدة التي سيستغرقونها للوصول إلى وجهتهم باستخدام طرق وأشكال مختلفة من وسائل النقل.

في مجال علم بيانات الصحة، غالبًا ما تُدمج الرؤية الحاسوبية مع التعلم الآلي وتقنيات الذكاء الاصطناعي الأخرى لإنشاء مُصنِّفات صور قادرة على فحص صور مثل الأشعة السينية، والرنين المغناطيسي الوظيفي، والموجات فوق الصوتية، للكشف عن أي مشاكل طبية محتملة قد تظهر في الفحص. يمكن استخدام هذه الخوارزميات لمساعدة الأطباء في تشخيص الأمراض.

في النهاية ، يغطي علم البيانات العديد من الأنشطة ويجمع بين جوانب التخصصات المختلفة. ومع ذلك ، يهتم علم البيانات دائمًا بسرد قصص مقنعة ومثيرة للاهتمام من البيانات ، واستخدام البيانات لفهم العالم بشكل أفضل.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.