الذكاء الاصطناعي

كارTEL من مجموعات البيانات المؤثرة يهيمن على أبحاث التعلم الآلي، تشير الدراسة الجديدة

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

وجدت ورقة جديدة من جامعة كاليفورنيا وغوغل ريسيرش أن عددًا صغيرًا من مجموعات البيانات “المعيارية” للتعلم الآلي، إلى حد كبير من المؤسسات الغربية المؤثرة، وعادةً من المنظمات الحكومية، يسيطر بشكل متزايد على قطاع أبحاث الذكاء الاصطناعي.

ويخلص الباحثون إلى أن هذا الاتجاه للاعتماد على مجموعات البيانات المفتوحة الشهيرة، مثل ImageNet، يثير عددًا من الأسباب العملية والأخلاقية والسياسية للقلق.

من بين نتائجهم – بناءً على البيانات الأساسية من مشروع المجتمع بقيادة فيسبوك Papers With Code (PWC) – يعتقد المؤلفون أن “مجموعات البيانات الشائعة يتم تقديمها من قبل عدد قليل من المؤسسات النخبوية”، وأن هذا “التكتل” قد увелич إلى 80٪ في السنوات الأخيرة.

‘نحن نجد أن هناك زيادة في عدم المساواة في استخدام مجموعات البيانات على مستوى العالم، وأن أكثر من 50٪ من جميع استخدامات مجموعات البيانات في عينتنا من 43,140 تتعلق بمجموعات البيانات التي قدمتها اثنتا عشرة مؤسسة نخبوية، في الغالب غربية.’

خريطة لاستخدامات مجموعات البيانات غير المحددة بالمهام على مدار العشر سنوات الماضية. معايير الإدراج هي حيث تقوم المؤسسة أو الشركة بمزيد من 50٪ من الاستخدامات المعروفة. يظهر على اليمين معامل جيني لتركيز مجموعات البيانات بمرور الوقت لكل من المؤسسات ومجموعات البيانات. مصدر: https://arxiv.org/pdf/2112.01716.pdf

تتضمن المؤسسات المهيمنة جامعة ستانفورد، ومايكروسوفت، وبرينستون، وفيسبوك، وغوغل، ومعهد ماكس بلانك، وآت آند تي. أربعة من مصادر مجموعات البيانات العشر الأولى هي مؤسسات شركات.

كما يصف الورقة استخدام مجموعات البيانات النخبوية المتزايد باسم “وسيلة للتفاوت في العلوم”. هذا لأن فرق البحث التي تسعى للحصول على موافقة المجتمع أكثر تحفيزًا لتحقيق نتائج متقدمة (SOTA) ضد مجموعة بيانات متسقة أكثر من توليد مجموعات بيانات أصلية لا تملك مثل هذا الموقع، والتي تتطلب من الزملاء التكيف مع معايير جديدة بدلاً من الفهارس القياسية.

في أي حال، كما تعترف الورقة، إن إنشاء مجموعة بيانات خاصة بهم هو مشروع باهظ التكلفة للمؤسسات والأفرق الأقل إمكانيات.

‘الصلاحية العلمية الظاهرة الممنوحة من خلال قياس البenchmarks هي عمومًا مختلطة مع المصداقية الاجتماعية التي يحصل عليها الباحثون من خلال إظهار khảيتهم التنافس على مجموعة بيانات معترف بها على نطاق واسع، حتى لو كانت مجموعة بيانات أكثر صلة بالسياق قد تكون أكثر ملاءمة فنيًا.’

‘نحن نبرر أن هذه الديناميكيات تخلق “أثر ماثيو” (أي “الأغنياء يصبحون أغنياء والفقراء يصبحون أفقر”) حيث تكتسب البنچمارك الناجحة، والمؤسسات النخبوية التي تقدمها، مكانة كبيرة في المجال.’

الورقة بعنوان مختزلة، معاد تدويرها، ومعادة استخدامها: حياة مجموعة بيانات في أبحاث التعلم الآلي، وهي من تأليف بيرنارد كوخ، وجاكوب جي. فوستر في جامعة كاليفورنيا، وإميلي دينتون، وأليكس هانا في غوغل ريسيرش.

تثير الأعمال عددًا من القضايا المتعلقة بالاتجاه المتزايد نحو التكتل الذي توثقه، وقد لقي استحسانًا عامًا في Open Review. وعلق أحد المراجعين من NeurIPS 2021 بأن العمل هو “مهم جدًا لأي شخص متورط في أبحاث التعلم الآلي.’

من الضرورة إلى الفساد

تلاحظ المؤلفون أن ثقافة “التنافس على البنچمارك” ظهرت كعلاج لنقص أدوات التقييم الموضوعي التي تسببت في انهيار الاهتمام والاستثمار في الذكاء الاصطناعي للمرة الثانية منذ أكثر من ثلاثين عامًا، بعد انخفاض الحماس التجاري تجاه أبحاث جديدة في “نظم الخبرة”:

‘البنچمارك通常 يُحدد مهمة معينة من خلال مجموعة بيانات وقياس كمي لتقييمها. تم تقديم الممارسة في الأصل إلى [أبحاث التعلم الآلي] بعد “شتاء الذكاء الاصطناعي” في الثمانينيات من قبل ممولي الحكومة، الذين سعوا إلى تقييم القيمة المُستلمة من المنح بدقة أكبر.’

تجادل الورقة بأن المزايا الأولية لهذه الثقافة غير الرسمية للتوحيد (تقليل الحواجز أمام المشاركة، والمقاييس الثابتة، وفرص التطوير الأكثر مرونة) ت开始 تُضاهى بالمساوئ التي تحدث بشكل طبيعي عندما تصبح مجموعة بيانات قوية بما يكفي لتحديد شروط استخدامها ونطاق تأثيرها.

ويقترح المؤلفون، بالاتفاق مع العديد من الأفكار الحديثة في الصناعة والأكاديمية بشأن هذه القضية، أن مجتمع البحث لا يطرح مشكلات جديدة إذا كانت لا يمكن حلها من خلال مجموعات البيانات المعيارية الحالية.

ويشيرون أيضًا إلى أن الالتزام الأعمى بهذه القليل من مجموعات البيانات “الذهبية” يشجع الباحثين على تحقيق نتائج تُعتبر مفرطة في التكيف (أي أنها خاصة بمجموعة البيانات ولا تُنجح بشكل جيد على بيانات العالم الحقيقي، أو على مجموعات بيانات جديدة أو أصلية، أو حتى بالضرورة على مجموعات بيانات أخرى في “المعيار الذهبي”).

‘نظراً لتركيز البحث المُلاحظ على عدد صغير من مجموعات البيانات المعيارية، نعتقد أن تنويع أشكال التقييم مهم بشكل خاص لتجنب التكيف المفرط مع مجموعات البيانات الحالية وتشويه تقدم المجال.’

تأثير الحكومة في أبحاث الرؤية الحاسوبية

وفقًا للورقة، تتأثر أبحاث الرؤية الحاسوبية بشكل ملحوظ أكثر من القطاعات الأخرى بالمتلازمة التي يحددونها، ويشير المؤلفون إلى أن أبحاث معالجة اللغة الطبيعية (NLP) تتأثر بشكل أقل. ويشير المؤلفون إلى أن هذا قد يكون بسبب أن مجتمعات NLP أكثر تماسكًا وأكبر في الحجم، وأنه يسهل الوصول إلى مجموعات بيانات NLP وتنظيمها، بالإضافة إلى أن مجموعات بيانات NLP أصغر وأقل استهلاكًا للموارد من حيث جمع البيانات.

في الرؤية الحاسوبية، وخاصة فيما يتعلق بمجموعات بيانات التعرف على الوجه (FR)، يجادل المؤلفون بأن المصالح الشركاتية والحكومية والخاصة غالبًا ما تتعارض:

‘المؤسسات الشركاتية والحكومية لديها أهداف قد تتعارض مع الخصوصية (مثل المراقبة)، وترجيح هذه الأولويات يُحتمل أن يكون مختلفًا عن أولويات الأكاديميين أو أصحاب المصلحة الأوسع نطاقًا في الذكاء الاصطناعي.’

对于 مهام التعرف على الوجه، وجد الباحثون أن حدوث مجموعات بيانات أكاديمية خالصة يتناقص بشكل كبير مقابل المعدل:

‘أربعة من مجموعات البيانات الثمانية (33.69٪ من إجمالي الاستخدامات) تم تمويلها حصريًا من قبل الشركات أو الجيش الأمريكي أو الحكومة الصينية (MS-Celeb-1M، CASIA-Webface، IJB-A، VggFace2). تم سحب MS-Celeb-1M في النهاية بسبب الجدل حول قيمة الخصوصية لمختلف الأطراف المعنية.’

أعلى مجموعات البيانات المستخدمة في مجتمعات أبحاث توليد الصور والتعرف على الوجه.

في الرسم البياني أعلاه، كما يشير المؤلفون، نرى أيضًا أن مجال توليد الصور (أو合成 الصور) الذي هو مجال نسبيًا حديث يعتمد بشكل كبير على مجموعات بيانات موجودة قديمة لم تُقصد للاستخدام في هذا السياق.

في الواقع، تلاحظ الورقة اتجاهًا متزايدًا toward “هجرة” مجموعات البيانات بعيدًا عن غرضها المقصود، مما يثير تساؤلات حول صلاحيتها لمتطلبات مجالات البحث الجديدة أو النائية، ومدى قيود الميزانية التي قد تكون “تعميمية” نطاق طموحات الباحثين إلى الإطار الضيق المقدم من المواد المتاحة ومن ثقافة इतन مدفوعة بالتصنيفات السنوية للمعايير التي تجعل مجموعات البيانات الأصلية تواجه صعوبة في الحصول على زخم.

‘تُظهر نتائجنا أيضًا أن مجموعات البيانات تنتقل بانتظام بين مجتمعات المهام المختلفة. في النهاية الأكثر تطرفًا، تم إنشاء معظم مجموعات البيانات المعيارية المتداولة لمجتمعات المهام الأخرى.’

بخصوص مشاهير التعلم الآلي (بما في ذلك أندرو إنغ) الذين دعت بشكل متزايد إلى مزيد من التنوع وتنظيم مجموعات البيانات في السنوات الأخيرة، يدعم المؤلفون هذا الموقف، لكنهم يعتقدون أن هذا النوع من الجهود، حتى لو نجح، قد يتم تعريضه للثقافة الحالية التي تعتمد على نتائج SOTA ومجموعات البيانات المعروفة:

‘تُظهر أبحاثنا أن مجرد الدعوة إلى باحثي التعلم الآلي لتطوير المزيد من مجموعات البيانات، وتغيير هياكل الحوافز بحيث يتم تقدير وتكريم تطوير مجموعات البيانات، قد لا يكون كافياً لتنويع استخدام مجموعات البيانات والمنظورات التي تشكل في النهاية أجندات أبحاث التعلم الآلي.’

‘إضافة إلى تشجيع تطوير مجموعات البيانات، ننصح بمضاعفات سياسات التوجيه التي تُفضل التمويل الكبير للأشخاص في المؤسسات الأقل إمكانيات لتطوير مجموعات بيانات عالية الجودة. هذا سيعزز – من منظور اجتماعي وثقافي – مجموعات البيانات المعيارية المستخدمة لتقييم أساليب التعلم الآلي الحديثة.’

6 ديسمبر 2021، 4:49 مساءً ت ع م+2 – تم تصحيح المِلكية في العنوان. – م أ

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai