رطم يهيمن كارتل من مجموعات البيانات المؤثرة على أبحاث التعلم الآلي ، دراسة جديدة تقترح - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

تقترح دراسة جديدة أن كارتل مجموعات البيانات المؤثرة يهيمن على أبحاث التعلم الآلي

mm
تحديث on

وجدت دراسة جديدة من جامعة كاليفورنيا وأبحاث جوجل أن عددًا صغيرًا من مجموعات بيانات التعلم الآلي "المعيارية"، والتي تأتي إلى حد كبير من المؤسسات الغربية المؤثرة، وفي كثير من الأحيان من المنظمات الحكومية، تهيمن بشكل متزايد على قطاع أبحاث الذكاء الاصطناعي.

استنتج الباحثون أن هذا الميل إلى "افتراضي" لمجموعات البيانات مفتوحة المصدر ذات الشعبية الكبيرة ، مثل IMAGEnet، يطرح عددًا من الأسباب العملية والأخلاقية وحتى السياسية للقلق.

من بين النتائج التي توصلوا إليها - استنادًا إلى البيانات الأساسية من مشروع المجتمع الذي يقوده Facebook أوراق مع كود (PWC) - يؤكد المؤلفان ذلك "مجموعات البيانات المستخدمة على نطاق واسع يتم تقديمها من قبل عدد قليل فقط من مؤسسات النخبة"، وأن هذا "التوحيد" قد ارتفع إلى 80٪ في السنوات الأخيرة.

"وجدنا أن هناك تفاوتًا متزايدًا في استخدام مجموعة البيانات على مستوى العالم ، وأن أكثر من 50٪ من جميع استخدامات مجموعة البيانات في عينتنا البالغة 43,140 تتوافق مع مجموعات البيانات التي قدمتها اثنتا عشرة مؤسسة نخبة ، وغربية في المقام الأول."

خريطة لاستخدامات مجموعة البيانات غير الخاصة بالمهمة على مدار السنوات العشر الماضية. معايير التضمين هي حيث تمثل المؤسسة أو الشركة أكثر من 50٪ من الاستخدامات المعروفة. يظهر على اليمين معامل جيني لتركيز مجموعات البيانات بمرور الوقت لكل من المؤسسات ومجموعات البيانات. المصدر: https://arxiv.org/pdf/2112.01716.pdf

خريطة لاستخدامات مجموعة البيانات غير الخاصة بالمهمة على مدار السنوات العشر الماضية. معايير التضمين هي حيث تمثل المؤسسة أو الشركة أكثر من 50٪ من الاستخدامات المعروفة. الموضح على اليمين هو ملف معامل جيني لتركيز مجموعات البيانات بمرور الوقت لكل من المؤسسات ومجموعات البيانات. المصدر: https://arxiv.org/pdf/2112.01716.pdf

تشمل المؤسسات المهيمنة جامعة ستانفورد ومايكروسوفت وبرينستون وفيسبوك وجوجل ومعهد ماكس بلانك و AT&T. أربعة من أصل عشرة مصادر لمجموعة البيانات هي مؤسسات الشركات.

تصف الورقة أيضًا الاستخدام المتزايد لمجموعات البيانات النخبوية هذه "وسيلة لعدم المساواة في العلم". وذلك لأن فرق البحث التي تسعى للحصول على موافقة المجتمع تكون أكثر تحفيزًا لتحقيق نتائج متطورة (SOTA) مقابل مجموعة بيانات متسقة بدلاً من إنشاء مجموعات بيانات أصلية ليس لها مثل هذا المكانة ، والتي تتطلب من أقرانها التكيف مع الرواية. المقاييس بدلاً من المؤشرات القياسية.

على أي حال ، كما تقر الورقة ، فإن إنشاء مجموعة بيانات خاصة به هو مسعى مكلف للغاية للمؤسسات والفرق التي تفتقر إلى الموارد الكافية.

"إن بريما فاسي يتم الخلط بين الصلاحية العلمية الممنوحة من قبل SOTA المعياري بشكل عام مع المصداقية الاجتماعية التي يحصل عليها الباحثون من خلال إظهار أنهم قادرون على التنافس على مجموعة بيانات معترف بها على نطاق واسع ، حتى لو كان معيارًا أكثر تحديدًا للسياق قد يكون أكثر ملاءمة من الناحية الفنية.

"نحن نفترض أن هذه الديناميكيات تخلق" تأثير ماثيو "(أي" الأغنياء يزدادون ثراءً والفقراء يزدادون فقرًا ") حيث تكتسب المعايير الناجحة ، ومؤسسات النخبة التي تقدمها ، مكانة كبيرة في هذا المجال.

ورقة بعنوان تم تقليله وإعادة استخدامه وإعادة تدويره: عمر مجموعة البيانات في أبحاث التعلم الآلي، ويأتي من برنارد كوخ وجاكوب جي فوستر في جامعة كاليفورنيا ، وإميلي دينتون وأليكس هانا في أبحاث Google.

يثير العمل عددًا من القضايا مع الاتجاه المتزايد نحو التوحيد الذي يوثق ، والذي تم مواجهته الاستحسان العام في مراجعة مفتوحة. علق أحد المراجعين من NeurIPS 2021 أن العمل هو "وثيق الصلة بأي شخص يشارك في أبحاث التعلم الآلي." وتوقعت إدراجه كقراءة مخصصة في الدورات الجامعية.

من الضرورة إلى الفساد

لاحظ المؤلفون أن الثقافة الحالية المتمثلة في "التغلب على المعيار" ظهرت كعلاج لنقص أدوات التقييم الموضوعية التي تسببت في انهيار الاهتمام والاستثمار في الذكاء الاصطناعي للمرة الثانية. منذ أكثر من ثلاثين عامًا، بعد تراجع حماس الأعمال نحو البحث الجديد في "الأنظمة الخبيرة":

عادةً ما تضفي المعايير القياسية طابعًا رسميًا على مهمة معينة من خلال مجموعة بيانات ومقياس كمي مرتبط بالتقييم. تم تقديم هذه الممارسة في الأصل إلى [أبحاث التعلم الآلي] بعد "شتاء الذكاء الاصطناعي" في الثمانينيات من قبل الممولين الحكوميين ، الذين سعوا إلى إجراء تقييم أكثر دقة للقيمة المتلقاة من المنح.

تجادل الورقة بأن المزايا الأولية لثقافة التوحيد غير الرسمية هذه (تقليل الحواجز أمام المشاركة ، والمقاييس المتسقة وفرص التطوير الأكثر مرونة) بدأت تتفوق عليها العيوب التي تحدث بشكل طبيعي عندما تصبح مجموعة البيانات قوية بما يكفي لتعريفها بشكل فعال "شروط الاستخدام" ونطاق التأثير.

يقترح المؤلفون ، تماشياً مع الكثير من الأفكار الصناعية والأكاديمية الحديثة حول هذه المسألة ، أن مجتمع البحث لم يعد يطرح مشاكل جديدة إذا كان لا يمكن معالجتها من خلال مجموعات البيانات المعيارية الحالية.

كما أشاروا إلى أن الالتزام الأعمى بهذا العدد الصغير من مجموعات البيانات "الذهبية" يشجع الباحثين على تحقيق نتائج مهيأة (أي أن تكون خاصة بمجموعة بيانات وليس من المحتمل أن تعمل في أي مكان بالقرب من بيانات العالم الحقيقي ، أو على مجموعات بيانات أكاديمية أو أصلية جديدة ، أو حتى بالضرورة على مجموعات بيانات مختلفة في "المعيار الذهبي").

"نظرًا للتركيز العالي الملحوظ للبحوث على عدد صغير من مجموعات البيانات المعيارية ، نعتقد أن تنويع أشكال التقييم مهم بشكل خاص لتجنب الإفراط في التوفيق بين مجموعات البيانات الحالية وتحريف التقدم في هذا المجال."

تأثير الحكومة في أبحاث الرؤية الحاسوبية

وفقًا للورقة البحثية، فإن أبحاث الرؤية الحاسوبية تتأثر بشكل ملحوظ بالمتلازمة التي تحددها مقارنة بالقطاعات الأخرى، حيث أشار المؤلفون إلى أن أبحاث معالجة اللغات الطبيعية (NLP) أقل تأثرًا بكثير. يقترح المؤلفون أن هذا قد يكون بسبب مجتمعات البرمجة اللغوية العصبية "أكثر تماسكاً" وأكبر حجمًا ، ولأن مجموعات بيانات البرمجة اللغوية العصبية أكثر سهولة ويسهل تنظيمها ، فضلاً عن كونها أصغر حجمًا وأقل كثافة في استخدام الموارد من حيث جمع البيانات.

في رؤية الكمبيوتر ، وخاصة فيما يتعلق بمجموعات بيانات التعرف على الوجه (FR) ، يؤكد المؤلفون أن مصالح الشركات والحكومة والمصالح الخاصة غالبًا ما تتعارض:

تمتلك الشركات والمؤسسات الحكومية أهدافًا قد تتعارض مع الخصوصية (على سبيل المثال ، المراقبة) ، ومن المرجح أن يكون ترجيحها لهذه الأولويات مختلفًا عن تلك التي يتبناها الأكاديميون أو أصحاب المصلحة المجتمعيون الأوسع لمنظمة العفو الدولية.

بالنسبة لمهام التعرف على الوجه ، وجد الباحثون أن حدوث مجموعات البيانات الأكاديمية البحتة ينخفض ​​بشكل كبير مقابل المتوسط:

تم تمويل [أربعة] من مجموعات البيانات الثمانية (33.69٪ من إجمالي الاستخدامات) حصريًا من قبل الشركات أو الجيش الأمريكي أو الحكومة الصينية (MS-Celeb-1M و CASIA-Webface و IJB-A و VggFace2). تم سحب MS-Celeb-1M في النهاية بسبب الجدل الدائر حول قيمة الخصوصية لمختلف أصحاب المصلحة.

أهم مجموعات البيانات المستخدمة في مجتمعات أبحاث إنشاء الصور والتعرف على الوجوه.

أهم مجموعات البيانات المستخدمة في مجتمعات أبحاث إنشاء الصور والتعرف على الوجوه.

في الرسم البياني أعلاه ، كما لاحظ المؤلفون ، نرى أيضًا أن المجال الحديث نسبيًا لإنشاء الصورة (أو تركيب الصورة) يعتمد بشكل كبير على مجموعات البيانات الموجودة والأقدم بكثير والتي لم تكن مخصصة لهذا الاستخدام.

في الواقع ، تلاحظ الورقة وجود اتجاه متزايد لـ "ترحيل" مجموعات البيانات بعيدًا عن الغرض المقصود منها ، مما يثير الشكوك حول مدى ملاءمتها لاحتياجات قطاعات البحث الجديدة أو البعيدة ، والمدى الذي قد تؤدي فيه قيود الميزانية إلى "تعميم" نطاق طموحات الباحثين في الإطار الأضيق الذي توفره كل من المواد المتاحة وثقافة مهووسة جدًا بالتقييمات القياسية السنوية التي تواجه مجموعات البيانات الجديدة صعوبة في اكتساب الزخم.

تشير النتائج التي توصلنا إليها أيضًا إلى أن مجموعات البيانات تنتقل بانتظام بين مجتمعات المهام المختلفة. على الطرف الأكثر تطرفاً ، تم إنشاء غالبية مجموعات البيانات المعيارية المتداولة لبعض مجتمعات المهام لمهام أخرى.

بخصوص الشخصيات البارزة في التعلم الآلي (بما في ذلك أندرو نج) الذين طالبوا بشكل متزايد بمزيد من التنوع والعناية بمجموعات البيانات في السنوات الأخيرة ، يدعم المؤلفون هذا الشعور ، لكنهم يعتقدون أن هذا النوع من الجهد ، حتى لو نجح ، يمكن أن يقوضه اعتماد الثقافة الحالية على نتائج SOTA ومجموعات البيانات المعمول بها :

يشير بحثنا إلى أن مجرد دعوة باحثي تعلم الآلة لتطوير المزيد من مجموعات البيانات ، وتحويل هياكل الحوافز بحيث يتم تقييم تطوير مجموعة البيانات ومكافأتها ، قد لا يكون كافيًا لتنويع استخدام مجموعة البيانات ووجهات النظر التي تشكل في النهاية وتضع أجندات أبحاث MLR.

بالإضافة إلى تحفيز تطوير مجموعة البيانات ، فإننا ندعو إلى تدخلات سياسية موجهة نحو الإنصاف تعطي الأولوية للتمويل الكبير للأشخاص في المؤسسات ذات الموارد الأقل لإنشاء مجموعات بيانات عالية الجودة. هذا من شأنه أن ينوع - من منظور اجتماعي وثقافي - مجموعات البيانات المعيارية المستخدمة لتقييم أساليب تعلم الآلة الحديثة.

 

 6 ديسمبر 2021 ، الساعة 4:49 مساءً بتوقيت غرينتش +2 - تم تصحيح الملكية في العنوان. - ماجستير