الذكاء الاصطناعي

تقييم الدقة التاريخية لِImagenet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

دراسة جديدة من Google Research و UC Berkeley تُضيف إلى النقد الطويل الأمد بشأن الاعتماد على قاعدة بيانات Imagenet في قطاع أبحاث الرؤية الحاسوبية (CV) ، و مشتقاتها الكثيرة. بعد تقييم يدوي شاق ، يخلص المؤلفون إلى أن ما يقرب من 50٪ من الأخطاء المفترضة التي يرتكبها أفضل النماذج على جزء التقييم متعدد التسمية من Imagenet (حيث تحقق النماذج الأفضل أداءً أكثر من 97٪ دقة أعلى) ليست في الواقع أخطاء.

من الورقة:

‘تظهر تحليلاتنا أن نصف الأخطاء المفترضة ليست أخطاء على الإطلاق ، ونكشف عن علامات متعددة صالحة جديدة ، مما يثبت أننا بدون مراجعة دقيقة ، نحن ننخفض بشكل كبير من أداء هذه النماذج. ‘

‘من ناحية أخرى ، نجد أيضًا أن أفضل النماذج لا تزال ترتكب عددًا كبيرًا من الأخطاء (40٪) التي هي واضحة الخاطئة للمراجعين البشر.’

تظهر الدراسة مدى تأثير تسمية بيانات غير دقيقة – خاصة من قبل العمال غير المهرة في التجميع – على القطاع ، من خلال نهجها الشاق لتقييم أزواج الصورة والنص عبر جزء كبير من تاريخ Imagenet.

في الصف العلوي ، أمثلة على شدة الخطأ: في أول مثالين هنا ، النموذج الجديد يخطئ ببساطة في التسمية المتوقعة; في المثال الثالث ، النموذج الجديد يحدد تسمية متعددة مفقودة مسبقًا (تسمية تتناول تصنيفًا جديدًا للصورة); في الصورة الأخيرة في الصف العلوي ، تنبؤ النموذج غامض ، لأن الصورة هي ذبابة النحل وليست ذبابة. ومع ذلك ، فإن النحل العادي ينتمي إلى رتبة الحشرات ، وبالتالي فإن هذه الاستثناء ستكون شبه مستحيلة ملاحظتها ، حتى للمراجع المهرة. في الصف التالي هناك أربعة فئات من الأخطاء ، مع أمثلة. Source: https://arxiv.org/pdf/2205.04596.pdf

استخدم الباحثون عددًا صغيرًا من المراجعين المخصصين لمراجعة شاقة للسجلات التاريخية للأخطاء في تقييم قاعدة بيانات Imagenet ، ووجدوا أن العديد من أحكام الأخطاء هي في حد ذاتها أخطاء – اكتشاف قد يُعدل بعض التقييمات السيئة التي حصلت عليها العديد من المشاريع على معايير Imagenet على مر السنين.

كما يعتبر الباحثون أن تحسينات الدقة يُعتقد أنها تُield عوائد متضائلة ، وأن النماذج الجديدة التي تتجاوز دقة التسمية المقرة ، والتي تُقترح تسميات جديدة (أي إضافية) قد تُعاقب ، في الأساس ، على عدم الانضباط.

‘على سبيل المثال ،’ يلاحظ المؤلفون. ‘هل يجب أن نُعاقب النماذج على أنها الأولى التي تتنبأ بأن باجل مسبقًا قد يكون باجل ، كما يفعل أحد النماذج التي نراجعها في هذا العمل؟’

من الورقة ، نموذج جديد يخالف التنبؤ السابق بأن الكائن في الصورة هو عجينة ، ويفترض أن الكائن هو في الواقع باجل بالفعل).

من وجهة نظر عامل التجميع الذي يُكلف بتحديد كائن مثل هذا ، هذا هو مأزق семантиكي وفلسفي يمكن حلُه فقط من خلال التسمية المتعددة (كما يحدث في مجموعات لاحقة وتكرارات لاحقة من Imagenet) ؛ في الحالة السابقة ، الكائن هو في الواقع كلا العجينة والباجل الناشئ.

الأخطاء الكبيرة (في الأعلى) والصغيرة (في الأسفل) التي ظهرت عند اختبار نماذج مخصصة في البحث. التسميات الأصلية لِImagenet هي الصور الأولى على اليسار.

الحلول الواضحة هي تعيين المزيد من الموارد للتسمية (وهو تحدي داخل القيود المالية لمشاريع أبحاث الرؤية الحاسوبية الأكثر) ؛ و ، كما يشدد المؤلفون ، تحديث قواعد البيانات وتقييمات التسمية بانتظام (الذي ، من بين عقبات أخرى ، يُهدد بكسر الاستمرارية التاريخية للمعايير ، و يُخلف وراءه أوراق بحثية جديدة مع إضافات وتوضيحات بشأن المعادلة).

كخطوة لتصحيح الوضع ، قام الباحثون بتطوير مجموعة فرعية جديدة من Imagenet تسمى Imagenet-Major (Imagenet-M) ، والتي يصفونها بأنها ’68-مثال “خطأ كبير” من الأخطاء الواضحة التي يرتكبها أفضل النماذج اليوم – شريحة حيث يجب أن تحقق النماذج القمة ، ولكن اليوم هي بعيدة عن القيام بذلك.’

الورقة مُسمّاة متى يصبح العجين باجل؟ تحليل الأخطاء المتبقية في Imagenet ، و مكتوبة من قبل أربعة مؤلفين من Google Research ، مع سارا فريدوفيتش-كايل من UC Berkeley.

الديون الفنية

تكون النتائج مهمة لأن الأخطاء المتبقية المحددة (أو المخالفة) في Imagenet ، في 16 عامًا منذ إنشائها ، يمكن أن تمثل الفرق بين نموذج قابل للتطبيق ونموذج معرض للخطأ بدرجة كافية بحيث لا يمكن إطلاقه على بيانات حية. كما هو الحال دائمًا ، الмиلا الأخيرة هي حرجة.

قطاع أبحاث الرؤية الحاسوبية وynthesis قد اخترت تلقائيًا Imagenet كمعيار ، لعدة أسباب – ليس أقلها لأن مجموعة من المبكرين ، في وقت كانت فيه مجموعات البيانات الكبيرة والمسمى جيدًا نادرة أكثر مما هي عليه الآن ، أنتجت العديد من المبادرات البحثية التي أصبحت اختبار Imagenet بسرعة المعيار الوحيد التاريخي الشامل لقياس إطارات جديدة.

الطريقة

سعى الباحثون لتحديد “الأخطاء المتبقية” في Imagenet ، واستخدموا نموذج ViT قياسي (قادر على تحقيق دقة 89.5٪) مع 3 مليارات معامل ، Vit-3B ، تم تدريبه مسبقًا على JFT-3B و تم تحسينه على Imagenet-1K.

استخدم الباحثون Imagenet2012_multilabel ، وسجلوا الدقة الأولية للتسمية المتعددة (MLA) لِVit-3B بنسبة 96.3٪ ، خلال التي ارتكب النموذج 676 خطأ واضح. كانت هذه الأخطاء (وأيضًا الأخطاء التي أنتجها نموذج Greedy Soups) التي سعى المؤلفون لتحقيقها.

للتقييم الأخطاء المتبقية البالغ عددها 676 ، تجنب المؤلفون العمال في التجميع ، مشيرين إلى أن الأخطاء من هذا النوع يمكن أن تكون صعبة على المُسندين العاديين ملاحظتها ، ولكن جمعوا لجنة من خمسة مراجعين خبراء ، و أنشأوا أداة مخصصة لتمكين كل مراجع من رؤية على الفور الفئة المتوقعة ؛ النتيجة المتوقعة ؛ التسميات الحقيقية ؛ والصورة نفسها.

واجهة المستخدم التي تم بناؤها للمشروع.

في بعض الحالات ، كانت هناك حاجة إلى مزيد من البحث لتحديد النزاعات بين اللجنة ، وتم استخدام بحث Google Image كأداة مساعدة.

‘[في] حالة واحدة مثيرة للاهتمام ولكن ليس منعزلة ، كان تنبؤًا سيارة أجرة (بدون مؤشرات واضحة لسيارة أجرة بخلاف اللون الأصفر) موجودًا في الصورة ؛ قررنا أن التنبؤ كان سيارة أجرة صحيحة وليس سيارة عادية من خلال تحديد جسر معلم في الخلفية لتحديد موقع المدينة ، و بحث صورة لاحق على Google لسيارات الأجرة في تلك المدينة أوجد صورًا لنموذج سيارة الأجرة نفسه وتصميم لوحة الترخيص ، مما يؤكد التنبؤ الصحيح للنموذج.’

بعد المراجعة الأولية للأخطاء التي وجدت خلال مراحل متعددة من البحث ، صاغ المؤلفون أربعة أنواع جديدة من الأخطاء : خطأ دقيق ، حيث الفئة المتوقعة مشابهة للتسمية الحقيقية ؛ دقيق مع خارج القاموس (OOV) ، حيث يحدد النموذج كائنًا من فئة صحيحة ولكن غير موجودة في Imagenet ؛ ارتباط زائف ، حيث يتم قراءة التسمية المتوقعة خارج سياق الصورة ؛ و غير نمطي ، حيث الكائن الحقيقي هو مثال مشكوك فيه من الفئة التي تشبه التسمية المتوقعة.

في بعض الحالات ، لم تكن الحقيقة الحقيقية هي “صحيحة” :

‘بعد مراجعة الأخطاء الأصلية البالغ عددها 676 [التي وجدت في Imagenet] ، وجدنا أن 298 منها كانت صحيحة أو غير واضحة ، أو حددنا أن التسمية الحقيقية الأصلية كانت خاطئة أو مشكلة.’

بعد جولة شاملة ومعقدة من التجارب عبر مجموعات بيانات وفرعية ومجموعات التحقق ، وجد المؤلفون أن النماذج قيد الدراسة كانت في الواقع صحيحة (من قبل المراجعين البشر) لنصف “الأخطاء” التي ارتكبوها باستخدام تقنيات تقليدية.

تنتهي الورقة :

‘في هذه الورقة ، قمنا بتحليل كل خطأ متبق يرتكبه نموذجي ViT-3B و Greedy Soups على مجموعة التحقق المتعددة التسمية من Imagenet. ‘

‘بشكل عام ، وجدنا أن : 1) عندما يصنع نموذج كبير ودقيق تنبؤًا جديدًا لم يُصنع من قبل نماذج أخرى ، يُصبح تنبؤًا جديدًا صحيحًا تقريبًا نصف الوقت ؛ 2) نماذج الدقة الأعلى لا تُظهر نمطًا واضحًا في فئاتنا وخطورة الأخطاء التي نحلها ؛ 3) نماذج SOTA اليوم تُطابق أو تتفوق على أداء أفضل الخبراء البشر على مجموعة التحقق المتعددة التسمية التي قيمها الإنسان ؛ 4) بيانات التدريب الصاخبة والفئات غير المحددة قد تكون عاملاً محدوداً لقياس التحسينات الفعلية في تصنيف الصور.’

نُشر لأول مرة في 15 مايو 2022.

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai

Unite.AI

تقييم الدقة التاريخية لِImagenet

الديون الفنية

الطريقة

You may like