زاوية أندرسون
استخدام هلوسات الذكاء الاصطناعي لتقييم واقعية الصورة

يقترح بحث جديد من روسيا طريقة غير تقليدية للكشف عن الصور غير الواقعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي - ليس عن طريق تحسين دقة نماذج الرؤية واللغة الكبيرة (LVLMs)، ولكن من خلال الاستفادة منها بشكل متعمد الميل إلى الهلوسة.
يستخرج النهج الجديد "حقائق ذرية" متعددة حول صورة باستخدام LVLMs، ثم يطبقها الاستدلال باللغة الطبيعية (NLI) لقياس التناقضات بين هذه البيانات بشكل منهجي - وتحويل عيوب النموذج إلى أداة تشخيصية للكشف عن الصور التي تتحدى الحس السليم.

صورتان من مجموعة بيانات WHOOPS! إلى جانب عبارات مُولّدة تلقائيًا بواسطة نموذج LVLM. الصورة اليسرى واقعية، مما يُؤدي إلى أوصاف متسقة، بينما تُسبب الصورة اليمنى غير العادية هلوسة النموذج، مما يُنتج عبارات متناقضة أو خاطئة. المصدر: https://arxiv.org/pdf/2503.15948
عند طلب تقييم واقعية الصورة الثانية، يمكن لـ LVLM أن يرى أن شيء وهذا أمر خاطئ، حيث أن الجمل المصور له ثلاث سنام، وهو ما غير معروف في الطبيعة.
ومع ذلك، فإن LVLM يدمج في البداية >2 حدبة مع >2 حيواناتلأن هذه هي الطريقة الوحيدة لرؤية ثلاث حدبات في صورة جمل واحدة. ثم يبدأ في الهلوسة بشيء أكثر استبعادًا من ثلاث حدبات (أي "رأسين")، ولا يُفصّل أبدًا ما أثار شكوكه - الحدبة الإضافية غير المحتملة.
وجد باحثو العمل الجديد أن نماذج LVLM يمكنها إجراء هذا النوع من التقييم بشكل أصلي، وعلى قدم المساواة مع (أو أفضل من) النماذج التي تم تطويرها. صقل لمهمة من هذا النوع. ونظرًا لأن الضبط الدقيق معقد ومكلف وهش نسبيًا من حيث قابلية التطبيق اللاحقة، فإن اكتشاف استخدام أصلي لأحد أعظم العوائق إن ثورة الذكاء الاصطناعي الحالية تشكل تحولاً منعشاً في الاتجاهات العامة في الأدبيات.
التقييم المفتوح
ويؤكد المؤلفون أن أهمية هذا النهج تكمن في إمكانية نشره مع المصدر المفتوح في حين أن نموذجًا متقدمًا وعالي الاستثمار مثل ChatGPT (كما تُقرّ الورقة البحثية) يُمكن أن يُقدّم نتائج أفضل في هذه المهمة، فإن القيمة الحقيقية التي يُمكن مناقشتها في هذه الدراسات بالنسبة لغالبيتنا (وخاصةً لهواة المؤثرات البصرية) تكمن في إمكانية دمج وتطوير ابتكارات جديدة في التطبيقات المحلية؛ على العكس من ذلك، فإن كل ما هو مُخصّص لنظام واجهة برمجة تطبيقات تجاري خاصّ مُعرّض للسحب، وارتفاعات أسعار تعسفية، وسياسات رقابة من المُرجّح أن تعكس اهتمامات الشركة أكثر من احتياجات المستخدم ومسؤولياته.
استخدم ورقة جديدة بعنوان لا تحارب الهلوسة، بل استخدمها: تقدير واقعية الصورة باستخدام الذكاء الاصطناعي غير الخطي (NLI) بدلًا من الحقائق الذرية، ويأتي هذا العمل من خمسة باحثين من معهد سكولكوفو للعلوم والتكنولوجيا (سكولتيك)، ومعهد موسكو للفيزياء والتكنولوجيا، والشركتين الروسيتين MTS AI وAIRI. ويشتمل العمل على صفحة GitHub المصاحبة.
الأسلوب
يستخدم المؤلفون المصطلح الإسرائيلي/الأمريكي مجموعة بيانات رائعة! للمشروع:

أمثلة على صور مستحيلة من مجموعة بيانات WHOOPS!. من اللافت للنظر كيف تجمع هذه الصور عناصر معقولة، وأن استحالة حدوثها يجب أن تُحسب بناءً على تسلسل هذه الجوانب غير المتوافقة. المصدر: https://whoops-benchmark.github.io/
تتألف مجموعة البيانات من 500 صورة تركيبية وأكثر من 10,874 تعليقًا توضيحيًا، مصممة خصيصًا لاختبار المنطق السليم وفهم التركيب لنماذج الذكاء الاصطناعي. وقد أُنشئت بالتعاون مع مصممين مكلفين بإنشاء صور معقدة عبر أنظمة تحويل النص إلى صورة مثل ميدجورني وسلسلة DALL-E - التي تنتج سيناريوهات يصعب أو يستحيل التقاطها بشكل طبيعي:

أمثلة أخرى من مجموعة بيانات WHOOPS! المصدر: https://huggingface.co/datasets/nlphuji/whoops
يعمل النهج الجديد على ثلاث مراحل: أولاً، LVLM (على وجه التحديد LLaVA-v1.6-mistral-7b) يُطلب منه إنشاء عدة عبارات بسيطة - تُسمى "الحقائق الذرية" - لوصف صورة. تُنشأ هذه العبارات باستخدام بحث شعاع متنوع، مما يضمن التنوع في المخرجات.

يُنتج Diverse Beam Search مجموعة أفضل من خيارات التسمية التوضيحية من خلال التحسين لتحقيق هدف معزز بالتنوع. المصدر: https://arxiv.org/pdf/1610.02424
بعد ذلك، تتم مقارنة كل عبارة تم إنشاؤها بشكل منهجي بكل عبارة أخرى باستخدام نموذج الاستدلال باللغة الطبيعية، والذي يقوم بتعيين درجات تعكس ما إذا كانت أزواج العبارات تستلزم أو تتناقض أو محايدة تجاه بعضها البعض.
تشير التناقضات إلى الهلوسة أو العناصر غير الواقعية داخل الصورة:

مخطط لخط أنابيب الكشف.
أخيرًا، تقوم الطريقة بتجميع درجات NLI الزوجية هذه في "درجة واقع" واحدة تقيس التماسك العام للبيانات الناتجة.
استكشف الباحثون أساليب تجميع مختلفة، وكان النهج القائم على التجميع هو الأفضل أداءً. طبّق المؤلفون k- تعني التكتل خوارزمية لفصل درجات NLI الفردية إلى مجموعتين، و النقطه الوسطى تم بعد ذلك اختيار المجموعة ذات القيمة الأقل كمقياس نهائي.
يتوافق استخدام مجموعتين مباشرةً مع الطبيعة الثنائية لمهمة التصنيف، أي التمييز بين الصور الواقعية وغير الواقعية. يشبه هذا المنطق اختيار أقل درجة إجمالية؛ إلا أن التجميع يسمح للمقياس بتمثيل متوسط التناقض بين عدة حقائق، بدلاً من الاعتماد على حقيقة واحدة. شاذ.
البيانات والاختبارات
قام الباحثون باختبار نظامهم على معيار WHOOPS! الأساسي، باستخدام الدوران انقسامات الاختبار (أي، عبر المصادقة). تم اختبار النماذج BLIP2 FlanT5-XL و BLIP2 FlanT5-XXL في الانقسامات، وBLIP2 FlanT5-XXL في شكل لقطة صفرية (أي بدون تدريب إضافي).
بالنسبة لخط الأساس الذي يتبع التعليمات، طلب المؤلفون من LVLMs استخدام العبارة هل هذا غير عادي؟ اشرح بإيجاز وبجملة قصيرة.، التي البحوث السابقة ثبتت فعاليتها في اكتشاف الصور غير الواقعية.
تم تقييم النماذج LLaVA 1.6 ميسترال 7B, LLaVA 1.6 فيكونا 13B، وحجمين (7/13 مليار معلمة) من InstructBLIP.
ركّزت عملية الاختبار على ١٠٢ زوجًا من الصور الواقعية وغير الواقعية (الغريبة). تكوّن كل زوج من صورة عادية وأخرى تتعارض مع المنطق السليم.
قام ثلاثة مُعلّقين بشريين بتصنيف الصور، وتوصلوا إلى توافق بنسبة 92%، مما يُشير إلى اتفاق بشري قوي على ما يُمثل "غرابة". وقيست دقة أساليب التقييم بقدرتهم على التمييز بدقة بين الصور الواقعية وغير الواقعية.
تم تقييم النظام باستخدام التحقق المتبادل الثلاثي، مع خلط البيانات عشوائيًا باستخدام بذرة ثابتة. عدّل المؤلفون أوزان درجات الاستلزام (العبارات المتوافقة منطقيًا) ودرجات التناقض (العبارات المتعارضة منطقيًا) أثناء التدريب، بينما ثبّتت الدرجات "المحايدة" عند الصفر. حُسبت الدقة النهائية كمتوسط لجميع أجزاء الاختبار.

مقارنة بين نماذج NLI المختلفة وطرق التجميع على مجموعة فرعية من خمس حقائق تم إنشاؤها، تم قياسها حسب الدقة.
وفيما يتعلق بالنتائج الأولية الموضحة أعلاه، تنص الورقة على ما يلي:
تتميز طريقة ['clust'] بأنها من أفضل الطرق أداءً. هذا يعني أن تجميع جميع درجات التناقض أمرٌ بالغ الأهمية، بدلاً من التركيز فقط على القيم المتطرفة. إضافةً إلى ذلك، يتفوق نموذج NLI الأكبر (nli-deberta-v3-large) على جميع النماذج الأخرى في جميع طرق التجميع، مما يشير إلى أنه يُجسّد جوهر المشكلة بفعالية أكبر.
وجد الباحثون أن الأوزان المثلى فضّلت باستمرار التناقض على الاستلزام، مما يشير إلى أن التناقضات كانت أكثر إفادة في تمييز الصور غير الواقعية. تفوقت طريقتهم على جميع أساليب اللقطة الصفرية الأخرى المختبرة، مقتربةً إلى حد كبير من أداء نموذج BLIP2 المُعدّل بدقة.

أداء مختلف المناهج على معيار WHOOPS!. تظهر أساليب الضبط الدقيق (ft) في الأعلى، بينما تُدرج أساليب اللقطة الصفرية (zs) في الأسفل. يشير حجم النموذج إلى عدد المعلمات، وتُستخدم الدقة كمقياس للتقييم.
لاحظوا أيضًا، على نحو غير متوقع، أن أداء InstructBLIP كان أفضل من نماذج LLaVA المماثلة عند استخدام نفس المحفز. مع إدراك دقة GPT-4o الفائقة، تُشدد الورقة البحثية على تفضيل المؤلفين لعرض حلول عملية مفتوحة المصدر، ويبدو أنها تُقدم ابتكارًا في استغلال الهلوسة صراحةً كأداة تشخيصية.
خاتمة
ومع ذلك، يعترف المؤلفون بديون مشروعهم لعام 2024 فيث سكور رحلة استكشافية، وهي عبارة عن تعاون بين جامعة تكساس في دالاس وجامعة جونز هوبكنز.

توضيح لكيفية عمل تقييم FaithScore. أولاً، يتم تحديد العبارات الوصفية ضمن إجابة مُولّدة بواسطة LVLM. بعد ذلك، تُقسّم هذه العبارات إلى حقائق ذرية فردية. وأخيرًا، تُقارن الحقائق الذرية بالصورة المُدخلة للتحقق من دقتها. يُبرز النص المُسطّر المحتوى الوصفي الموضوعي، بينما يُشير النص الأزرق إلى العبارات المُتخيلة، مما يُتيح لـ FaithScore تقديم مقياس قابل للتفسير لصحة الحقائق. المصدر: https://arxiv.org/pdf/2311.01477
يقوم FaithScore بقياس مدى دقة الأوصاف التي تم إنشاؤها بواسطة LVLM من خلال التحقق من الاتساق مع محتوى الصورة، بينما تستغل طرق البحث الجديدة بشكل صريح هلوسات LVLM للكشف عن الصور غير الواقعية من خلال التناقضات في الحقائق المولدة باستخدام الاستدلال على اللغة الطبيعية.
يعتمد العمل الجديد، بطبيعة الحال، على غرابة نماذج اللغة الحالية، وعلى ميلها إلى الهلوسة. إذا ما أفضى تطوير نموذج ما إلى نموذج خالٍ تمامًا من الهلوسة، فلن تكون حتى المبادئ العامة للعمل الجديد قابلة للتطبيق. ومع ذلك، يبقى هذا الأمر... احتمال صعب.
نُشر لأول مرة يوم الثلاثاء 25 مارس 2025












