زاوية Anderson
استخدام هلوسات الذكاء الاصطناعي لتقييم واقعية الصور

يُقترح بحث جديد من روسيا طريقة غير تقليدية لتحديد الصور غير الواقعية التي تم توليدها بواسطة الذكاء الاصطناعي – لا من خلال تحسين دقة نماذج اللغة والرؤية الكبيرة (LVLMs)، ولكن من خلال الاستفادة المتعمدة من ميلها إلى الهلوسة.
المنهج الجديد يستخرج العديد من “الحقائق الذرية” حول صورة باستخدام LVLMs، ثم يطبق الاستدلال اللغوي الطبيعي (NLI) لقياس التناقضات المنهجية بين هذه العبارات – بشكل فعال تحويل عيوب النموذج إلى أداة تشخيصية لتحديد الصور التي تتعارض مع المنطق الشائع.

صورتان من مجموعة البيانات WHOOPS! جنبًا إلى جنب مع العبارات التي تم توليدها تلقائيًا بواسطة نموذج LVLM. الصورة اليسرى واقعية، مما يؤدي إلى وصف متسق، بينما تسبب الصورة غير العادية على اليمين في حدوث هلوسة، مما ينتج عنه عبارات متناقضة أو كاذبة. مصدر: https://arxiv.org/pdf/2503.15948
عندما طُلب من LVLM تقييم واقعية الصورة الثانية، يمكنه رؤية أن شيئًا ما خاطئ، لأن الجمل المتصورة لها ثلاثة أوج، وهو ما لا يُعرف في الطبيعة.
然而، يخلط LVLM في البداية بين > 2 أوج و > 2 حيوان، لأن هذا هو الطريقة الوحيدة التي يمكنك رؤية ثلاثة أوج في صورة “جمل” واحدة. ثم ينتقل إلى الهلوسة بشيء أكثر غير محتمل من ثلاثة أوج (أي “رأسين”) ويتجاهل تمامًا الشيء الذي يبدو أنه أثار شكوكه – الأوج الغير محتمل الإضافي.
وجد الباحثون في العمل الجديد أن نماذج LVLM يمكنها أداء هذا النوع من التقييم بشكل أصلي، وعلى نفس مستوى (أو أفضل من) النماذج التي تم تحسينها لمهمة من هذا القبيل. منذ أن يكون تحسين الأداء معقدًا ومكلفًا ومتحفظًا من حيث التطبيق المتنقل، فإن اكتشاف استخدام أصلي ل واحد من أكبر عقبات في ثورة الذكاء الاصطناعي الحالية هو تحول منعش في الاتجاهات العامة في الأدبيات.
التقييم المفتوح
يؤكد المؤلفون على أن أهمية النهج تكمن في أنه يمكن تطبيقه باستخدام إطارات مفتوحة المصدر. بينما يمكن أن تقدم نموذج متقدم ومرتفع الاستثمار مثل ChatGPT نتائج أفضل في هذه المهمة (يقر النص بذلك)، فإن القيمة الحقيقية للأدبيات لمعظمنا (وخاصة للمجتمعات الهواة و VFX) هي إمكانية دمج وتطوير اختراقات جديدة في التطبيقات المحلية؛ من ناحية أخرى، كل شيء يعتمد على نظام واجهة برمجة تطبيقات مملوك يخضع للانسحاب، وزيادة الأسعار التعسفية، وسياسات الرقابة التي تميل إلى反映 مخاوف الشركة أكثر من احتياجات المستخدم ومسؤولياته.
الورقة الجديدة بعنوان لا تقاتل الهلوسة، استخدمها: تقدير واقعية الصورة باستخدام NLI على الحقائق الذرية، ويأتي من خمسة باحثين عبر معهد سكولكوفو للعلوم والتكنولوجيا (Skoltech)، ومعهد موسكو للفيزياء والتكنولوجيا، والشركات الروسية MTS AI و AIRI. العمل له صفحة GitHub مصاحبة.
المنهج
يستخدم المؤلفون مجموعة البيانات الإسرائيلية/الأمريكية WHOOPS! للمشروع:

أمثلة على صور مستحيلة من مجموعة البيانات WHOOPS! من الملاحظ كيف تجميع هذه الصور عناصر معقولة، وأن عدم احتمالها يجب أن يُحسب بناءً على تركيبة هذه الجوانب غير المتوافقة. مصدر: https://whoops-benchmark.github.io/
تتكون المجموعة من 500 صورة合thetic و 10,874 تعليقًا، مصممة خصيصًا لاختبار استدلال المنطق الشائع والفهم التركيبي لأنماط الذكاء الاصطناعي. تم إنشاؤها بالتعاون مع مصممين مكلفين بإنشاء صور تحديية عبر أنظمة صورة إلى نص مثل Midjourney و سلسلة DALL-E – مما يؤدي إلى سيناريوهات صعبة أو مستحيلة الالتقاط بشكل طبيعي:

مزيد من الأمثلة من مجموعة البيانات WHOOPS. مصدر: https://huggingface.co/datasets/nlphuji/whoops
يعمل النهج الجديد في ثلاث مراحل: أولًا، يتم تحفيز LVLM (具体ًا LLaVA-v1.6-mistral-7b) لتوليد عدة عبارات بسيطة – تسمى “حقائق ذرية” – تصف صورة. يتم توليد هذه العبارات باستخدام بحث شعاع متنوع، مما يضمن تنوعًا في الإخراج.

بحث شعاع متنوع ينتج مجموعة أفضل من خيارات العنوان من خلال تحسين هدف معزز بالتنوع. مصدر: https://arxiv.org/pdf/1610.02424
بعد ذلك، يتم مقارنة كل عبارة تم توليدها بشكل منهجي مع كل عبارة أخرى باستخدام نموذج استدلال لغوي طبيعي، الذي يخصص درجات تعكس ما إذا كانت العبارات تؤدي إلى، تتعارض، أو تكون محايدة تجاه بعضها البعض.
التناقضات تشير إلى هلوسات أو عناصر غير واقعية داخل الصورة:

مخطط لخط أنابيب الكشف.
أخيرًا، يتم تجميع درجات NLI الزوجية هذه في درجة “واقعية” واحدة تمثل التماسك العام للعبارات المولدة.
استكشف الباحثون أساليب تجميع مختلفة، مع أداء نهج يعتمد على التجميع بشكل أفضل. طبق المؤلفون خوارزمية كلمات المتوسطة لفصل درجات NLI الفردية إلى مجموعتين، وتم اختيار مركز المركز للمجموعة الأقل قيمة كعامل نهائي.
استخدام مجموعتين يتوافق مباشرة مع الطبيعة الثنائية لمهمة التصنيف، أي التمييز بين الصور الواقعية وغير الواقعية. المنطق مشابه لاختيار أدنى درجة بشكل عام؛ ومع ذلك، يسمح التجميع للمقياس بتمثيل متوسط التناقض عبر العديد من الحقائق، بدلاً من الاعتماد على مخالف واحد.
البيانات والاختبارات
اختبر الباحثون نظامهم على معيار اختبار WHOOPS!، باستخدام تقسيمات اختبار دورانية (أي التحقق الصليب). تم اختبار النماذج BLIP2 FlanT5-XL و BLIP2 FlanT5-XXL في التقسيمات، و BLIP2 FlanT5-XXL في تنسيق بدون إطلاق نار (أي بدون تدريب إضافي).
للمقارنة مع قاعدة خط الأساس التي تتبع الإرشادات، حث المؤلفون نماذج LVLMs بالجملة ‘هل هذه غير عادية؟ يرجى الشرح بشكل موجز مع جملة قصيرة’، والتي وجدت البحث السابق أنها فعالة لتحديد الصور غير الواقعية.
تم تقييم النماذج LLaVA 1.6 Mistral 7B و LLaVA 1.6 Vicuna 13B وحجمين (7/13 مليار معامل) من InstructBLIP.
كان إجراء الاختبار يركز على 102 زوجًا من الصور الواقعية وغير الواقعية (“غريبة”). يتكون كل زوج من صورة عادية و صورة مخالفة للمنطق الشائع.
قامت ثلاثة من المحققين البشريين بتعليم الصور، ووصلوا إلى إجماع بنسبة 92٪، مما يشير إلى اتفاقية قوية بين البشر حول ما يشكل “غرابة”.
تم قياس دقة أساليب التقييم من خلال قدرتهم على التمييز بشكل صحيح بين الصور الواقعية وغير الواقعية.
تم تقييم النظام باستخدام التحقق الصليب ثلاثي التجزئة، مع تحشيش البيانات بشكل عشوائي ببذرة محددة. قام المؤلفون بضبط الأوزان لدرجات الاشتقاق (العبارات التي تتوافق منطقيًا) ودرجات التناقض (العبارات التي تتعارض منطقيًا) أثناء التدريب، بينما تم تثبيت الدرجات “المحايدة” عند الصفر. تم حساب الدقة النهائية كمتوسط عبر جميع تقسيمات الاختبار.

مقارنة بين نماذج NLI وأساليب التجميع المختلفة على مجموعة فرعية من خمسة حقائق مولدة، مقاسة بالدقة.
بخصوص النتائج الأولية المذكورة أعلاه، تنص الورقة على:
‘طريقة [‘clust’] تبرز كأحد أفضل الأداء. هذا يعني أن تجميع جميع درجات التناقض مهم، وليس التركيز فقط على القيم المتطرفة. بالإضافة إلى ذلك، يتفوق نموذج NLI الأكبر (nli-deberta-v3-large) على جميع النماذج الأخرى لجميع أساليب التجميع، مما يشير إلى أنه يلتقط جوهر المشكلة بشكل أكثر فعالية.’
وجد المؤلفون أن الأوزان المثلى تفضل باستمرار التناقض على الاشتقاق، مما يشير إلى أن التناقضات كانت أكثر إفادة لتمييز الصور غير الواقعية. يتفوق نهجهم على جميع أساليب بدون إطلاق نار التي تم اختبارها، ويتقارب بشكل وثيق من أداء نموذج BLIP2 المُحسّن:

أداء مختلف الأساليب على معيار اختبار WHOOPS! تظهر الأساليب المُحسّنة (ft) في الجزء العلوي، بينما تظهر الأساليب بدون إطلاق نار (zs) في الأسفل. يشير حجم النموذج إلى عدد المعاملات، ويتم استخدام الدقة كعامل تقييم.
كما لاحظوا، بشكل غير متوقع، أن InstructBLIP أداء أفضل من نماذج LLaVA المماثلة مع نفس الإرشادات. بينما يعترفون بدقة GPT-4o الأعلى، يشدد النص على تفضيل المؤلفين لإظهار حلول عملية ومفتوحة المصدر، ويمكن أن يطالب بشكل معقول بالجدة في استغلال الهلوسة بشكل صريح كأداة تشخيصية.
الاستنتاج
然而، يعترف المؤلفون بدين مشروعهم لخروج FaithScore في عام 2024، وهو تعاون بين جامعة تكساس في دالاس وجامعة جونز هوبكينز.

تخطيط لطريقة تقييم FaithScore. أولًا، يتم تحديد العبارات الوصفية داخل إجابة LVLM المولدة. بعد ذلك، يتم تقسيم هذه العبارات إلى حقائق ذرية فردية. أخيرًا، يتم مقارنة الحقائق الذرية مع الصورة الإدخالية للتحقق من دقتها. مصدر: https://arxiv.org/pdf/2311.01477
يقيّم FaithScore إخلاص وصفات LVLM المولدة من خلال التحقق من الاتساق مع محتوى الصورة، بينما تستغل أساليب الورقة الجديدة هلوسات LVLM بشكل صريح لتحديد الصور غير الواقعية من خلال التناقضات في الحقائق المولدة باستخدام الاستدلال اللغوي الطبيعي.
العمل الجديد يعتمد بشكل طبيعي على غرائب نماذج اللغة الحالية، و على ميلها إلى الهلوسة. إذا أدى تطور النموذج إلى ظهور نموذج غير هلوسي تمامًا، فإن حتى المبادئ العامة للعمل الجديد لن تكون قابلة للتطبيق. ومع ذلك، يبقى هذا مصيرًا صعبًا.
نُشر لأول مرة يوم الثلاثاء، 25 مارس 2025












