زاوية أندرسون

تقليل هلوسات صور الذكاء الاصطناعي عن طريق المبالغة فيها

تم النشر 30 سبتمبر 2025

مارتن أندرسون

سوامي يرش تنينًا صغيرًا مصابًا بالهلوسة بمبيد حشرات RAID. SDXL وFlux.1D وFlux Kontext عبر Krita.

غالبًا ما تُهلوس نماذج الرؤية المُصممة على غرار ChatGPT بعناصر لا تنتمي إلى الصورة. تُقلل طريقة جديدة من هذه الأخطاء من خلال عرض نسخ مُبالغ فيها من هلوسات النموذج، بناءً على التعليقات التوضيحية، ثم مطالبته بالمحاولة مرة أخرى. لا يتطلب هذا النهج إعادة تدريب أو الحاجة إلى بيانات إضافية، ويمكن تطبيقه على مجموعة واسعة من النماذج وأنواعها.

يقدم منشور جديد من الصين وجهة نظر مثيرة للاهتمام حول المشكلة المستمرة والمزعجة المتمثلة في الهلوسة في الصور ومقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي - العناصر التي من الواضح أنه لا ينبغي أن تكون في الصورة، بناءً على طلب المستخدم ومدخلاته.

في الأساس، يأخذ النظام صورة ويسمح للنموذج بوصفها، كالمعتاد؛ ثم يحول هذا التعليق إلى صورة جديدة باستخدام نموذج تحويل النص إلى صورة، ستكون أي عناصر أو تفاصيل إضافية في هذه الصورة الثانية تمثيلات مباشرة لهلوسات النموذج الأولية. بعد ذلك، بمقارنة الصورة الأصلية بالصورة المُولّدة، يُوجّه النظام النموذج بلطف بعيدًا عن تلك الأخطاء في المرة التالية التي يُحاول فيها:

توضيح لكيفية تحديد الطريقة الجديدة للهلوسة في تعليقات الصور وتقليلها. يصف النموذج التقليدي طيورًا غير موجودة في الصورة الأصلية، مما يؤدي إلى إعادة بناء صورة تُضيفها. هذه الأخطاء مُعلَّمة باللون الأحمر. في المقابل، تتجنب الطريقة المقترحة هذه التفاصيل المُفتعلة مع الحفاظ على دقة وسلاسة التعليق. المصدر: https://arxiv.org/pdf/2509.21997

تبدأ الطريقة بإظهار صور حقيقية للنموذج وطلب وصفها، بما في ذلك بعض الأوصاف التي تتميز بالأشياء أو التفاصيل التي غير موجود فعلياتُستخدم هذه التعليقات المُصطنعة بعد ذلك لتوليد صور مُصطنعة تُسهّل اكتشاف الأخطاء. بمقارنة الصور الحقيقية بالصور المُولّدة، يتعرّف النظام على الأنماط الداخلية في النموذج التي تُنتج محتوى مُصطنعًا.

بمجرد تحديد أنماط الأخطاء هذه، يُمكن تخزينها واستخدامها لاحقًا. عند تزويد النموذج بصورة جديدة، يُعدّل النظام إشاراته الداخلية أثناء الترجمة. دفعه بعيدًا عن الأنماط المعروفة التي تسبب الهلوسةيعمل هذا في عملية واحدة ولا يتطلب بيانات إضافية أو إعادة تدريب أو إنشاء أي صورة جديدة في وقت الاختبار.

الشبكة المتشابكة

في المثال الموضح أعلاه، من الورقة، يمكننا أن نرى أن تشابك من المرجح أن يكون مسؤولاً عن تجميل "الطيور" في الصورة المدخلة، على الرغم من أن الصورة الأولى تبدو وكأنها لا تحتوي على أي طيور.

يحدث التشابك عندما يُصرّ نموذج على ربط مفاهيم مُحددة بمفاهيم أخرى، لمجرد أن المفهومين (أو أكثر) يميلان إلى الظهور معًا بشكل متكرر في توزيع البيانات الأصلي الذي دُرّب عليه النموذج. في هذه الحالة، قد يكون النموذج قد رأى العديد من صور... طائرات+طيور، مما يؤدي إلى ارتباط لا ينطبق على الصورة المعينة المعنية، ولكن مع ذلك يتطفل على التسمية التوضيحية المستمدة.

على الرغم من أن التشابك يمكن التخفيف منه عن طريق إيقاف التدريب في وقت مبكر (وهو ما يجعل النموذج مرنًا وقابلًا للتكيف بشكل عام)، فإن هذا يقلل أيضًا من تفاصيل ودقة جميع المفاهيم المدربة، مما يترك مدرب النموذج مع المعضلة الدائمة: إنشاء نموذج مرن للغاية وفك التشابك؛ أو إنشاء نموذج أكثر قدرة على الإنتاج، ولكن أيضًا أكثر عرضة لإنتاج الهلوسة "المرتبطة"؟

إذا كانت جودة الترجمة والاهتمام بالتفاصيل في معالجة البيانات الأصلية للنموذج التوليدي أفضل مما تسمح به الخدمات اللوجستية عادة، سيتم تفصيل التعليقات التوضيحية لجميع الصور المصدرية كل شيء في كل صورة، بحيث يمكن للنموذج المدرب تخصيص إدخالات منفصلة وغير متشابكة لهم في مساحة كامنة.

كما هو الحال، فإن الممارسة الأنانية المتمثلة في ترجمة محركات البحث، مقترنة بحقيقة أن مخصص كشط الويب على نطاق واسع بقايا أفضل مصدر لتدريب النماذج التوليدية القوية حقًا، يعني أن تعليقات الصور تميل إلى أن تكون أقل بكثير من هذا المعيار:

توضيح يوضح كيف أن ضعف التسميات التوضيحية يحد من فائدة صور LAION لنماذج التدريب مثل Stable Diffusion. العديد من تسميات النصوص سطحية أو غامضة أو مُحسّنة لتحسين محركات البحث (SEO) بدلاً من وصف دقيق، مما يُصعّب على النموذج تعلم المفاهيم البصرية الدقيقة مثل ملامح الوجه. (المصدر الأصلي كان https://rom1504.github.io/، لم يعد موجودًا الآن).

لذلك، بما أنه من غير المرجح أن يكون الحل الأساسي عمليًا على الإطلاق، فقد أصبح الحد من هلوسات LLM/VLM من خلال الحلول البديلة والتسويات الآن فرعًا قويًا في الأدبيات.

ويقول المؤلفون إن التقنية الصينية الجديدة التي تم الكشف عنها هذا الأسبوع تم اختبارها عبر مجموعة متنوعة من الهياكل المعمارية في ظروف مختلفة، ويمكن أن تشير إلى طريقة مفيدة للحد من "تلوث الهلوسة".

يقولون:

'تُظهر التجارب المكثفة عبر معايير متعددة أن طريقتنا تقلل بشكل كبير من الهلوسة على مستوى الكائن والسمة والعلاقة مع الحفاظ إلى حد كبير على التذكر والثراء في التسمية التوضيحية.'

استخدم ورقة جديدة بعنوان كشف الهلوسة لقمعها: تحرير تمثيل VLMs باستخدام المراسي التوليدية، ويأتي هذا البحث من ثلاثة باحثين من جامعة العلوم والتكنولوجيا في الصين، وجامعة نانجينغ.

الأسلوب

قام المؤلفون بتصميم خط أنابيب متكامل، كما هو موضح أدناه، مصمم لكشف وقمع الهلوسة في تعليقات الصور:

رسم توضيحي لخط الأنابيب الكامل. يُولّد نموذج الرؤية واللغة أولاً تعليقًا توضيحيًا من الصورة المُدخلة، والذي قد يتضمن محتوى مُهلوسًا. ثم يُستخدم هذا التعليق التوضيحي لإنتاج صورة مُعاد بناؤها عبر نموذج تحويل النص إلى صورة، مما يُسهّل اكتشاف أي هلوسات. تُستخرج التضمينات من كلٍّ من الصور الأصلية والمُعاد بناؤها وتُستخدم لتوجيه التعديلات داخل وحدة فك التشفير، مما يُساعد النموذج على إخفاء تفاصيل الهلوسة مع الحفاظ على جودة التعليق التوضيحي.

انطلاقًا من صورة مُدخلة حقيقية، يُولّد نموذج الرؤية واللغة تعليقًا وصفيًا قد يحتوي على أشياء أو علاقات مُبتكرة. يُغذّى هذا التعليق بعد ذلك إلى مُولّد نص إلى صورة لإنشاء صورة مُعاد بناؤها تُظهر بالضبط ما يصفه التعليق. تُضفي مُقارنة هذه الصورة المُعاد بناؤها بالصورة الأصلية وضوحًا ووضوحًا للمحتوى المُصنّع، مُحوّلةً الأخطاء الدقيقة في النص إلى اختلافات واضحة يُمكن للنظام استهدافها وتقليلها.

لتوجيه النموذج بعيدًا عن "اختراع" التفاصيل، يقارن النظام نسختين من الصورة نفسها: الأصلية ونسخة مُعاد بناؤها بناءً على التسمية التوضيحية. تُحوَّل كل صورة إلى صورة مدمجة. تضمين الذي يلتقط محتواه.

تُعدّ الصورة الأصلية مرجعًا موثوقًا، بينما تُبرز الصورة المُعاد بناؤها مواضع تسلل الهلوسة. بتعديل تمثيلاتها الداخلية لتقترب من الصورة الأصلية وتبتعد عن الصورة المُعاد بناؤها، يتعلم النموذج تصحيح نفسه تلقائيًا. ولأن هذه العملية لا تعتمد على قواعد مُعدّلة يدويًا أو بيانات خارجية، فإنها تظلّ مُتكاملة تمامًا. الإشراف الذاتي.

تقول الورقة:

يصعب اكتشاف الهلوسة في نماذج MLLM بطبيعتها نظرًا لصياغتها اللغوية السليمة، وغالبًا ما يصعب تمييزها عن الأوصاف الدقيقة على مستوى النص. ولا يكمن التناقض في معقولية اللغة، بل في عدم توافقها مع الأدلة البصرية، وهو ما لا يتأثر به النموذج نفسه عادةً.

'ولمعالجة هذا الأمر، قدمنا آلية التعرض للهلوسة التي تستفيد من إعادة البناء التوليدي لتحويل التناقضات الضمنية إلى إشارات واضحة وقابلة للملاحظة.'

بالنظر إلى صورة الإدخال وعنوانها التوضيحي، يستخدم النظام FLUX.1-dev نموذج تحويل النص إلى صورة لإعادة إنشاء صورة من التسمية التوضيحية فقط. تميل هذه الصورة المُعاد إنشاؤها إلى المبالغة في معنى التسمية التوضيحية، مما يجعل أي تفاصيل خاطئة أكثر وضوحًا. تُعدّ هذه الأخطاء المُضخّمة بمثابة إشارات مفيدة تُساعد النموذج على إدراك أخطائه وتصحيحها.

لاختبار نهجهم، أضاف المؤلفون هلوسات إلى التعليقات التوضيحية، واستخدموا نموذج تحويل النص إلى صورة لتوليد صور مُعاد بناؤها. ثم أُعيدت ترجمة هذه الصور بواسطة لافا، والتشابه الدلالي بين التعليقات الأصلية والمهلوسة التي تم تقييمها:

توضيح لكيفية إظهار آلية تضخيم الهلوسة للأخطاء الدقيقة. تُظهر كل نقطة التشابه بين تعليقات الصور الأصلية والمُعاد بناؤها لزوج واحد من التعليقات. يُمثل الخط البرتقالي التشابه المُقاس مباشرةً بين التعليقات الأصلية والمُعاد بناؤها، والذي يبقى مرتفعًا ويخفي الأخطاء الصغيرة؛ بينما يُمثل الخط الأزرق التشابه بعد إعادة البناء، والذي ينخفض بشكل حاد، مُظهرًا أن العملية تُحوّل الهلوسة الخفية إلى علامات دلالية واضحة يُمكن اكتشافها وتصحيحها.

ينخفض التشابه بشكل حاد بعد إعادة البناء، مما يدل على أن العملية تجعل الأخطاء الدقيقة أكثر قابلية للاكتشاف.

البيانات والاختبارات

تطلب التحقق من فعالية الطريقة الجديدة استخدام ثلاثة معايير مناسبة: تقييم الهلوسة التوضيحية مع أهمية الصورة (كرسي); تقييم MLLM معيار (MMA)؛ و تقييم فحص الكائنات القائم على التجميع (بابا الفاتيكان).

من ورقة إصدار CHAIR: أمثلة لأشياء مُتخيلة تم إنشاؤها بواسطة نظامي ترجمة رائدين، TopDown وNBT، حيث يبتكر كل نموذج عناصر بصرية غير موجودة فعليًا في الصورة، مثل أجهزة الكمبيوتر المحمولة، أو الأحواض، أو ألواح التزلج. المصدر: https://arxiv.org/pdf/1809.02156

من ورقة إصدار CHAIR: أمثلة على الأشياء المهلوسة التي تم إنشاؤها بواسطة نظامين رائدين للترجمة، TopDown و NBT، حيث يخترع كل نموذج عناصر مرئية غير موجودة بالفعل في الصورة، مثل أجهزة الكمبيوتر المحمولة أو الأحواض أو ألواح التزلج على الأمواج. المصدر: https://arxiv.org/pdf/1809.02156

المقاييس القياسية مثل معدل الهلوسة or تذكر قد يكون مُضلِّلاً، إذ قد يتجنب النموذج الهلوسة بمجرد إنتاج تعليقات قصيرة أو غامضة. ولتفسير التوازن بين التذكر والهلوسة، يُستخدم مقياس مُركَّب يُسمى الهلوسة والتذكر تم استخدام (HAR@β)، الذي يسجل التعليقات على أساس الدقة والاكتمال، والذي يسمح بتعديل التوازن اعتمادًا على ما إذا كان تجنب الأخطاء أو تضمين المزيد من التفاصيل أكثر أهمية.

تم استخدام POPE لتقييم الهلوسة المتعلقة بالأشياء الحساسة للسياق، وMME لتقييم الهلوسة على مستوى السمة، مع تأطير كليهما كمهام حكم بنعم أو لا.

تم إجراء التجارب عبر مجموعات بيانات تمثيلية متنوعة، باستخدام نموذج Flux المذكور أعلاه و LLaVA-v1.5-7B متغير. تم استخدام مجموعات البيانات مايكروسوفت كوكو; أ-OKVQA، و GQA.

تم إجراء التحرير الكامن للطبقة الثانية من النماذج، وفقًا لـ أعمال سابقة ذات صلةفي حين كانت المعلمات الفائقة ودرجة الحرارة متسقة في جميع النماذج.

النتائج الأولية لـ CHAIR معروضة أدناه*:

الأداء على معيار CHAIR للتخفيف من الهلوسة، تم تقييمه باستخدام مقاييس متعددة.

ومن هذه النتائج علق المؤلفون:

"[طريقتنا تتفوق باستمرار على خطوط الأساس الأخرى في كل من CHAIR_S والرئيس_I[*]، مما يُظهر فاعليته الفائقة في قمع الهلوسة. في الوقت نفسه، مع أن جميع الطرق تقريبًا تُقلل حتمًا من التذكر مع قمع الهلوسة، مما يعكس توازنًا بين الدقة والمعلوماتية، إلا أن نهجنا يُحقق أقل انخفاض.

يُظهر هذا أن طريقتنا تلتقط نطاقًا واسعًا من الأجسام الحقيقية. باستخدام مقياس HAR@β، تحقق طريقتنا أعلى درجة، مما يُبرز قدرتها على تقليل الهلوسة مع الحفاظ على التغطية.

يعزو الباحثون هذه النتائج القوية إلى نظام الإشراف المزدوج، حيث تم تعزيز وضوح الدلالات من الصورة الأصلية، مع حجب الإشارات المضللة من الصورة المُعاد بناؤها. ولأن التعديل استهدف فقط الاتجاه المرتبط بالهلوسة، فقد تُرك باقي التمثيل سليمًا، مما سمح للنظام بتصحيح الأخطاء دون المساس بالتفاصيل أو المعلومات.

مقارنة الأداء على معيار POPE تحت تكوينات ومجموعات بيانات مختلفة.

وفيما يتعلق بالنتائج المتعلقة بـ POPE، والتي تظهر في جدول النتائج أعلاه، تؤكد الورقة البحثية ما يلي:

يُلاحظ أن طريقتنا تُحقق باستمرار أفضل أداء في جميع الظروف. والجدير بالذكر أن طريقتنا قادرة على تحقيق دقة تصل إلى +5.95% ونسبة +6.85% من نتيجة F1 في المتوسط، متفوقةً بذلك على الطرق الأخرى التي لا تتطلب تدريبًا بفارق كبير.

'لذلك، فإن هذه النتائج توضح أن طريقتنا توفر حلاً موثوقًا وقابلًا للتعميم عبر مستويات مختلفة من الصعوبة.'

من الجولة الاختبارية الثالثة، مقارنات الأداء على MME.

كان الاختبار الرئيسي النهائي على MME، والنتائج الموضحة أعلاه. مع ذلك، ومن بين إغفالات أخرى، ذُكرت طريقة "OPERA"، وهي غير مُعرّفة في أي مكان في الورقة الرئيسية أو الملحق. مع أن المؤلفين يدّعون تحقيق أداء قوي على MME، إلا أنه في غياب تعريفات كافية للطرق، ربما يُفضّل ترك قسم النتائج عند هذه النقطة.

رسم توضيحي من معيار MME باستخدام LLaVA-v1.5-7B، يوضح كيف أن النموذج الأساسي أنتج إجابة وهمية بينما أعطت الطريقة المقترحة الاستجابة الصحيحة، مع جعل الصورة المعاد بناؤها الهلوسة أكثر وضوحًا.

رسم توضيحي من معيار MME باستخدام LLaVA-v1.5-7B، يوضح كيف أن النموذج الأساسي ينتج إجابة وهمية بينما أعطت الطريقة المقترحة الاستجابة الصحيحة، مع جعل الصورة المعاد بناؤها الهلوسة أكثر وضوحًا.

خاتمة

ورغم أن هذه الورقة البحثية متسرعة بشكل واضح، وتعاني من الافتقار إلى الهيكل والتركيز والوضوح، وهو ما أصبح واضحا بشكل متزايد في الأدبيات على مدى الأشهر الاثني عشر الماضية (وربما لا يرتبط هذا الأمر بالاستخدام المتزايد بسرعة للذكاء الاصطناعي في البحث الأكاديمي)، فإن الآلية المركزية المقدمة تظل بارعة.

في حين أن هذا النهج الشامل لا يتطلب إعادة التدريب، ويبدو قابلاً للتطبيق عبر مجموعة من البنيات التحتية، فقد كان من المفيد رؤية المزيد من المرشحين للاختبار؛ ويجب أيضًا أن نأخذ في الاعتبار أن النظام البيني من هذا النوع سوف يقدم على الأقل زمن انتقال، وبعض متطلبات الطاقة الإضافية - وهي ليست قضية بسيطة على نطاق واسع.

* على نحو غير تقليدي، يعرض الجزء الرئيسي من هذه الورقة البحثية نتائج بعناوين مُفصّلة فقط في الملحق، وليس في الورقة الرئيسية - وهي عادة سيئة متزايدة في الأدبيات، إذ يسعى الباحثون إلى حصر الأطروحة الرئيسية في 8-9 صفحات، حتى عندما لا تسمح المادة بذلك. على أي حال، استند معيار CHAIR، المُستخدم لتقييم هلوسة الأشياء في التعليقات التوضيحية، إلى مجموعة فرعية من MSCOCO مكونة من 500 صورة من عمل سابق. استُخدم نموذجان: CHAIR_s، قياس مدى تكرار ظهور الهلوسة في أي تعليق معين؛ والرئيس_I، قياس عدد الأشياء المذكورة التي تم الهلوسة بها. HAR@β ، الذي تم تقديمه في الورقة الرئيسية، تم تعريفه على أنه F_β- مزيج من قمع الهلوسة واستدعاء الأشياء.

نُشرت لأول مرة يوم الثلاثاء 30 سبتمبر 2025

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai