زاوية Anderson
تعليم الذكاء الاصطناعي لتقديم انتقادات فيديو أفضل

في حين يمكن أن تكون نماذج اللغة والرؤية الكبيرة (LVLMs) أدوات مفيدة في تفسير بعض المقالات الأكثر تعقيداً أو التحديات في أدب الرؤية الحاسوبية، هناك مجال واحد حيث يتم تعطيلها: تحديد مزايا الجودة الذاتية لأي أمثلة فيديو التي ت συνοδεύاتها أوراق جديدة*.
هذا هو جانب حرج من الورقة المقدمة، منذ أن تهدف الأوراق العلمية غالباً إلى توليد الحماس من خلال النصوص أو الصور المثيرة – أو كليهما.
ولكن في حالة المشاريع التي تتضمن توليد الفيديو، يجب على المؤلفين عرض خرج الفيديو الفعلي أو المخاطرة برفض عملهم؛ ومن هذه العروض يصبح الفجوة بين المطالبات الجريئة والأداء في العالم الحقيقي أكثر وضوحاً.
قرأت الكتاب، لم أرى الفيلم
في الوقت الحالي، لن يشارك معظم نماذج اللغة الكبيرة الشائعة (LLMs) ونماذج اللغة والرؤية الكبيرة (LVLMs) في تحليل محتوى الفيديو بأي شكل من الأشكال، نوعياً أو خلاف ذلك. بدلاً من ذلك، يمكنهم فقط تحليل النصوص المرتبطة – وربما التعليقات والخيطات والنصوص الأخرى.
[التصنيف id=”attachment_214894″ align=”alignnone” width=”880″]
ومع ذلك، قد تخفي نموذج LLM عدم قدرته على مشاهدة الفيديوهات فعلاً، trừ إذا دعيت لذلك:
[التصنيف id=”attachment_214895″ align=”alignnone” width=”722″]
على الرغم من أن نماذج مثل ChatGPT-4o هي متعددة الوسائط، ويمكنها على الأقل تحليل الصور الفردية (مثل الإطار المستخرج من الفيديو، انظر الصورة أعلاه)، هناك بعض القضايا حتى مع هذا: أولاً، هناك قاعدة قليله لمنح مصداقية لرأي LLM النوعي، ليس أقلها لأن LLMs هي مستعدة لتحقيق “الرضا عن الناس” بدلاً من النقاش الصادق.
ثانياً، من المحتمل أن يكون العديد من مشاكل الفيديو المولدة له جانب زمني يتم فقدانه بالكامل في لقطة إطار – وبالتالي فإن فحص الإطارات الفردية لا يخدم أي غرض.
أخيراً، يمكن للنموذج LLM أن يقدم فقط حكماً قيمياً مزعوماً بناءً على المعرفة النصية المكتسبة، على سبيل المثال فيما يتعلق بالصور المزيفة أو تاريخ الفن: في这种 الحالة، يسمح للمعرفة المجال المُدرَّبة للنموذج LLM بمقارنة الجوانب البصرية للصورة مع التضمينات المكتسبة بناءً على الرؤية البشرية:
[التصنيف id=”attachment_214896″ align=”alignnone” width=”869″]
هذا لا يعني أن نموذج LLM لا يمكنه الحصول على المعلومات مباشرة من الفيديو؛ على سبيل المثال، مع استخدام أنظمة ذكاء اصطناعي تابعة مثل YOLO، يمكن لنموذج LLM تحديد الكائنات في الفيديو – أو يمكنه القيام بذلك مباشرةً، إذا تم تدريبه لعدد متوسط من الوظائف متعددة الوسائط.
ولكن الطريقة الوحيدة التي يمكن لنموذج LLM تقييم الفيديو بشكل ذاتي (أي، ‘لا يبدو حقيقياً لي’) هي من خلال تطبيق دالة فقدان مقترنة بقياس يعكس الرأي البشري جيداً، أو الذي يتم إعلامه مباشرة من قبل الرأي البشري.
دالات الفقدان هي أدوات رياضية تستخدم خلال التدريب لقياس مدى بعدها تنبؤات النموذج عن الإجابات الصحيحة. أنها توفر ملاحظات توجيهية لتوجيه تعلم النموذج: كلما زادت الخطأ، زادت الفقدان. مع تقدم التدريب، يعدل النموذج معاملاته لتقليل هذا الفقدان، مما يحسن تدريجياً قدرته على تقديم تنبؤات دقيقة.
تستخدم دالات الفقدان في كل من تنظيم تدريب النماذج وتحسين الخوارزميات المصممة لتقييم خرج الذكاء الاصطناعي (مثل تقييم المحتوى الصوري المحاكى من نموذج فيديو مولد).
رؤية مشروطة
أحد أكثر المقاييس/دالات الفقدان شعبية هو مسافة فرشي إنسيشن (FID)، الذي يقيم جودة الصور المولدة من خلال قياس التشابه بين توزيعها (الذي يعني هنا ‘كيف يتم توزيع الصور أو تجميعها بواسطة الميزات البصرية’) وتوزيع الصور الحقيقية.
على وجه التحديد، يحسب FID الفرق الإحصائي، باستخدام المتوسطات و الانحرافات، بين الميزات المستخرجة من كلا المجموعتين من الصور باستخدام (المُنتقد) إنسيشن في3 شبكة التصنيف. يُظهر درجة FID الأقل أن الصور المولدة تشبه الصور الحقيقية أكثر، مما يعني جودة بصرية أفضل وتنوعاً.
ومع ذلك، FID هو أساساً مقارن، ويمكن القول إنه ذاتي في الطبيعة. لتصحيح ذلك، يختلف نهج مسافة فرشي مشروطة (CFD، 2021) عن FID من خلال مقارنة الصور المولدة بالصور الحقيقية، وتقييم درجة بناءً على مدى توافق كلاهما مع شرط إضافي، مثل تصنيف فئة (مؤخراً موضوعي) أو صورة مدخلة.
بهذه الطريقة، يأخذ CFD في الاعتبار مدى دقة الصور في تلبية الشروط المقصودة، وليس فقط واقعيتها أو تنوعها بين نفسها.
[التصنيف id=”attachment_214897″ align=”alignnone” width=”722″]
يتبع CFD اتجاهاً حديثاً نحو خبز التفسير البشري النوعي في دالات الفقدان و الخوارزميات المقترنة. على الرغم من أن هذا النهج القائم على الإنسان يضمن أن الخوارزمية الناتجة لن تكون “بلا روح” أو آلياً، إلا أنه يقدم في الوقت نفسه عدداً من القضايا: إمكانية التحيز؛ عبء تحديث الخوارزمية بما يتماشى مع الممارسات الجديدة؛ وحقيقة أن هذا سيزيل إمكانية معايير مقارنة متسقة على مدى فترة من السنوات عبر المشاريع؛ والقيود المالية (سيكون عدد أقل من المساهمين البشريين يجعل القرارات أكثر موثوقية، بينما قد يمنع عدد أكبر من التحديثات المفيدة بسبب التكلفة).
cFreD
هذا يأتي بنا إلى ورقة جديدة من الولايات المتحدة التي تقدم بشكل واضح مسافة فرشي مشروطة (cFreD)، وهي نهج جديد في CFD مصمم ليعكس تفضيلات الإنسان بشكل أفضل من خلال تقييم الجودة البصرية وتناغم الصورة والنص
[التصنيف id=”attachment_214900″ align=”alignnone” width=”898″]
يجادل المؤلفون بأن الأساليب التقييمية الحالية لتركيب الصور والنصوص، مثل درجة الإنسيشن (IS) و FID، لا تتوافق جيداً مع الحكم البشري لأنها تقيس فقط جودة الصورة دون مراعاة مدى مطابقتها للنصوص:
‘على سبيل المثال، ضع في اعتبارك قاعدة بيانات تحتوي على صورة لكلب وواحدة لقط، كل واحدة منها مقترنة بطلبها المقابل. نموذج تركيب الصور والنصوص المثالي الذي يخطئ في مطابقتهما (أي يولد قطاً لطلب كلب وvice versa) سيتحقق من درجة FID قريبة من الصفر لأن التوزيع العام للكلاب والقطط يتم الحفاظ عليه، على الرغم من عدم مطابقتهما للنصوص المقصودة. ‘
‘نحن نظهر أن cFreD يلتقط تقييم جودة الصورة بشكل أفضل ويتوافق مع تفضيلات الإنسان، وينتج عنه تحسين في التطابق مع تفضيلات الإنسان.’
[التصنيف id=”attachment_214901″ align=”alignnone” width=”598″]
المفهوم والطريقة
يلاحظ المؤلفون أن المعيار الحالي لتقييم نماذج الصور والنصوص يتضمن جمع بيانات تفضيل الإنسان من خلال مقارنات جماعية، مشابهة للطرق المستخدمة لنماذج اللغة الكبيرة (مثل LMSys Arena).
على سبيل المثال، يستخدم PartiPrompts Arena 1600 تحفيز إنجليزية، ويقدم للمشاركين أزواجاً من الصور من نماذج مختلفة، ويسألهم عن اختيار صورة مفضلة.
وبالمثل، يستخدم Text-to-Image Arena Leaderboard مقارنات المستخدم لنتائج النماذج لتوليد تصنيفات عبر نقاط ELO.
ومع ذلك، فإن جمع بيانات التقييم البشري هذا مكلف وبطيء، مما دفع بعض المنصات – مثل PartiPrompts Arena – إلى التوقف عن التحديثات تماماً.
[التصنيف id=”attachment_214902″ align=”alignnone” width=”858″]
على الرغم من وجود طرق بديلة مدربة على بيانات تفضيل الإنسان، فإن فعاليتها لتقييم نماذج مستقبلية لا تزال غير مؤكدة، لأن تفضيلات الإنسان تتطور باستمرار. وبالتالي، فإن المقاييس الآلية مثل FID و CLIPScore ومقياس المؤلفين المقترح cFreD يبدو أنها ستبقى أدوات تقييم حاسمة.
يفرض المؤلفون افتراضاً أن الصور الحقيقية والمنشأة الموجودة على الصور مشروطة تتبع توزيعات غاوسية، كل واحدة منها محددة بمعاملات مشروطة ومتغيرات. يقيس cFreD المسافة الفرشية المتوقعة عبر التحفيزات بين هذه التوزيعات المشروطة. يمكن صياغة هذا بشكل مباشر من حيث الإحصاءات المشروطة أو عن طريق الجمع بين الإحصاءات غير المشروطة والمتغيرات التباينية المتعلقة بالتحفيز.
من خلال دمج التحفيز بهذه الطريقة، يمكن ل cFreD تقييم واقعية الصور وتماسكها مع النص المدخل.
البيانات والاختبارات
为了 تقييم مدى توافق cFreD مع تفضيلات الإنسان، استخدم المؤلفون تصنيفات الصور من نماذج متعددة محفزة بنفس النص. استندت تقييمهم إلى مصدرين: مجموعة اختبار تقييم تفضيل الإنسان v2 (HPDv2)، التي تحتوي على تسعة صور منشأة وواحدة من صورة COCO الأصلية لكل تحفيز؛ ومجموعة PartiPrompts Arena، التي تحتوي على مخرجات من أربعة نماذج عبر 1600 تحفيز.
جمع المؤلفون نقاط البيانات المبعثرة في Arena في مجموعة بيانات واحدة؛ في الحالات التي لم تصنف الصورة الحقيقية في أعلى تصنيف في التقييمات البشرية، استخدموا الصورة الأعلى تصنيفاً كمرجع.
لاختبار نماذج أحدث، عينوا 1000 تحفيز من مجموعات التدريب والتحقق من COCO، مع التأكد من عدم وجود أي تكرار مع HPDv2، وأنشأوا صوراً باستخدام تسعة نماذج من لوحة القيادة في Arena. خدمت الصور الأصلية في COCO كمراجع في هذه الجزء من التقييم.
تم تقييم نهج cFreD من خلال أربعة مقاييس إحصائية: FID؛ FDDINOv2؛ CLIPScore؛ و CMMD. كما تم تقييمه ضد أربعة مقاييس متعلمة على بيانات تفضيل الإنسان: تقييم الجمال؛ مكافأة الصورة؛ HPSv2؛ و MPS.
قيم المؤلفون التطابق مع الحكم البشري من منظور التصنيف والتصنيف:对于 كل مقياس، تم الإبلاغ عن نقاط النموذج وتم احتساب التصنيفات لاتساقها مع نتائج التقييم البشري، مع استخدام cFreD DINOv2-G/14 لترميز الصور و OpenCLIP ConvNext-B Text Encoder لترميز النص†.
في العمل السابق حول تعلم تفضيلات الإنسان، تم استخدام دقة التصنيف لكل عنصر لقياس الأداء، والتي ت计算 دقة التصنيف لكل زوج صورة-نص قبل 평균 النتائج.
بدلاً من ذلك، قيم المؤلفون cFreD باستخدام دقة التصنيف العالمية، التي تقيم أداء التصنيف الإجمالي عبر مجموعة البيانات الكاملة؛对于 المقاييس الإحصائية، تم اشتقاق التصنيفات مباشرة من النقاط الخام؛ و对于 المقاييس المُدرَّبة على تفضيلات الإنسان، تم أولاً متوسط التصنيفات المخصصة لكل نموذج عبر جميع العينات، ثم تم تحديد التصنيف النهائي من هذه المتوسطات.
تم استخدام عشرة إطارات في الاختبارات الأولية: GLIDE؛ COCO؛ FuseDream؛ DALLE 2؛ VQGAN+CLIP؛ CogView2؛ Stable Diffusion V1.4؛ VQ-Diffusion؛ Stable Diffusion V2.0؛ و LAFITE.
[التصنيف id=”attachment_214905″ align=”alignnone” width=”964″]
من بين النتائج الأولية، يعلق المؤلفون:
‘يحقق cFreD أعلى مطابقة مع تفضيلات الإنسان، ويصل إلى ارتباط يبلغ 0.97. من بين المقاييس الإحصائية، يصل cFreD إلى أعلى ارتباط، ويتساوى مع HPSv2 (0.94)، وهو نموذج تم تدريبه صراحة على تفضيلات الإنسان. نظراً لأن HPSv2 تم تدريبه على مجموعة تدريب HPSv2، التي تتضمن أربعة نماذج من مجموعة الاختبار، واستخدم نفس المُحكِّمين، فهو يضمن بالفعل تحيزات تفضيل الإنسان الخاصة بالموقف.
‘على العكس من ذلك، يحقق cFreD ارتباطاً مماثلاً أو أعلى مع تقييم الإنسان دون أي تدريب على تفضيلات الإنسان. ‘
‘هذه النتائج تظهر أن cFreD يوفر تصنيفات أكثر موثوقية عبر نماذج متنوعة مقارنة بالمقاييس الآلية والمقاييس المُدرَّبة على تفضيلات الإنسان.’
من بين جميع المقاييس المُقيمة، حقق cFreD أعلى دقة تصنيف (91.1٪)، مما يدل – وفقاً للمؤلفين – على مطابقة قوية مع الأحكام البشرية.
تلاه HPSv2 بنسبة 88.9٪، في حين أن FID و FDDINOv2 أنتجتا درجات تنافسية بلغت 86.7٪. على الرغم من أن المقاييس المُدرَّبة على تفضيلات الإنسان تمت مطابقتها جيداً مع التقييمات البشرية، أثبت cFreD أنه الأكثر متانة وموثوقية بشكل عام.
فيما يلي نتائج الجولة الثانية من الاختبارات، هذه المرة على منصة PartiPrompts Arena، باستخدام SDXL؛ Kandinsky 2؛ Würstchen؛ و Karlo V1.0.
[التصنيف id=”attachment_214906″ align=”alignnone” width=”873″]
هنا يعلق المؤلفون:
‘من بين المقاييس الإحصائية، يحقق cFreD أعلى ارتباط مع التقييمات البشرية (0.73)، مع تحقيق FID و FDDINOv2 كلاهما ارتباطاً يبلغ 0.70. في المقابل، يُظهر مقياس CLIP ارتباطاً منخفضاً جداً مع الأحكام البشرية (0.12). ‘
‘في الفئة المُدرَّبة على تفضيلات الإنسان، يصل HPSv2 إلى أقوى مطابقة، ويحقق أعلى ارتباط (0.83)، يليها مكافأة الصورة (0.81) و MPS (0.65). هذه النتائج تبرز أن cFreD هو مقياس آلي قوي، في حين أن HPSv2 يبرز كأفضل في التقاط اتجاهات التقييم البشري في منصة PartiPrompts Arena.’
أخيراً، قام المؤلفون بتقييم على مجموعة بيانات COCO باستخدام تسعة نماذج توليدية حديثة: FLUX.1[dev]؛ Playgroundv2.5؛ Janus Pro؛ ومتغيرات Stable Diffusion SDv3.5-L Turbo و 3.5-L و 3-M و SDXL و 2.1 و 1.5.
تم الحصول على تصنيفات تفضيل الإنسان من لوحة القيادة للصورة إلى الصورة، وتم تقديمها كدرجات ELO:
[التصنيف id=”attachment_214907″ align=”alignnone” width=”897″]
فيما يتعلق بهذه الجولة، يعلق الباحثون:
‘من بين المقاييس الإحصائية (FID و FDDINOv2 و CLIP و CMMD و مقياسنا المقترح cFreD)، فقط cFreD يُظهر ارتباطاً قوياً مع تفضيلات الإنسان، ويصل إلى ارتباط يبلغ 0.33 و دقة تصنيف غير تافهة يبلغ 66.67٪. ‘هذا النتيجة يضع cFreD كثالث أكثر المقاييس مطابقة بشكل عام، متجاوزاً فقط المقاييس المُدرَّبة على تفضيلات الإنسان، مكافأة الصورة و HPSv2 و MPS. ‘
‘على العكس من ذلك، جميع المقاييس الإحصائية الأخرى تُظهر مطابقة أضعف مع تصنيفات ELO، ونتيجة لذلك، عكست التصنيفات، مما أدى إلى دقة تصنيف أقل من 0.5. ‘
‘هذه النتائج تبرز أن cFreD هو حساس لكل من الواقعية البصرية وتماسك النص، مما يعزز قيمته كبديل عملي وآلي لتقويم توليد الصور والنصوص.’
كما قام المؤلفون باختبار Inception V3 كمنصة أساسية، مشيرين إلى شيوعها في الأدبيات، ووجدوا أن InceptionV3 أداء جيداً، لكنه كان أقل من المنصات القائمة على المحولات مثل DINOv2-L/14 و ViT-L/16، والتي كانت أكثر مطابقة لتصنيفات الإنسان بشكل متسق – وهم يجادلون بأن هذا يدعم استبدال InceptionV3 في إعدادات التقييم الحديثة.
[التصنيف id=”attachment_214908″ align=”alignnone” width=”619″]
الاستنتاج
من الواضح أن حلول الدائرة البشرية هي النهج الأمثل لتطوير المقاييس ودالات الفقدان، ومع ذلك، فإن نطاق وتكرار التحديثات اللازمة لهذه الأنظمة سيظل غير عملي – ربما حتى وقت متأخر، عندما يتم تشجيع المشاركة العامة في التقييمات على نطاق واسع؛ أو كما هو الحال مع CAPTCHAs، يتم فرضه.
لا تزال مصداقية نظام المؤلفين الجديد تعتمد على مطابقته مع الحكم البشري، على الرغم من أنه يعتمد على بيانات تفضيل الإنسان (من الواضح، لأن بدون这种 المعايير، فإن الادعاء بأن cFreD يعكس التقييم البشري سيكون غير قابل للتحقق).
يمكن القول إن تجسيد معاييرنا الحالية ل “الواقعية” في الإخراج التوليدي في دالة مقياس يمكن أن يكون خطأ على المدى الطويل، لأن تعريفنا لهذا المفهوم يتعرض حالياً لهجوم من موجة جديدة من أنظمة الذكاء الاصطناعي التوليدية، ومن المقرر أن يخضع لمراجعات متكررة ومهمة.
* في هذه النقطة، كنت سأدرج مثالًا توضيحيًا لفيديو، ربما من تقديم أكاديمي حديث؛ لكن ذلك سيكون قاسياً – أي شخص قضى أكثر من 10-15 دقيقة في تصفح خرج الذكاء الاصطناعي التوليدي على Arxiv سيكون قد واجه بالفعل فيديوهات إضافية تُظهر جودة موضوعية سيئة تشير إلى أن الورقة المقترنة لن يتم الترحيب بها كورقة رائدة.
† تم استخدام ما مجموعه 46 نموذجًا لترميز الصور في التجارب، لم يتم النظر في جميعها في النتائج المرسومة. يرجى الرجوع إلى الملحق الورقي للحصول على قائمة كاملة؛ تلك المذكورة في الجداول والرسومات تم فهرستها.
نشر لأول مرة يوم الثلاثاء، 1 أبريل 2025


