Anderson का एंगल

एआई को बेहतर वीडियो समीक्षा देने के लिए सिखाना

Published April 1, 2025

Updated April 26, 2026

Martin Anderson

Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

जबकि बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) कुछ अधिक जटिल या चुनौतीपूर्ण प्रस्तुतियों की व्याख्या में उपयोगी सहायक हो सकते हैं, वहाँ एक क्षेत्र है जहाँ वे सीमित हैं: किसी भी वीडियो उदाहरणों की योग्यता और विषयगत गुणवत्ता का निर्धारण करना जो नए शोध पत्रों के साथ आते हैं।

यह एक महत्वपूर्ण पहलू है क्योंकि वैज्ञानिक पत्र अक्सर प्रभावशाली पाठ या दृश्यों के माध्यम से उत्साह पैदा करने का लक्ष्य रखते हैं – या दोनों।

लेकिन वीडियो संश्लेषण से संबंधित परियोजनाओं के मामले में, लेखकों को वास्तविक वीडियो आउटपुट दिखाना होगा या जोखिम होगा कि उनका काम खारिज कर दिया जाएगा; और यह उन प्रदर्शनों में है कि बोल्ड दावों और वास्तविक विश्व प्रदर्शन के बीच का अंतर सबसे अधिक बार स्पष्ट होता है।

मैंने पुस्तक पढ़ी, फिल्म नहीं देखी

वर्तमान में, अधिकांश लोकप्रिय एपीआई-आधारित बड़े भाषा मॉडल (एलएलएम) और बड़े दृष्टि-भाषा मॉडल (एलवीएलएम) वीडियो सामग्री का सीधे विश्लेषण नहीं करेंगे किसी भी तरह से, गुणात्मक या अन्यथा। इसके बजाय, वे केवल संबंधित प्रतिलिपि – और, शायद, टिप्पणी थ्रेड और अन्य सख्ती से पाठ-आधारित सहायक सामग्री का विश्लेषण कर सकते हैं।

[कैप्शन id=”attachment_214894″ align=”alignnone” width=”880″] जीपीटी-4ओ, गूगल जेमिनी और पर्प्लेक्सिटी के विविध आपत्तियां, जब उनसे वीडियो का सीधे विश्लेषण करने के लिए कहा गया, प्रतिलिपि या अन्य पाठ-आधारित स्रोतों के बिना। जीपीटी-4ओ, गूगल जेमिनी और पर्प्लेक्सिटी के विविध आपत्तियां, जब उनसे वीडियो का सीधे विश्लेषण करने के लिए कहा गया, प्रतिलिपि या अन्य पाठ-आधारित स्रोतों के बिना।[/कैप्शन]

हालांकि, एक एलएलएम अपनी वीडियो देखने में असमर्थता को छिपा सकता है या नकार सकता है, जब तक कि आप उन्हें इसके बारे में नहीं पूछते:

[कैप्शन id=”attachment_214895″ align=”alignnone” width=”722″] एक नए शोध पत्र के संबंधित वीडियो का विषयगत मूल्यांकन प्रदान करने के लिए कहा गया, और एक वास्तविक राय को नकली बनाने के बाद, चैटजीपीटी-4ओ अंततः स्वीकार करता है कि यह वास्तव में वीडियो को सीधे देख नहीं सकता है। एक नए शोध पत्र के संबंधित वीडियो का विषयगत मूल्यांकन प्रदान करने के लिए कहा गया, और एक वास्तविक राय को नकली बनाने के बाद, चैटजीपीटी-4ओ अंततः स्वीकार करता है कि यह वास्तव में वीडियो को सीधे देख नहीं सकता है।[/कैप्शन]

हालांकि मॉडल जैसे चैटजीपीटी-4ओ मल्टीमोडल हैं, और वे कम से कम व्यक्तिगत फोटो (जैसे एक वीडियो से निकाली गई फ्रेम, ऊपर दी गई छवि देखें) का विश्लेषण कर सकते हैं, इसमें कुछ मुद्दे हैं: सबसे पहले, एलएलएम की गुणात्मक राय पर विश्वास करने का कोई आधार नहीं है, खासकर जब एलएलएम लोगों को खुश करने के लिए प्रवण होते हैं rather than सच्चे वार्तालाप।

दूसरा, एक उत्पन्न वीडियो की अधिकांश समस्याएं को एक कालिक पहलू होने की संभावना है जो एक फ्रेम ग्रैब में पूरी तरह से खो जाता है – और इसलिए व्यक्तिगत फ्रेम की जांच करना कोई उद्देश्य नहीं रखता है।

अंत में, एलएलएम केवल तब एक सुपposed ‘मूल्य निर्णय’ दे सकता है जब यह पाठ-आधारित ज्ञान को अवशोषित करता है, जैसे कि गहरे नकली छवियों या कला इतिहास के संबंध में: फेकवीएलएम परियोजना विशेषज्ञता वाले बहुसंकेत मॉडल के माध्यम से लक्षित गहरे नकली पता लगाने की पेशकश करती है। स्रोत: https://arxiv.org/pdf/2503.14905[/कैप्शन]

यह नहीं कहना है कि एक एलएलएम वीडियो से सीधे जानकारी प्राप्त नहीं कर सकता है; उदाहरण के लिए, योलो जैसे सहायक एआई सिस्टम का उपयोग करके, एक एलएलएम वीडियो में वस्तुओं की पहचान कर सकता है – या कर सकता है यदि यह एक औसत से अधिक के लिए प्रशिक्षित किया गया हो बहुसंकेत कार्यों।

लेकिन एक एलएलएम केवल तभी एक वीडियो का विषयगत मूल्यांकन कर सकता है (अर्थात, ‘मुझे लगता है कि यह वास्तविक नहीं है’) एक हानि फंक्शन-आधारित मेट्रिक को लागू करके जो या तो मानव राय को अच्छी तरह से प्रतिबिंबित करने के लिए जाना जाता है, या सीधे मानव राय से सूचित किया जाता है।

हानि फंक्शन गणितीय उपकरण हैं जो मॉडल के प्रशिक्षण के दौरान उपयोग किए जाते हैं ताकि यह मापा जा सके कि मॉडल के पूर्वानुमान कितने सही उत्तरों से दूर हैं। वे प्रतिक्रिया प्रदान करते हैं जो मॉडल के प्रशिक्षण को मार्गदर्शन करता है: त्रुटि जितनी अधिक होगी, हानि उतनी ही अधिक होगी। जैसे ही प्रशिक्षण आगे बढ़ता है, मॉडल अपने पैरामीटर को हानि को कम करने के लिए समायोजित करता है, धीरे-धीरे अपने सटीक पूर्वानुमान करने की क्षमता में सुधार करता है।

हानि फंक्शन मॉडलों के प्रशिक्षण को नियंत्रित करने और एल्गोरिदम को कैलिब्रेट करने के लिए भी उपयोग किए जाते हैं जो एआई मॉडल के आउटपुट का मूल्यांकन करते हैं (जैसे कि एक उत्पन्न फोटोरियलिस्टिक सामग्री का मूल्यांकन एक उत्पन्न वीडियो मॉडल से)।

सशर्त दृष्टि

सबसे लोकप्रिय मेट्रिक्स/हानि फंक्शन में से एक फ्रेचेट इन्सेप्शन दूरी (एफआईडी) है, जो उत्पन्न छवियों की गुणवत्ता का मूल्यांकन करने के लिए उनके वितरण (जो यहाँ ‘छवियों को कैसे फैलाया जाता है या दृश्य विशेषताओं द्वारा समूहीकृत किया जाता है‘ का अर्थ है) और वास्तविक छवियों के बीच की समानता को मापता है।

विशेष रूप से, एफआईडी वास्तविक और उत्पन्न दोनों छवियों से निकाले गए विशेषताओं के बीच सांख्यिकीय अंतर की गणना करता है, जो (अक्सर आलोचना) इन्सेप्शन वी3 वर्गीकरण नेटवर्क का उपयोग करके किया जाता है। एक कम एफआईडी स्कोर इंगित करता है कि उत्पन्न छवियां वास्तविक छवियों के समान हैं, जो बेहतर दृश्य गुणवत्ता और विविधता को दर्शाता है।

हालांकि, एफआईडी मूल रूप से तुलनात्मक है, और स्वयं के प्रकार में तर्कसंगत है। इसे दूर करने के लिए, बाद में सशर्त फ्रेचेट दूरी (सीएफडी, 2021) दृष्टिकोण एफआईडी से भिन्न है कि यह उत्पन्न छवियों की तुलना वास्तविक छवियों से करता है, और एक स्कोर का मूल्यांकन करता है जो यह देखता है कि दोनों सेट कितनी अच्छी तरह से एक अतिरिक्त शर्त को पूरा करते हैं, जैसे कि एक (अनिवार्य रूप से विषयगत) वर्ग लेबल या इनपुट छवि।

इस प्रकार, सीएफआईडी यह देखता है कि छवियां कितनी सटीक रूप से इरादित शर्तों को पूरा करती हैं, न कि केवल उनकी समग्र यथार्थवाद या विविधता के बीच।

सीएफ्रेड

यह हमें एक नए शोध पत्र पर ले जाता है जो संयुक्त राज्य अमेरिका से प्रतीत होता है जो सशर्त फ्रेचेट दूरी (सीएफ्रेड) प्रदान करता है, जो सीएफडी पर एक नई ले है जो मानव प्राथमिकताओं को बेहतर ढंग से प्रतिबिंबित करने के लिए डिज़ाइन की गई है वीडियो की गुणवत्ता और पाठ-छवि संरेखण दोनों का मूल्यांकन करके।

[कैप्शन id=”attachment_214900″ align=”alignnone” width=”898″] नए पत्र से आंशिक परिणाम: छवि रैंकिंग (1-9) विभिन्न मेट्रिक्स के लिए प्रॉम्प्ट नए पत्र से आंशिक परिणाम: छवि रैंकिंग (1-9) विभिन्न मेट्रिक्स के लिए प्रॉम्प्ट "एक लिविंग रूम में एक सोफा और एक लैपटॉप कंप्यूटर सोफे पर आराम कर रहा है।" हरा रंग उच्चतम मानव-रेटेड मॉडल (एफएलयूएक्स.1-डेव) को हाइलाइट करता है, बैंगनी सबसे कम (एसडीवी1.5) को हाइलाइट करता है। केवल सीएफ्रेड मानव रैंकिंग से मेल खाता है। कृपया पूर्ण परिणामों के लिए स्रोत पत्र देखें, जिन्हें हम यहां पुनरुत्पादित करने के लिए जगह नहीं दे सकते हैं। स्रोत: https://arxiv.org/pdf/2503.21721[/कैप्शन]

लेखकों का तर्क है कि मौजूदा मूल्यांकन विधियां, जैसे कि इन्सेप्शन स्कोर (आईएस) और एफआईडी, मानव निर्णय से खराब रूप से संरेखित हैं क्योंकि वे केवल छवि गुणवत्ता को मापते हैं, प्रॉम्प्ट के साथ छवियों के संरेखण पर विचार किए बिना:

‘उदाहरण के लिए, एक डेटासेट पर विचार करें जिसमें दो छवियां हैं: एक कुत्ते की और एक बिल्ली की, प्रत्येक को अपने संबंधित प्रॉम्प्ट के साथ जोड़ा गया है। एक आदर्श पाठ-से-छवि मॉडल जो इन मैपिंग को गलत तरीके से स्वैप करता है (अर्थात, कुत्ते के प्रॉम्प्ट के लिए एक बिल्ली और इसके विपरीत उत्पन्न करना) शून्य एफआईडी हासिल करेगा, क्योंकि कुत्तों और बिल्लियों का समग्र वितरण बना रहता है, प्रॉम्प्ट के साथ संरेखण की परवाह किए बिना।

‘हम दिखाते हैं कि सीएफ्रेड बेहतर छवि गुणवत्ता मूल्यांकन और इनपुट पाठ पर सशर्तता को पकड़ता है और मानव प्राथमिकताओं के साथ बेहतर संबंध प्रदान करता है।’

[कैप्शन id=”attachment_214901″ align=”alignnone” width=”598″] लेखकों के परीक्षण से पता चलता है कि उनके प्रस्तावित मेट्रिक, सीएफ्रेड, तीन बेंचमार्क डेटासेट (पार्टिप्रॉम्प्ट्स, एचपीडीवी2, और सीओसीओ) पर एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, और सीएमएमडी की तुलना में मानव प्राथमिकताओं के साथ अधिक संगति प्राप्त करता है। लेखकों के परीक्षण से पता चलता है कि उनके प्रस्तावित मेट्रिक, सीएफ्रेड, तीन बेंचमार्क डेटासेट (पार्टिप्रॉम्प्ट्स, एचपीडीवी2, और सीओसीओ) पर एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, और सीएमएमडी की तुलना में मानव प्राथमिकताओं के साथ अधिक संगति प्राप्त करता है।[/कैप्शन]

概念 और विधि

लेखकों का ध्यान दें कि वर्तमान में पाठ-से-छवि मॉडल का मूल्यांकन करने के लिए मानव प्राथमिकता डेटा को इकट्ठा करने में शामिल होने वाली सोने की मानक प्रक्रिया में भीड़-स्रोत तुलनाओं के माध्यम से मानव प्राथमिकता डेटा एकत्र करना शामिल है, जो बड़े भाषा मॉडल (जैसे एलएमएसिस एरिना) के लिए उपयोग की जाने वाली विधियों के समान है।

उदाहरण के लिए, पार्टिप्रॉम्प्ट्स एरिना 1,600 अंग्रेजी प्रॉम्प्ट्स का उपयोग करता है, जिसमें प्रतिभागियों को विभिन्न मॉडल से छवियों के जोड़े प्रस्तुत किए जाते हैं और उन्हें अपनी पसंदीदा छवि चुनने के लिए कहते हैं।

इसी तरह, पाठ-से-छवि एरिना लीडरबोर्ड उपयोगकर्ता तुलनाओं का उपयोग करके मॉडल आउटपुट की रैंकिंग उत्पन्न करने के लिए एलो स्कोर का उपयोग करता है।

हालांकि, इस तरह के मानव मूल्यांकन डेटा को इकट्ठा करना महंगा और धीमा है, जिससे कुछ प्लेटफ़ॉर्म – जैसे पार्टिप्रॉम्प्ट्स एरिना – पूरी तरह से अपडेट बंद कर देते हैं।

[कैप्शन id=”attachment_214902″ align=”alignnone” width=”858″] कृत्रिम विश्लेषण छवि एरिना लीडरबोर्ड, जो वर्तमान में अनुमानित नेताओं को उत्पन्न दृश्य एआई में रैंक करता है। स्रोत: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard कृत्रिम विश्लेषण छवि एरिना लीडरबोर्ड, जो वर्तमान में अनुमानित नेताओं को उत्पन्न दृश्य एआई में रैंक करता है। स्रोत: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard[/कैप्शन]

हालांकि मानव प्राथमिकता डेटा पर प्रशिक्षित वैकल्पिक विधियां मौजूद हैं, उनकी प्रभावशीलता भविष्य के मॉडल का मूल्यांकन करने में अनिश्चित रहती है, क्योंकि मानव प्राथमिकताएं निरंतर विकसित होती रहती हैं। नतीजतन, स्वचालित मेट्रिक्स जैसे एफआईडी, सीएलआईपीएस्कोर, और लेखकों का प्रस्तावित सीएफ्रेड संभवतः महत्वपूर्ण मूल्यांकन उपकरण बने रहेंगे।

लेखकों का मानना है कि दोनों वास्तविक और उत्पन्न छवियां एक प्रॉम्प्ट पर सशर्त गॉसियन वितरण का पालन करती हैं, प्रत्येक को सशर्त माध्य और संयोग द्वारा परिभाषित किया जाता है। सीएफ्रेड प्रॉम्प्ट्स के पार सशर्त वितरण के बीच अपेक्षित फ्रेचेट दूरी को मापता है। यह या तो सशर्त सांख्यिकी के संदर्भ में सीधे या प्रॉम्प्ट के साथ संयुक्त असशर्त सांख्यिकी और क्रॉस-कovariances के साथ संयुक्त रूप से सूत्रित किया जा सकता है।

प्रॉम्प्ट को इस तरह शामिल करके, सीएफ्रेड छवियों की वास्तविकता और प्रॉम्प्ट के साथ उनकी संगति दोनों का मूल्यांकन कर सकता है।

डेटा और परीक्षण

मानव प्राथमिकताओं के साथ सीएफ्रेड कितनी अच्छी तरह से संबंधित है, यह मूल्यांकन करने के लिए, लेखकों ने एक ही प्रॉम्प्ट के साथ विभिन्न मॉडल से छवि रैंकिंग का उपयोग किया। उनका मूल्यांकन दो स्रोतों पर आधारित था: मानव प्राथमिकता स्कोर वी2 परीक्षण सेट, जिसमें प्रति प्रॉम्प्ट नौ उत्पन्न छवियां और एक सीओसीओ ग्राउंड ट्रुथ छवि शामिल है; और ऊपर उल्लिखित पार्टिप्रॉम्प्ट्स एरिना।

लेखकों ने एरिना डेटा बिंदुओं को एकल डेटासेट में एकत्र किया; जहां वास्तविक छवि मानव मूल्यांकन में उच्चतम रैंक नहीं थी, उन्होंने शीर्ष रेटेड छवि को संदर्भ के रूप में उपयोग किया।

नए मॉडल का परीक्षण करने के लिए, उन्होंने सीओसीओ के प्रशिक्षण और मान्यकरण सेटों से 1,000 प्रॉम्प्ट्स का नमूना लिया, जो एचपीडीवी2 के साथ कोई ओवरलैप नहीं था, और नौ मॉडल का उपयोग करके छवियां उत्पन्न कीं जो एरिना लीडरबोर्ड पर थीं। मूल सीओसीओ छवियों ने इस मूल्यांकन के हिस्से में संदर्भ के रूप में कार्य किया।

सीएफ्रेड दृष्टिकोण का मूल्यांकन चार सांख्यिकीय मेट्रिक्स के माध्यम से किया गया था: एफआईडी; एफडीडीआईएनओवी2; सीएलआईपीएस्कोर; और सीएमएमडी. यह मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स के खिलाफ भी मूल्यांकन किया गया था: सौंदर्य स्कोर; छवि पुरस्कार; एचपीएसवी2; और एमपीएस.

लेखकों ने मानव निर्णय के साथ संगति का मूल्यांकन दोनों रैंकिंग और स्कोरिंग दृष्टिकोण से किया: प्रत्येक मेट्रिक के लिए, मॉडल स्कोर रिपोर्ट किए गए और मानव मूल्यांकन परिणामों के साथ उनकी संगति के लिए रैंकिंग गणना की गई, सीएफ्रेड ने डीआईएनओवी2-जी/14 का उपयोग छवि एम्बेडिंग के लिए किया और ओपनसीएलआईपी कॉनवनेक्स्ट-बी पाठ एनकोडर का उपयोग पाठ एम्बेडिंग के लिए किया。

पिछले कार्यों ने मानव प्राथमिकताओं के सीखने के प्रदर्शन को प्रति-आइटम रैंक सटीकता का उपयोग करके मापा, जो प्रत्येक छवि-पाठ जोड़े के लिए रैंकिंग सटीकता की गणना करता है trước平均 परिणाम।

लेखकों ने इसके बजाय सीएफ्रेड का मूल्यांकन एक वैश्विक रैंक सटीकता का उपयोग करके किया, जो पूरे डेटासेट भर में समग्र रैंकिंग प्रदर्शन का मूल्यांकन करता है; सांख्यिकीय मेट्रिक्स के लिए, उन्होंने सीधे कच्चे स्कोर से रैंकिंग प्राप्त की; और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स के लिए, उन्होंने पहले सभी नमूनों में से प्रत्येक मॉडल को सौंपी गई रैंकिंग को औसत किया, फिर इन औसतों से अंतिम रैंकिंग निर्धारित की।

प्रारंभिक परीक्षणों में दस फ्रेमवर्क शामिल थे: जीएलआईडीई; सीओसीओ; फ्यूज़ड्रीम; डीएलएलई 2; वीक्यूगैन+सीएलआईपी; कोगव्यू2; स्टेबल डिफ्यूजन वी1.4; वीक्यू-डिफ्यूजन; स्टेबल डिफ्यूजन वी2.0; और एलएफआईटीई.

[कैप्शन id=”attachment_214905″ align=”alignnone” width=”964″] मॉडल रैंकिंग और स्कोर एचपीडीवी2 परीक्षण सेट पर सांख्यिकीय मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, एचपीएसवी2, और एमपीएस) का उपयोग करके। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं। मॉडल रैंकिंग और स्कोर एचपीडीवी2 परीक्षण सेट पर सांख्यिकीय मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, एचपीएसवी2, और एमपीएस) का उपयोग करके। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं।[/em>[/कैप्शन]

इस परिणाम के बारे में लेखकों का कहना है:

‘सीएफ्रेड मानव प्राथमिकताओं के साथ 0.97 की संगति प्राप्त करता है, जो सर्वोत्तम सांख्यिकीय मेट्रिक्स में से एक है। एचपीएसवी2, एक मॉडल जो मानव प्राथमिकताओं पर प्रशिक्षित है, 0.94 की संगति प्राप्त करता है। दिलचस्प बात यह है कि सीएफ्रेड मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स के साथ तुलनीय या बेहतर संगति प्राप्त करता है, बिना किसी मानव प्राथमिकता प्रशिक्षण के।

‘इन परिणामों से पता चलता है कि सीएफ्रेड विभिन्न मॉडलों के लिए अधिक विश्वसनीय रैंकिंग प्रदान करता है, मानक स्वचालित मेट्रिक्स और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स की तुलना में।

मूल्यांकन किए गए सभी मेट्रिक्स में, सीएफ्रेड ने 91.1% की रैंक सटीकता हासिल की, जो मानव निर्णय के साथ मजबूत संगति को दर्शाता है।

एचपीएसवी2 ने 88.9% के साथ दूसरा स्थान हासिल किया, जबकि एफआईडी और एफडीडीआईएनओवी2 ने 86.7% के प्रतिस्पर्धी स्कोर प्राप्त किए। हालांकि मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स ने मानव मूल्यांकन के साथ अच्छी तरह से संरेखित किया, सीएफ्रेड साबित हुआ कि यह सबसे मजबूत और विश्वसनीय है।
दूसरे दौर के परीक्षण में, लेखकों ने पार्टिप्रॉम्प्ट्स एरिना पर चार मॉडल का उपयोग किया: एसडीएक्सएल; कैंडिंस्की 2; वürstchen; और कर्लो वी1.0.

[कैप्शन id=”attachment_214906″ align=”alignnone” width=”873″] मॉडल रैंकिंग और स्कोर पार्टिप्रॉम्प्ट पर सांख्यिकीय मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, और एमपीएस) का उपयोग करके। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं। मॉडल रैंकिंग और स्कोर पार्टिप्रॉम्प्ट पर सांख्यिकीय मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, और एमपीएस) का उपयोग करके। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं।[/em>[/कैप्शन]

इस बारे में लेखकों का कहना है:

‘सांख्यिकीय मेट्रिक्स में, सीएफ्रेड मानव मूल्यांकन के साथ 0.73 की संगति प्राप्त करता है, जबकि एफआईडी और एफडीडीआईएनओवी2 दोनों 0.70 की संगति प्राप्त करते हैं। दूसरी ओर, सीएलआईपी स्कोर मानव निर्णय के साथ बहुत कम 0.12 की संगति दिखाता है।

‘मानव प्राथमिकता-प्रशिक्षित श्रेणी में, एचपीएसवी2 मानव मूल्यांकन रुझानों को पकड़ने में सबसे प्रभावी है, 0.83 की संगति प्राप्त करता है, इसके बाद इमेजरिवार्ड (0.81) और एमपीएस (0.65) हैं। ये परिणाम दर्शाते हैं कि जबकि सीएफ्रेड एक मजबूत स्वचालित मेट्रिक है, एचपीएसवी2 पार्टिप्रॉम्प्ट्स एरिना में मानव मूल्यांकन रुझानों को पकड़ने में सबसे प्रभावी है।

अंत में, लेखकों ने सीओसीओ डेटासेट पर नौ आधुनिक पाठ-से-छवि मॉडल का मूल्यांकन किया: फ्लक्स.1[dev]; प्लेग्राउंडवी2.5; जानुस प्रो; और स्टेबल डिफ्यूजन वेरिएंट एसडीवी3.5-एल टर्बो, 3.5-एल, 3-एम, एसडीएक्सएल, 2.1, और 1.5।

मानव प्राथमिकता रैंकिंग टेक्स्ट-से-छवि लीडरबोर्ड से ली गई थी, और ईलो स्कोर के रूप में दी गई थी:

[कैप्शन id=”attachment_214907″ align=”alignnone” width=”897″] मॉडल रैंकिंग सीओसीओ प्रॉम्प्ट पर स्वचालित मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, एचपीएसवी2, और एमपीएस) का उपयोग करके। एक रैंक सटीकता 0.5 से कम इंगित करती है कि अधिक विवादास्पद जोड़े हैं जो सहमत जोड़े हैं। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं। मॉडल रैंकिंग सीओसीओ प्रॉम्प्ट पर स्वचालित मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और सीएफ्रेड) और मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स (सौंदर्य स्कोर, छवि पुरस्कार, एचपीएसवी2, और एमपीएस) का उपयोग करके। एक रैंक सटीकता 0.5 से कम इंगित करती है कि अधिक विवादास्पद जोड़े हैं जो सहमत जोड़े हैं। सर्वोत्तम परिणाम बोल्ड में दिखाए गए हैं, दूसरे सर्वश्रेष्ठ अंडरलाइन में हैं।[/em>[/कैप्शन]

इस दौर के बारे में लेखकों का कहना है:

‘सांख्यिकीय मेट्रिक्स (एफआईडी, एफडीडीआईएनओवी2, सीएलआईपीएस्कोर, सीएमएमडी, और हमारे प्रस्तावित सीएफ्रेड) में, केवल सीएफ्रेड मानव प्राथमिकताओं के साथ 0.33 की संगति प्रदर्शित करता है और 66.67% की एक गैर-तुच्छ रैंक सटीकता प्राप्त करता है। यह परिणाम सीएफ्रेड को तीसरे सबसे अधिक संगत मेट्रिक के रूप में रखता है, केवल मानव प्राथमिकता-प्रशिक्षित मेट्रिक्स इमेजरिवार्ड, एचपीएसवी2, और एमपीएस से पीछे।

‘नोट करने योग्य बात यह है कि अन्य सांख्यिकीय मेट्रिक्स मानव रैंकिंग के साथ बहुत कम संगति दिखाते हैं और, परिणामस्वरूप, रैंकिंग को उलट देते हैं, जिससे रैंक सटीकता 0.5 से कम हो जाती है।

‘ये निष्कर्ष सीएफ्रेड को दृश्य विश्वसनीयता और प्रॉम्प्ट संगति दोनों के प्रति संवेदनशीलता को रेखांकित करते हैं, जो इसे पाठ-से-छवि पीढ़े के लिए एक व्यावहारिक, प्रशिक्षण-मुक्त विकल्प के रूप में इसका मूल्य पुनः पुष्टि करता है।

लेखकों ने इन्सेप्शन वी3 को एक बैकबोन के रूप में भी परीक्षण किया, जो साहित्य में इसकी व्यापकता पर ध्यान देते हैं, और पाया कि यह ठीक से प्रदर्शन किया लेकिन डीआईएनओवी2-एल/14 और वीआईटी-एल/16 जैसे ट्रांसफॉर्मर-आधारित बैकबोन से पीछे रह गया, जो मानव रैंकिंग के साथ अधिक संगत रूप से संरेखित करते हैं – और वे तर्क देते हैं कि यह इन्सेप्शन वी3 को आधुनिक मूल्यांकन सेटअप में बदलने का समर्थन करता है।

[कैप्शन id=”attachment_214908″ align=”alignnone” width=”619″] जीतने की दर जो दिखाती है कि प्रत्येक छवि बैकबोन की रैंकिंग कितनी बार वास्तविक मानव-व्युत्पन्न रैंकिंग से मेल खाती है। जीतने की दर जो दिखाती है कि प्रत्येक छवि बैकबोन की रैंकिंग कितनी बार वास्तविक मानव-व्युत्पन्न रैंकिंग से मेल खाती है।[/em>[/कैप्शन]

निष्कर्ष

यह स्पष्ट है कि जबकि मानव-इन-द-लूप समाधान विकास में मेट्रिक और हानि फंक्शन के लिए इष्टतम दृष्टिकोण हैं, आवश्यक अपडेट की स्केल और आवृत्ति के कारण वे अभी भी व्यावहारिक नहीं हो सकते हैं – शायद तब तक जब तक कि व्यापक सार्वजनिक भागीदारी को मूल्यांकन में प्रोत्साहित नहीं किया जाता है; या, जैसा कि कैप्चा के मामले में है, लागू किया जाता है।

लेखकों की नई प्रणाली की विश्वसनीयता अभी भी मानव निर्णय के साथ इसकी संगति पर निर्भर करती है, हालांकि कई अन्य हाल के मानव-भागीदारी दृष्टिकोणों की तुलना में एक और स्तर पर; और सीएफ्रेड की वैधता इसलिए अभी भी मानव प्राथमिकता डेटा (स्पष्ट रूप से, क्योंकि ऐसा बेंचमार्क के बिना सीएफ्रेड की मानव-जैसी मूल्यांकन को प्रतिबिंबित करने का दावा साबित नहीं किया जा सकता है) पर निर्भर करती है।

यह तर्क दिया जा सकता है कि उत्पन्न आउटपुट में ‘वास्तविकता’ के लिए हमारे वर्तमान मानदंडों को एक मेट्रिक फंक्शन में समाहित करना दीर्घकालिक में एक गलती हो सकती है, क्योंकि इस अवधारणा की हमारी परिभाषा वर्तमान में नए उत्पन्न एआई प्रणालियों की नई लहर से हमला की जा रही है, और नियमित और महत्वपूर्ण संशोधन के लिए निर्धारित है।

* इस बिंदु पर मैं आमतौर पर एक उदाहरण दृश्य उदाहरण शामिल करूंगा, शायद एक हालिया शैक्षणिक जमा से; लेकिन यह दुर्भाग्यपूर्ण होगा – कोई भी जो अर्क्सिव के उत्पन्न एआई आउटपुट के माध्यम से 10-15 मिनट से अधिक समय बिताता है, पहले से ही पूरक वीडियो के साथ परिचित होगा जो संबंधित जमा की विषयगत गुणवत्ता को इंगित करता है कि यह एक महत्वपूर्ण पत्र नहीं होगा।

† प्रयोगों में कुल 46 छवि बैकबोन मॉडल का उपयोग किया गया था, जिनमें से सभी ग्राफ़ में शामिल नहीं हैं। कृपया सभी मॉडलों की पूरी सूची के लिए पत्र के परिशिष्ट में देखें; तालिकाओं और आंकड़ों में उल्लिखित मॉडल सूचीबद्ध किए गए हैं।

मंगलवार, 1 अप्रैल, 2025 को पहली बार प्रकाशित

Related Topics:evaluation metrics loss function