Anderson рдХрд╛ рдПрдВрдЧрд▓
рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдореЗрдВ ‘рдбрд╛рдЙрдирд▓реЛрдб рдореЛрд░ рд▓реЗрдмрд▓реНрд╕!’ рднреНрд░рдо

वर्तमान मशीन लर्निंग अनुसंधान में एक सामान्य दृष्टिकोण यह है कि मशीन लर्निंग को ही एआई डेटासेट एनोटेशन की गुणवत्ता में सुधार करने के लिए उपयोग किया जा सकता है – विशेष रूप से विजन-लैंग्वेज मॉडल (वीएलएम) के लिए उपयोग किए जाने वाले छवि कैप्शन। यह तर्क मानव एनोटेशन की उच्च लागत और एनोटेटर प्रदर्शन की देखरेख के बोझ द्वारा चलाया जाता है।
यह तर्कatably एआई के लिए 2000 के दशक के शुरुआती दौर के ‘डाउनलोड मोर रैम’ मीम के समान है, जिसने हार्डवेयर सीमा को सॉफ्टवेयर-आधारित फिक्स के साथ हल करने की अवधारणा का उपहास किया था।
यह एक कम माना जाने वाला मुद्दा भी है; जबकि नए एआई मॉडल सार्वजनिक और व्यावसायिक क्षेत्रों में व्यापक ध्यान आकर्षित करते हैं, एनोटेशन अक्सर मशीन लर्निंग पाइपलाइनों में एक तुच्छ विवरण के रूप में दिखाई देता है, जो व्यापक फ्रेमवर्क के आसपास के उत्साह से ढका होता है।
वास्तव में, मशीन लर्निंग सिस्टम की पैटर्न को पहचानने और पुनरुत्पादित करने की क्षमता (लगभग सभी एआई सिस्टम का केंद्रीय उपयोग मामला) वास्तविक दुनिया के एनोटेशन की गुणवत्ता और संगति पर निर्भर करती है – लेबल और वाक्यांश जो वास्तविक लोगों द्वारा बनाए या निर्णीत किए जाते हैं, अक्सर व्यक्तिगत डेटा बिंदुओं के बारे में विषयगत निर्णय लेते हैं जो गैर-आदर्श परिस्थितियों में होते हैं।
अनिवार्य रूप से, जो प्रणाली एनोटेटर व्यवहार में पैटर्न का अवलोकन और पुनरुत्पादन करना चाहती हैं (और इस प्रकार मानव एनोटेटर को बदलना और सटीक लेबलिंग को सुविधाजनक बनाना), उन डेटा पर अच्छा प्रदर्शन नहीं कर सकती हैं जो मानव पर्यवेक्षकों से लिए गए उदाहरणों में नहीं है। कुछ भी ‘समान’ बिल्कुल समान नहीं है, और क्रॉस-डोमेन समकक्षता कंप्यूटर विजन में एक समस्याग्रस्त पीछा बनी हुई है।
‘अपस्ट्रीम डेटा बक’ को कहीं न कहीं रुकना होगा, और इस मामले में, यह वहीं रुक जाता है – एक मानव मस्तिष्क के साथ जो कुछ विषयगत भेदभाव कर रहा है ताकि कृत्रिम प्रणाली के लिए डेटा को संक्षिप्त किया जा सके।
द रैग ट्रेड
हाल तक तक, कम-चुने हुए डेटासेट एनोटेशन से उत्पन्न असंगतताएं, शायद, जेनरेटिव एआई सिस्टम से प्राप्त परिणामों के संदर्भ में स्वीकार्य सहयोगी नुकसान के रूप में देखी जाती थीं।
वास्तव में, इस वर्ष एक सिंगापुर अध्ययन में निष्कर्ष निकाला गया कि हॉलुसिनेशन – अर्थात्, एआई सिस्टम द्वारा उन चीजों का आविष्कार करना जो हमारे इरादों को कमजोर करते हैं – अपरिहार्य हैं, और ऐसे सिस्टम की概念ात्मक वास्तुकला में बंधे हुए हैं।
इसका मुकाबला करने के लिए, आरएजी-आधारित एजेंट – जो इंटरनेट खोजों के माध्यम से तथ्यों की ‘पुष्टि’ कर सकते हैं – शोध और व्यावसायिक समाधानों में लोकप्रिय हो रहे हैं। हालांकि, वे संसाधन लागत और प्रश्नों में देरी को जोड़ते हैं; इसके अलावा, एक प्रशिक्षित मॉडल पर लागू की गई नई जानकारी मूल रूप से प्रशिक्षित मॉडल में मूल परतों की विशिष्ट और गहराई से जुड़ी हुई कनेक्शनों के साथ प्रतिस्पर्धा नहीं कर सकती है।
यह तब बेहतर होगा यदि इन मॉडलों को सूचित करने वाले एनोटेशन डेटा में पहले से ही महत्वपूर्ण रूप से कम दोष हों, भले ही यह पूरी तरह से सही नहीं हो (क्योंकि यह गतिविधि मानव विषयगतता के क्षेत्र में प्रवेश करती है)।
रेपोप
जर्मनी से एक नए शोध पत्र में पुराने, व्यापक रूप से उपयोग किए जाने वाले डेटासेट पर निर्भर रहने से उत्पन्न समस्याओं पर प्रकाश डाला गया है, विशेष रूप से उनकी छवि कैप्शन की सटीकता और विश्वसनीयता पर ध्यान केंद्रित किया गया है। शोधकर्ताओं के निष्कर्ष सुझाव देते हैं कि बेंचमार्क में लेबल त्रुटियां विजन-लैंग्वेज मॉडल में हॉलुसिनेशन को मास्क या गलत तरीके से प्रस्तुत कर सकती हैं।
[कैप्शन id=”attachment_216212″ align=”alignnone” width=”961″]
एक मॉडल को एक स्ट्रीट सीन की छवि दिखाई जाती है और पूछा जाता है कि क्या इसमें एक साइकिल है। मॉडल हाँ का जवाब देता है। यदि बेंचमार्क डेटासेट कहता है कि इसमें कोई साइकिल नहीं है, तो मॉडल को गलत चिह्नित किया जाता है। लेकिन अगर एक साइकिल स्पष्ट रूप से दिखाई दे रही है छवि में और एनोटेशन के दौरान इसे याद किया गया था, तो मॉडल का जवाब सही था, और बेंचमार्क विफल रहा।
इस तरह की त्रुटियां डेटासेट भर में जमा हो सकती हैं, जो सटीक और हॉलुसिनेशन के प्रति जो मॉडल हैं और जो नहीं हैं, इसका एक विकृत चित्र प्रस्तुत करती हैं।
इसलिए, जब गलत या अस्पष्ट एनोटेशन को ग्राउंड ट्रुथ के रूप में माना जाता है, तो मॉडल हॉलुसिनेट करने के लिए प्रतीत हो सकते हैं जब वे सही होते हैं, या सटीक लगते हैं जब वे नहीं होते हैं, जो हॉलुसिनेशन और मॉडल प्रदर्शन के मूल्यांकन दोनों को विकृत करता है, और समस्या का निदान या संबोधन करना मुश्किल बना देता है।
नए शोध पत्र में रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव शीर्षक से पीओपीई नामक एक व्यापक रूप से उपयोग किए जाने वाले बेंचमार्क को फिर से देखा गया है, जो यह परीक्षण करता है कि क्या विजन-लैंग्वेज मॉडल छवियों में सही ढंग से बता सकते हैं कि क्या है या नहीं।
पीओपीई प्रभावशाली माइक्रोसॉफ्ट सीओसीओ: कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट (एमएससीओसीओ) डेटासेट से लेबल पर आधारित है, जो लंबे समय से एनोटेशन की अच्छी स्तर की पेशकश करने वाला माना जाता रहा है।
पीओपीई विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन का मूल्यांकन करने के लिए एक बाइनरी क्लासिफिकेशन टास्क के रूप में समस्या को फिर से तैयार करता है। जेनरेटेड कैप्शन को पार्स करने के बजाय, सिस्टम मॉडल से छवि में विशिष्ट वस्तुओं के बारे में साधारण हाँ/नहीं प्रश्न पूछता है, ‘क्या छवि में एक <वस्तु> है?’ जैसे टेम्पलेट का उपयोग करता है।
[कैप्शन id=”attachment_216213″ align=”alignnone” width=”950″]
ग्राउंड-ट्रुथ ऑब्जेक्ट (उत्तर: हाँ) को नमूना गैर-मौजूद ऑब्जेक्ट (उत्तर: नहीं) के साथ जोड़ा जाता है, जो यादृच्छिक, बार-बार (लोकप्रिय), या सह-उद्भव-आधारित (विरोधी) रणनीतियों के माध्यम से चुना जाता है। यह सेटअप जटिल नियम-आधारित कैप्शन विश्लेषण पर निर्भर किए बिना हॉलुसिनेशन का मूल्यांकन करने की अनुमति देता है।
नए शोध पत्र के लेखक – रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव – पीओपीई की मानी गई सटीकता को चुनौती देते हैं – एमएससीओसीओ (पीओपीई के लिए उपयोग की जाने वाली छवियों के लेबल) की जांच करके – और पाया कि आश्चर्यजनक संख्या में गलत या अस्पष्ट हैं।
[कैप्शन id=”attachment_216214″ align=”alignnone” width=”939″]
इन त्रुटियों ने मॉडल की रैंकिंग को बदल दिया, जिनमें से कुछ ने शुरू में अच्छा प्रदर्शन किया लेकिन सुधारे हुए लेबल के खिलाफ आंका जाने पर पीछे रह गए।
परीक्षणों में, लेखकों ने विभिन्न ओपन-वेट विजन-लैंग्वेज मॉडल का मूल पीओपीई बेंचमार्क और उनके पुनः लेबल वाले रेपोपे संस्करण पर मूल्यांकन किया।
शोध पत्र के अनुसार, सुधारे हुए एनोटेशन ने मॉडल रैंकिंग में उल्लेखनीय परिवर्तन किए, विशेष रूप से एफ1 स्कोर में, जिसमें पीओपीई पर उच्च प्रदर्शन करने वाले कई मॉडल रेपोपे के तहत पदों में गिर गए।
लेखकों का तर्क है कि यह परिवर्तन यह दर्शाता है कि एनोटेशन त्रुटियों की कितनी हद तक मॉडल के हॉलुसिनेशन व्यवहार को धुंधला कर सकती हैं, और वे रेपोपे को हॉलुसिनेशन की कमजोरता का मूल्यांकन करने के लिए एक अधिक विश्वसनीय उपकरण के रूप में प्रस्तुत करते हैं।
[कैप्शन id=”attachment_216215″ align=”alignnone” width=”940″]
विधि और परीक्षण
शोधकर्ताओं ने मूल एमएससीओसीओ डेटासेट में सभी एनोटेशन को फिर से लेबल किया, प्रत्येक डेटा उदाहरण के लिए दो मानव लेबलर नियुक्त किए। जहां मूल लेबल की गुणवत्ता के बारे में अस्पष्टता उत्पन्न हुई (नीचे दिए गए उदाहरणों की तरह), इन परिणामों को परीक्षण दौर से अलग रखा गया।
[कैप्शन id=”attachment_216218″ align=”alignnone” width=”942″]
शोध पत्र में कहा गया है:
‘मूल एनोटेटर्स ने पृष्ठभूमि में या ग्लास के पीछे व्यक्तियों को याद किया, टेनिस खिलाड़ी पृष्ठभूमि में ‘कुर्सियों’ को ढक देता है और कोलेस्लॉ में केवल एक छोटी सी दिखाई देने वाली गाजर की धारी होती है। ‘
‘कुछ वस्तुओं के लिए, सीओसीओ एनोटेशन असंगत हैं, शायद मूल एनोटेटर्स द्वारा उनका उपयोग की जाने वाली वस्तुओं की विभिन्न परिभाषाओं के कारण। एक ‘टेडी बियर’ को ‘भालू’ के रूप में वर्गीकृत करना, एक मोटरसाइकिल को ‘मोटर चालित साइकिल’ के रूप में या एक हवाई अड्डे के वाहन को ‘कार’ के रूप में वर्गीकृत करना वस्तु की विशिष्ट परिभाषाओं पर निर्भर करता है, जो पीओपीई ग्राउंड ट्रुथ एनोटेशन में असंगतता की ओर ले जाता है। इसलिए, हम संबंधित छवि-प्रश्न जोड़ों को ‘अस्पष्ट’ के रूप में लेबल करते हैं। ‘
[कैप्शन id=”attachment_216219″ align=”alignnone” width=”874″]
लेखकों ने विभिन्न ओपन-वेट मॉडल का पीओपीई और रेपोपे पर मूल्यांकन किया, विभिन्न आर्किटेक्चर और मॉडल आकारों के साथ। मूल्यांकन किए गए मॉडल में शामिल थे ओपनवीएलएम लीडरबोर्ड पर अग्रणी आर्किटेक्चर: इंटरनवीएल2.5 (8बी/26बी/38बी/78बी और 8बी-एमपीओ/26बी-एमपीओ); एलएवीए-नेक्स्ट; विकुना; मिस्ट्रल 7बी; लामा; एलएवीए-वनविजन; ओविस2 (1बी/2बी/4बी/8बी); पालीगेम्मा-3बी; और पालीगेम्मा2 (3बी/10बी)।
[कैप्शन id=”attachment_216220″ align=”alignnone” width=”880″]
परिणाम ग्राफ ऊपर दिखाते हैं कि पुनः लेबलिंग के बाद सच्चे सकारात्मक और झूठे सकारात्मक में कैसे बदलाव आता है।
सच्चे सकारात्मक सभी मॉडल में गिरे, जो यह दर्शाता है कि वे अक्सर सही उत्तरों के लिए श्रेय दिए जाते थे जब वे केवल दोषपूर्ण लेबल के तहत सही थे। झूठे सकारात्मक एक अधिक विविध पैटर्न का अनुसरण किया।
‘यादृच्छिक’ पीओपीई संस्करण पर, झूठे सकारात्मक कई मॉडल के लिए लगभग दोगुने हो गए, जो यह दर्शाता है कि एक महत्वपूर्ण संख्या में वस्तुओं को हॉलुसिनेशन के रूप में चिह्नित किया गया था जो वास्तव में छवियों में मौजूद थीं लेकिन मूल एनोटेशन में याद की गई थीं। इस मामले में, कई माने जाने वाले मॉडल त्रुटियां वास्तव में डेटासेट लेबलिंग त्रुटियां थीं।
‘विरोधी’ पीओपीई संस्करण के लिए, जहां प्रश्न अक्सर सह-उद्भव वाली वस्तुओं पर आधारित थे, झूठे सकारात्मक में गिरावट आई। यह शायद इसलिए है क्योंकि कथित रूप से अनुपस्थित वस्तु वास्तव में छवि में मौजूद थी लेकिन लेबलिंग के दौरान अनलेबल्ड छोड़ दी गई थी।
हालांकि ये परिवर्तन सटीकता और पुनरावृत्ति को प्रभावित करते हैं, मॉडल रैंकिंग दोनों मेट्रिक्स के लिए अपेक्षाकृत स्थिर रही।
पीओपीई के मुख्य मूल्यांकन उपाय के रूप में एफ1 स्कोर पुनः लेबलिंग के प्रति बहुत अधिक संवेदनशील था। यादृच्छिक उपसेट पर, मॉडल जो मूल लेबल के साथ शीर्ष पर थे, जैसे कि इंटरनवीएल2.5-8बी और -26बी, रेपोपे के साथ स्कोरिंग पर नीचे गिर गए। अन्य, जैसे ओविस2-4बी और -8बी, शीर्ष पर पहुंच गए।
एक समान पैटर्न सटीकता स्कोर में भी दिखाई दिया, हालांकि लेखकों का उल्लेख है कि वे अब पूर्वाग्रह से ग्रस्त हो सकते हैं, क्योंकि सुधारा गया डेटासेट सकारात्मक और नकारात्मक उदाहरणों की असमान संख्या है।
लेखकों का तर्क है कि बेंचमार्क परिणामों पर एनोटेशन त्रुटियों का मजबूत प्रभाव उच्च गुणवत्ता वाले डेटा की आवश्यकता को रेखांकित करता है। हॉलुसिनेशन का मूल्यांकन करने के लिए अधिक विश्वसनीय मूल्यांकन का समर्थन करने के लिए, उन्होंने सुधारे हुए लेबल को गिटहब पर जारी किया है।
हालांकि, वे यह भी नोट करते हैं कि यह पुनः लेबलिंग बेंचमार्क की संतृप्ति को पूरी तरह से संबोधित नहीं करती है, क्योंकि कई मॉडल अभी भी सच्चे सकारात्मक और सच्चे नकारात्मक दरों में 90% से अधिक हासिल करते हैं। वे सुझाव देते हैं कि अतिरिक्त बेंचमार्क, जैसे डीएएसएच-बी, जो नकारात्मक उदाहरणों के एक अधिक चुनौतीपूर्ण सेट का उपयोग करता है, को रेपोपे के साथ-साथ उपयोग किया जाना चाहिए।
निष्कर्ष
यह विशिष्ट प्रयोग संभव था क्योंकि शामिल डेटासेट का आकार बहुत छोटा था। इसी तरह के अनुमान को हाइपरस्केल डेटासेट पर साबित करना डेटा के बहुत सीमित खंडों पर काम करने का मतलब होगा; अत्यधिक विविध बड़े डेटासेट में, यह परिणामों को विकृत करने वाला साबित हो सकता है।
यहां तक कि अगर यह संभव होता, तो वर्तमान राज्य-ऑफ-द-आर्ट के तहत क्या उपाय होगा? तर्क फिर से बेहतर और अधिक मानवीय एनोटेशन की आवश्यकता की ओर बढ़ जाता है।
इस संबंध में, ‘बेहतर’ और ‘अधिक’ अपने आप में अलग-अलग समस्याएं हैं, क्योंकि एक को एमएटी जैसी रेस-टू-द-बॉटम अर्थव्यवस्थाओं के माध्यम से एनोटेशन की बड़ी मात्रा प्राप्त की जा सकती है। स्पष्ट रूप से, यह संभावित रूप से शोषणकारी उप-आर्थिकी अक्सर खराब परिणामों की ओर ले जाती है।
वैकल्पिक रूप से, एक एनोटेशन कार्यों को आर्थिक क्षेत्रों में आउटसोर्स कर सकता है जहां समान व्यय अधिक मात्रा में एनोटेशन पैदा करेगा। हालांकि, जितना अधिक एनोटेटर मॉडल के लेबल के इच्छित उपयोग के मामले से दूर है, उतना ही कम संभावना है कि परिणामी मॉडल लक्ष्य डोमेन की आवश्यकताओं या अपेक्षाओं के साथ संरेखित होगा।
यह मशीन लर्निंग विकास के अर्थशास्त्र में सबसे लगातार और असुलझे चुनौतियों में से एक बनी हुई है।
पहली बार बुधवार, 23 अप्रैल, 2025 को प्रकाशित












