Connect with us

рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдореЗрдВ ‘рдбрд╛рдЙрдирд▓реЛрдб рдореЛрд░ рд▓реЗрдмрд▓реНрд╕!’ рднреНрд░рдо

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдореЗрдВ ‘рдбрд╛рдЙрдирд▓реЛрдб рдореЛрд░ рд▓реЗрдмрд▓реНрд╕!’ рднреНрд░рдо

mm
ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

वर्तमान मशीन लर्निंग अनुसंधान में एक सामान्य दृष्टिकोण यह है कि मशीन लर्निंग को ही एआई डेटासेट एनोटेशन की गुणवत्ता में सुधार करने के लिए उपयोग किया जा सकता है – विशेष रूप से विजन-लैंग्वेज मॉडल (वीएलएम) के लिए उपयोग किए जाने वाले छवि कैप्शन। यह तर्क मानव एनोटेशन की उच्च लागत और एनोटेटर प्रदर्शन की देखरेख के बोझ द्वारा चलाया जाता है।

यह तर्कatably एआई के लिए 2000 के दशक के शुरुआती दौर के ‘डाउनलोड मोर रैम’ मीम के समान है, जिसने हार्डवेयर सीमा को सॉफ्टवेयर-आधारित फिक्स के साथ हल करने की अवधारणा का उपहास किया था।

यह एक कम माना जाने वाला मुद्दा भी है; जबकि नए एआई मॉडल सार्वजनिक और व्यावसायिक क्षेत्रों में व्यापक ध्यान आकर्षित करते हैं, एनोटेशन अक्सर मशीन लर्निंग पाइपलाइनों में एक तुच्छ विवरण के रूप में दिखाई देता है, जो व्यापक फ्रेमवर्क के आसपास के उत्साह से ढका होता है।

वास्तव में, मशीन लर्निंग सिस्टम की पैटर्न को पहचानने और पुनरुत्पादित करने की क्षमता (लगभग सभी एआई सिस्टम का केंद्रीय उपयोग मामला) वास्तविक दुनिया के एनोटेशन की गुणवत्ता और संगति पर निर्भर करती है – लेबल और वाक्यांश जो वास्तविक लोगों द्वारा बनाए या निर्णीत किए जाते हैं, अक्सर व्यक्तिगत डेटा बिंदुओं के बारे में विषयगत निर्णय लेते हैं जो गैर-आदर्श परिस्थितियों में होते हैं।

अनिवार्य रूप से, जो प्रणाली एनोटेटर व्यवहार में पैटर्न का अवलोकन और पुनरुत्पादन करना चाहती हैं (और इस प्रकार मानव एनोटेटर को बदलना और सटीक लेबलिंग को सुविधाजनक बनाना), उन डेटा पर अच्छा प्रदर्शन नहीं कर सकती हैं जो मानव पर्यवेक्षकों से लिए गए उदाहरणों में नहीं है। कुछ भी ‘समान’ बिल्कुल समान नहीं है, और क्रॉस-डोमेन समकक्षता कंप्यूटर विजन में एक समस्याग्रस्त पीछा बनी हुई है।

‘अपस्ट्रीम डेटा बक’ को कहीं न कहीं रुकना होगा, और इस मामले में, यह वहीं रुक जाता है – एक मानव मस्तिष्क के साथ जो कुछ विषयगत भेदभाव कर रहा है ताकि कृत्रिम प्रणाली के लिए डेटा को संक्षिप्त किया जा सके।

द रैग ट्रेड

हाल तक तक, कम-चुने हुए डेटासेट एनोटेशन से उत्पन्न असंगतताएं, शायद, जेनरेटिव एआई सिस्टम से प्राप्त परिणामों के संदर्भ में स्वीकार्य सहयोगी नुकसान के रूप में देखी जाती थीं।

वास्तव में, इस वर्ष एक सिंगापुर अध्ययन में निष्कर्ष निकाला गया कि हॉलुसिनेशन – अर्थात्, एआई सिस्टम द्वारा उन चीजों का आविष्कार करना जो हमारे इरादों को कमजोर करते हैं – अपरिहार्य हैं, और ऐसे सिस्टम की概念ात्मक वास्तुकला में बंधे हुए हैं।

इसका मुकाबला करने के लिए, आरएजी-आधारित एजेंट – जो इंटरनेट खोजों के माध्यम से तथ्यों की ‘पुष्टि’ कर सकते हैं – शोध और व्यावसायिक समाधानों में लोकप्रिय हो रहे हैं। हालांकि, वे संसाधन लागत और प्रश्नों में देरी को जोड़ते हैं; इसके अलावा, एक प्रशिक्षित मॉडल पर लागू की गई नई जानकारी मूल रूप से प्रशिक्षित मॉडल में मूल परतों की विशिष्ट और गहराई से जुड़ी हुई कनेक्शनों के साथ प्रतिस्पर्धा नहीं कर सकती है।

यह तब बेहतर होगा यदि इन मॉडलों को सूचित करने वाले एनोटेशन डेटा में पहले से ही महत्वपूर्ण रूप से कम दोष हों, भले ही यह पूरी तरह से सही नहीं हो (क्योंकि यह गतिविधि मानव विषयगतता के क्षेत्र में प्रवेश करती है)।

रेपोप

जर्मनी से एक नए शोध पत्र में पुराने, व्यापक रूप से उपयोग किए जाने वाले डेटासेट पर निर्भर रहने से उत्पन्न समस्याओं पर प्रकाश डाला गया है, विशेष रूप से उनकी छवि कैप्शन की सटीकता और विश्वसनीयता पर ध्यान केंद्रित किया गया है। शोधकर्ताओं के निष्कर्ष सुझाव देते हैं कि बेंचमार्क में लेबल त्रुटियां विजन-लैंग्वेज मॉडल में हॉलुसिनेशन को मास्क या गलत तरीके से प्रस्तुत कर सकती हैं।

[कैप्शन id=”attachment_216212″ align=”alignnone” width=”961″]рдирдП рд╢реЛрдз рдкрддреНрд░ рд╕реЗ, рдХреБрдЫ рдЙрджрд╛рд╣рд░рдг рдЬрд╣рд╛рдВ рдореВрд▓ рдХреИрдкреНрд╢рди рдПрдордПрд╕рд╕реАрдУрд╕реАрдУ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреА рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ рд╡рд╕реНрддреБрдУрдВ рдХреА рд╕рд╣реА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдореЗрдВ рд╡рд┐рдлрд▓ рд░рд╣реЗред рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЗ рдкреАрдУрдкреАрдИ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдореИрдиреБрдЕрд▓ рд╕рдВрд╢реЛрдзрди рдЗрди рдХрдорд┐рдпреЛрдВ рдХреЛ рд╕рдВрдмреЛрдзрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдПрдиреЛрдЯреЗрд╢рди рдХреНрдпреВрд░реЗрд╢рди рдкрд░ рдкреИрд╕реЗ рдмрдЪрд╛рдиреЗ рдХреА рд▓рд╛рдЧрдд рдХреЛ рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2504.15707 नए शोध पत्र से, कुछ उदाहरण जहां मूल कैप्शन एमएससीओसीओ डेटासेट की छवियों में वस्तुओं की सही पहचान करने में विफल रहे। शोधकर्ताओं के पीओपीई बेंचमार्क डेटासेट का मैनुअल संशोधन इन कमियों को संबोधित करता है, एनोटेशन क्यूरेशन पर पैसे बचाने की लागत को प्रदर्शित करता है। स्रोत: https://arxiv.org/pdf/2504.15707[/कैप्शन]

एक मॉडल को एक स्ट्रीट सीन की छवि दिखाई जाती है और पूछा जाता है कि क्या इसमें एक साइकिल है। मॉडल हाँ का जवाब देता है। यदि बेंचमार्क डेटासेट कहता है कि इसमें कोई साइकिल नहीं है, तो मॉडल को गलत चिह्नित किया जाता है। लेकिन अगर एक साइकिल स्पष्ट रूप से दिखाई दे रही है छवि में और एनोटेशन के दौरान इसे याद किया गया था, तो मॉडल का जवाब सही था, और बेंचमार्क विफल रहा।

इस तरह की त्रुटियां डेटासेट भर में जमा हो सकती हैं, जो सटीक और हॉलुसिनेशन के प्रति जो मॉडल हैं और जो नहीं हैं, इसका एक विकृत चित्र प्रस्तुत करती हैं।

इसलिए, जब गलत या अस्पष्ट एनोटेशन को ग्राउंड ट्रुथ के रूप में माना जाता है, तो मॉडल हॉलुसिनेट करने के लिए प्रतीत हो सकते हैं जब वे सही होते हैं, या सटीक लगते हैं जब वे नहीं होते हैं, जो हॉलुसिनेशन और मॉडल प्रदर्शन के मूल्यांकन दोनों को विकृत करता है, और समस्या का निदान या संबोधन करना मुश्किल बना देता है।

नए शोध पत्र में रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव शीर्षक से पीओपीई नामक एक व्यापक रूप से उपयोग किए जाने वाले बेंचमार्क को फिर से देखा गया है, जो यह परीक्षण करता है कि क्या विजन-लैंग्वेज मॉडल छवियों में सही ढंग से बता सकते हैं कि क्या है या नहीं।

पीओपीई प्रभावशाली माइक्रोसॉफ्ट सीओसीओ: कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट (एमएससीओसीओ) डेटासेट से लेबल पर आधारित है, जो लंबे समय से एनोटेशन की अच्छी स्तर की पेशकश करने वाला माना जाता रहा है।

पीओपीई विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन का मूल्यांकन करने के लिए एक बाइनरी क्लासिफिकेशन टास्क के रूप में समस्या को फिर से तैयार करता है। जेनरेटेड कैप्शन को पार्स करने के बजाय, सिस्टम मॉडल से छवि में विशिष्ट वस्तुओं के बारे में साधारण हाँ/नहीं प्रश्न पूछता है, ‘क्या छवि में एक <वस्तु> है?’ जैसे टेम्पलेट का उपयोग करता है।

[कैप्शन id=”attachment_216213″ align=”alignnone” width=”950″]рд╡рд┐рдЬрди-рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓ рдореЗрдВ рдСрдмреНрдЬреЗрдХреНрдЯ рд╣реЙрд▓реБрд╕рд┐рдиреЗрд╢рди рдХреЗ рдЙрджрд╛рд╣рд░рдгред рдмреЛрд▓реНрдб рд▓реЗрдмрд▓ рдореВрд▓ рдПрдиреЛрдЯреЗрд╢рди рдореЗрдВ рдЙрдкрд╕реНрдерд┐рдд рд╡рд╕реНрддреБрдУрдВ рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддреЗ рд╣реИрдВ, рдЬрдмрдХрд┐ рд▓рд╛рд▓ рд▓реЗрдмрд▓ рдореЙрдбрд▓ рджреНрд╡рд╛рд░рд╛ рд╣реЙрд▓реБрд╕рд┐рдиреЗрдЯ рдХреА рдЧрдИ рд╡рд╕реНрддреБрдУрдВ рдХреЛ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВред рдмрд╛рдпрд╛рдВ рдЙрджрд╛рд╣рд░рдг рдПрдХ рдкрд╛рд░рдВрдкрд░рд┐рдХ рдирд┐рд░реНрджреЗрд╢-рдЖрдзрд╛рд░рд┐рдд рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рджрд╛рдИрдВ рдУрд░ рдХреЗ рддреАрди рдЙрджрд╛рд╣рд░рдг рд╡рд┐рднрд┐рдиреНрди рдкреАрдУрдкреАрдИ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╡реЗрд░рд┐рдПрдВрдЯ рд╕реЗ рд▓рд┐рдП рдЧрдП рд╣реИрдВред рд╕реНрд░реЛрдд: https://aclanthology.org/2023.emnlp-main.20.pdf विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन के उदाहरण। बोल्ड लेबल मूल एनोटेशन में उपस्थित वस्तुओं को इंगित करते हैं, जबकि लाल लेबल मॉडल द्वारा हॉलुसिनेट की गई वस्तुओं को दिखाते हैं। बायां उदाहरण एक पारंपरिक निर्देश-आधारित मूल्यांकन को दर्शाता है, जबकि दाईं ओर के तीन उदाहरण विभिन्न पीओपीई बेंचमार्क वेरिएंट से लिए गए हैं। स्रोत: https://aclanthology.org/2023.emnlp-main.20.pdf[/कैप्शन]

ग्राउंड-ट्रुथ ऑब्जेक्ट (उत्तर: हाँ) को नमूना गैर-मौजूद ऑब्जेक्ट (उत्तर: नहीं) के साथ जोड़ा जाता है, जो यादृच्छिक, बार-बार (लोकप्रिय), या सह-उद्भव-आधारित (विरोधी) रणनीतियों के माध्यम से चुना जाता है। यह सेटअप जटिल नियम-आधारित कैप्शन विश्लेषण पर निर्भर किए बिना हॉलुसिनेशन का मूल्यांकन करने की अनुमति देता है।

नए शोध पत्र के लेखक – रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव – पीओपीई की मानी गई सटीकता को चुनौती देते हैं – एमएससीओसीओ (पीओपीई के लिए उपयोग की जाने वाली छवियों के लेबल) की जांच करके – और पाया कि आश्चर्यजनक संख्या में गलत या अस्पष्ट हैं।

[कैप्शन id=”attachment_216214″ align=”alignnone” width=”939″]2014 рдПрдордПрд╕рд╕реАрдУрд╕реАрдУ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рдЙрджрд╛рд╣рд░рдгред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/1405.0312 2014 एमएससीओसीओ डेटासेट के उदाहरण। स्रोत: https://arxiv.org/pdf/1405.0312[/कैप्शन]

इन त्रुटियों ने मॉडल की रैंकिंग को बदल दिया, जिनमें से कुछ ने शुरू में अच्छा प्रदर्शन किया लेकिन सुधारे हुए लेबल के खिलाफ आंका जाने पर पीछे रह गए।

परीक्षणों में, लेखकों ने विभिन्न ओपन-वेट विजन-लैंग्वेज मॉडल का मूल पीओपीई बेंचमार्क और उनके पुनः लेबल वाले रेपोपे संस्करण पर मूल्यांकन किया।

शोध पत्र के अनुसार, सुधारे हुए एनोटेशन ने मॉडल रैंकिंग में उल्लेखनीय परिवर्तन किए, विशेष रूप से एफ1 स्कोर में, जिसमें पीओपीई पर उच्च प्रदर्शन करने वाले कई मॉडल रेपोपे के तहत पदों में गिर गए।

लेखकों का तर्क है कि यह परिवर्तन यह दर्शाता है कि एनोटेशन त्रुटियों की कितनी हद तक मॉडल के हॉलुसिनेशन व्यवहार को धुंधला कर सकती हैं, और वे रेपोपे को हॉलुसिनेशन की कमजोरता का मूल्यांकन करने के लिए एक अधिक विश्वसनीय उपकरण के रूप में प्रस्तुत करते हैं।

[कैप्शन id=”attachment_216215″ align=”alignnone” width=”940″]рдирдП рд╢реЛрдз рдкрддреНрд░ рдореЗрдВ рдПрдХ рдФрд░ рдЙрджрд╛рд╣рд░рдг, рдЬрд╣рд╛рдВ рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдореВрд▓ рдкреАрдУрдкреАрдИ рдХреИрдкреНрд╢рди рдмрд╛рд░реАрдХ рд╡рд╕реНрддреБрдУрдВ рдХреЛ рдкрд╣рдЪрд╛рдирдиреЗ рдореЗрдВ рд╡рд┐рдлрд▓ рд░рд╣рддреЗ рд╣реИрдВ, рдЬреИрд╕реЗ рдХрд┐ рдЯреНрд░рд╛рдо рдХреЗ рдХреЗрдмрд┐рди рдХреЗ рдмрдЧрд▓ рдореЗрдВ рдмреИрдард╛ рдПрдХ рд╡реНрдпрдХреНрддрд┐ рдпрд╛ рдЯреЗрдирд┐рд╕ рдЦрд┐рд▓рд╛рдбрд╝реА рджреНрд╡рд╛рд░рд╛ рдврдХреА рдХреБрд░реНрд╕реАред नए शोध पत्र में एक और उदाहरण, जहां हम देखते हैं कि मूल पीओपीई कैप्शन बारीक वस्तुओं को पहचानने में विफल रहते हैं, जैसे कि ट्राम के केबिन के बगल में बैठा एक व्यक्ति या टेनिस खिलाड़ी द्वारा ढकी कुर्सी।[/em>[/कैप्शन]

विधि और परीक्षण

शोधकर्ताओं ने मूल एमएससीओसीओ डेटासेट में सभी एनोटेशन को फिर से लेबल किया, प्रत्येक डेटा उदाहरण के लिए दो मानव लेबलर नियुक्त किए। जहां मूल लेबल की गुणवत्ता के बारे में अस्पष्टता उत्पन्न हुई (नीचे दिए गए उदाहरणों की तरह), इन परिणामों को परीक्षण दौर से अलग रखा गया।

[कैप्शन id=”attachment_216218″ align=”alignnone” width=”942″]рдЕрд╕реНрдкрд╖реНрдЯ рдорд╛рдорд▓реЗ, рдЬрд╣рд╛рдВ рдкреАрдУрдкреАрдИ рдореЗрдВ рд▓реЗрдмрд▓рд┐рдВрдЧ рдЕрд╕рдВрдЧрддрддрд╛ рд╕реНрдкрд╖реНрдЯ рд╢реНрд░реЗрдгреА рд╕реАрдорд╛рдУрдВ рдХреЛ рджрд░реНрд╢рд╛рддреА рд╣реИред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрдХ рдЯреЗрдбреА рдмрд┐рдпрд░ рдХреЛ рдПрдХ рднрд╛рд▓реВ рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрдмрд▓ рдХрд┐рдпрд╛ рдЧрдпрд╛, рдПрдХ рдореЛрдЯрд░рд╕рд╛рдЗрдХрд┐рд▓ рдХреЛ рдПрдХ рд╕рд╛рдЗрдХрд┐рд▓ рдХреЗ рд░реВрдк рдореЗрдВ рдФрд░ рд╣рд╡рд╛рдИ рдЕрдбреНрдбреЗ рдХреЗ рд╡рд╛рд╣рдиреЛрдВ рдХреЛ рдХрд╛рд░реЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрдмрд▓ рдХрд┐рдпрд╛ рдЧрдпрд╛ред рдпреЗ рдорд╛рдорд▓реЗ рд╡рд┐рд╖рдпрдЧрдд рд╡рд░реНрдЧреАрдХрд░рдг рдХреА рдЕрд╕реНрдкрд╖реНрдЯрддрд╛ рдХреЗ рдХрд╛рд░рдг, рд╕рд╛рде рд╣реА рдПрдордПрд╕рд╕реАрдУрд╕реАрдУ рдХреЗ рдореВрд▓ рд▓реЗрдмрд▓ рдореЗрдВ рдЕрд╕рдВрдЧрддрддрд╛ рдХреЗ рдХрд╛рд░рдг рд░реЗрдкреЛрдкреЗ рд╕реЗ рдмрд╛рд╣рд░ рд░рдЦреЗ рдЧрдП рдереЗред अस्पष्ट मामले, जहां पीओपीई में लेबलिंग असंगतता स्पष्ट श्रेणी सीमाओं को दर्शाती है। उदाहरण के लिए, एक टेडी बियर को एक भालू के रूप में लेबल किया गया, एक मोटरसाइकिल को एक साइकिल के रूप में और हवाई अड्डे के वाहनों को कारों के रूप में लेबल किया गया। ये मामले विषयगत वर्गीकरण की अस्पष्टता के कारण, साथ ही एमएससीओसीओ के मूल लेबल में असंगतता के कारण रेपोपे से बाहर रखे गए थे।[/em>[/कैप्शन]

शोध पत्र में कहा गया है:

‘मूल एनोटेटर्स ने पृष्ठभूमि में या ग्लास के पीछे व्यक्तियों को याद किया, टेनिस खिलाड़ी पृष्ठभूमि में ‘कुर्सियों’ को ढक देता है और कोलेस्लॉ में केवल एक छोटी सी दिखाई देने वाली गाजर की धारी होती है। ‘

‘कुछ वस्तुओं के लिए, सीओसीओ एनोटेशन असंगत हैं, शायद मूल एनोटेटर्स द्वारा उनका उपयोग की जाने वाली वस्तुओं की विभिन्न परिभाषाओं के कारण। एक ‘टेडी बियर’ को ‘भालू’ के रूप में वर्गीकृत करना, एक मोटरसाइकिल को ‘मोटर चालित साइकिल’ के रूप में या एक हवाई अड्डे के वाहन को ‘कार’ के रूप में वर्गीकृत करना वस्तु की विशिष्ट परिभाषाओं पर निर्भर करता है, जो पीओपीई ग्राउंड ट्रुथ एनोटेशन में असंगतता की ओर ले जाता है। इसलिए, हम संबंधित छवि-प्रश्न जोड़ों को ‘अस्पष्ट’ के रूप में लेबल करते हैं। ‘

[कैप्शन id=”attachment_216219″ align=”alignnone” width=”874″]рдкреБрдирдГ рд▓реЗрдмрд▓рд┐рдВрдЧ рдХреЗ рдкрд░рд┐рдгрд╛рдо: рдкреАрдУрдкреАрдИ рдХреЗ рд╕рднреА рддреАрди рд╕рдВрд╕реНрдХрд░рдгреЛрдВ рдореЗрдВ рд╕рдХрд╛рд░рд╛рддреНрдордХ рдкреНрд░рд╢реНрди рд╕рд╛рдЭрд╛ рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред рдкреАрдУрдкреАрдИ рдореЗрдВ 'рд╣рд╛рдБ' рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрдмрд▓ рдХрд┐рдП рдЧрдП рд▓реЛрдЧреЛрдВ рдореЗрдВ рд╕реЗ, 9.3 рдкреНрд░рддрд┐рд╢рдд рдЧрд▓рдд рдкрд╛рдП рдЧрдП рдФрд░ 13.8 рдкреНрд░рддрд┐рд╢рдд рдХреЛ рдЕрд╕реНрдкрд╖реНрдЯ рд╡рд░реНрдЧреАрдХреГрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ред 'рдирд╣реАрдВ' рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рд▓рд┐рдП, 1.7 рдкреНрд░рддрд┐рд╢рдд рдЧрд▓рдд рд▓реЗрдмрд▓ рдХрд┐рдП рдЧрдП рдФрд░ 4.3 рдкреНрд░рддрд┐рд╢рдд рдЕрд╕реНрдкрд╖реНрдЯ рдереЗред पुनः लेबलिंग के परिणाम: पीओपीई के सभी तीन संस्करणों में सकारात्मक प्रश्न साझा किए जाते हैं। पीओपीई में ‘हाँ’ के रूप में लेबल किए गए लोगों में से, 9.3 प्रतिशत गलत पाए गए और 13.8 प्रतिशत को अस्पष्ट वर्गीकृत किया गया। ‘नहीं’ प्रश्नों के लिए, 1.7 प्रतिशत गलत लेबल किए गए और 4.3 प्रतिशत अस्पष्ट थे।[/em>[/कैप्शन]

लेखकों ने विभिन्न ओपन-वेट मॉडल का पीओपीई और रेपोपे पर मूल्यांकन किया, विभिन्न आर्किटेक्चर और मॉडल आकारों के साथ। मूल्यांकन किए गए मॉडल में शामिल थे ओपनवीएलएम लीडरबोर्ड पर अग्रणी आर्किटेक्चर: इंटरनवीएल2.5 (8बी/26बी/38बी/78बी और 8बी-एमपीओ/26बी-एमपीओ); एलएवीए-नेक्स्ट; विकुना; मिस्ट्रल 7बी; लामा; एलएवीए-वनविजन; ओविस2 (1बी/2बी/4बी/8बी); पालीगेम्मा-3बी; और पालीगेम्मा2 (3बी/10बी)।

[कैप्शन id=”attachment_216220″ align=”alignnone” width=”880″]рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкрд░рд┐рдгрд╛рдо: рдореВрд▓ рд╕рдХрд╛рд░рд╛рддреНрдордХ рд▓реЗрдмрд▓ рдореЗрдВ рдЙрдЪреНрдЪ рддреНрд░реБрдЯрд┐ рджрд░ рд╕рднреА рдореЙрдбрд▓ рдореЗрдВ рд╕рдЪреНрдЪреЗ рд╕рдХрд╛рд░рд╛рддреНрдордХ рдореЗрдВ рддреЗрдЬреА рд╕реЗ рдЧрд┐рд░рд╛рд╡рдЯ рдХреА рдУрд░ рд▓реЗ рдЬрд╛рддреА рд╣реИред рдЭреВрдареЗ рд╕рдХрд╛рд░рд╛рддреНрдордХ рдкреНрд░рд╢реНрдиреЛрдВ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрди рдЙрдкрд╕реЗрдЯ рдХреЗ рд╕рд╛рде рднрд┐рдиреНрди рд╣реЛрддрд╛ рд╣реИ, рдЬреЛ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдЙрдкрд╕реЗрдЯ рдкрд░ рд▓рдЧрднрдЧ рджреЛрдЧреБрдирд╛ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рд▓реЛрдХрдкреНрд░рд┐рдп рдЙрдкрд╕реЗрдЯ рдкрд░ рд▓рдЧрднрдЧ рдЕрдкрд░рд┐рд╡рд░реНрддрд┐рдд рд░рд╣рддрд╛ рд╣реИ, рдФрд░ рд╡рд┐рд░реЛрдзреА рдЙрдкрд╕реЗрдЯ рдкрд░ рдереЛрдбрд╝рд╛ рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред рдкреБрдирдГ рд▓реЗрдмрд▓рд┐рдВрдЧ рдПрдл1-рдЖрдзрд╛рд░рд┐рдд рд░реИрдВрдХрд┐рдВрдЧ рдкрд░ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рднрд╛рд╡ рдбрд╛рд▓рддреА рд╣реИред рдкреАрдУрдкреАрдИ рдкрд░ рд▓реЛрдХрдкреНрд░рд┐рдп рдФрд░ рд╡рд┐рд░реЛрдзреА рд╡рд┐рднрд╛рдЬрди рдореЗрдВ рдЕрдЪреНрдЫрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдЬреИрд╕реЗ рдУрд╡рд┐рд╕2-4рдмреА рдФрд░ рдУрд╡рд┐рд╕2-8рдмреА рд░реЗрдкреЛрдкреЗ рдХреЗ рддрд╣рдд рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдЙрдкрд╕реЗрдЯ рдкрд░ рднреА рд╢реАрд░реНрд╖ рдкрд░ рдкрд╣реБрдВрдЪ рдЬрд╛рддреЗ рд╣реИрдВред рдХреГрдкрдпрд╛ рдмреЗрд╣рддрд░ рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рдХреЗ рд▓рд┐рдП рд╕реНрд░реЛрдд рдкреАрдбреАрдПрдл рдкрд░ рдЬрд╛рдПрдВред प्रारंभिक परिणाम: मूल सकारात्मक लेबल में उच्च त्रुटि दर सभी मॉडल में सच्चे सकारात्मक में तेजी से गिरावट की ओर ले जाती है। झूठे सकारात्मक प्रश्नों में परिवर्तन उपसेट के साथ भिन्न होता है, जो यादृच्छिक उपसेट पर लगभग दोगुना हो जाता है, लोकप्रिय उपसेट पर लगभग अपरिवर्तित रहता है, और विरोधी उपसेट पर थोड़ा कम हो जाता है। पुनः लेबलिंग एफ1-आधारित रैंकिंग पर एक महत्वपूर्ण प्रभाव डालती है। पीओपीई पर लोकप्रिय और विरोधी विभाजन में अच्छा प्रदर्शन करने वाले मॉडल जैसे ओविस2-4बी और ओविस2-8बी रेपोपे के तहत यादृच्छिक उपसेट पर भी शीर्ष पर पहुंच जाते हैं। कृपया बेहतर रिज़ॉल्यूशन के लिए स्रोत पीडीएफ पर जाएं।[/em>[/कैप्शन]

परिणाम ग्राफ ऊपर दिखाते हैं कि पुनः लेबलिंग के बाद सच्चे सकारात्मक और झूठे सकारात्मक में कैसे बदलाव आता है।

सच्चे सकारात्मक सभी मॉडल में गिरे, जो यह दर्शाता है कि वे अक्सर सही उत्तरों के लिए श्रेय दिए जाते थे जब वे केवल दोषपूर्ण लेबल के तहत सही थे। झूठे सकारात्मक एक अधिक विविध पैटर्न का अनुसरण किया।

‘यादृच्छिक’ पीओपीई संस्करण पर, झूठे सकारात्मक कई मॉडल के लिए लगभग दोगुने हो गए, जो यह दर्शाता है कि एक महत्वपूर्ण संख्या में वस्तुओं को हॉलुसिनेशन के रूप में चिह्नित किया गया था जो वास्तव में छवियों में मौजूद थीं लेकिन मूल एनोटेशन में याद की गई थीं। इस मामले में, कई माने जाने वाले मॉडल त्रुटियां वास्तव में डेटासेट लेबलिंग त्रुटियां थीं।

‘विरोधी’ पीओपीई संस्करण के लिए, जहां प्रश्न अक्सर सह-उद्भव वाली वस्तुओं पर आधारित थे, झूठे सकारात्मक में गिरावट आई। यह शायद इसलिए है क्योंकि कथित रूप से अनुपस्थित वस्तु वास्तव में छवि में मौजूद थी लेकिन लेबलिंग के दौरान अनलेबल्ड छोड़ दी गई थी।

हालांकि ये परिवर्तन सटीकता और पुनरावृत्ति को प्रभावित करते हैं, मॉडल रैंकिंग दोनों मेट्रिक्स के लिए अपेक्षाकृत स्थिर रही।

पीओपीई के मुख्य मूल्यांकन उपाय के रूप में एफ1 स्कोर पुनः लेबलिंग के प्रति बहुत अधिक संवेदनशील था। यादृच्छिक उपसेट पर, मॉडल जो मूल लेबल के साथ शीर्ष पर थे, जैसे कि इंटरनवीएल2.5-8बी और -26बी, रेपोपे के साथ स्कोरिंग पर नीचे गिर गए। अन्य, जैसे ओविस2-4बी और -8बी, शीर्ष पर पहुंच गए।

एक समान पैटर्न सटीकता स्कोर में भी दिखाई दिया, हालांकि लेखकों का उल्लेख है कि वे अब पूर्वाग्रह से ग्रस्त हो सकते हैं, क्योंकि सुधारा गया डेटासेट सकारात्मक और नकारात्मक उदाहरणों की असमान संख्या है।

लेखकों का तर्क है कि बेंचमार्क परिणामों पर एनोटेशन त्रुटियों का मजबूत प्रभाव उच्च गुणवत्ता वाले डेटा की आवश्यकता को रेखांकित करता है। हॉलुसिनेशन का मूल्यांकन करने के लिए अधिक विश्वसनीय मूल्यांकन का समर्थन करने के लिए, उन्होंने सुधारे हुए लेबल को गिटहब पर जारी किया है।

हालांकि, वे यह भी नोट करते हैं कि यह पुनः लेबलिंग बेंचमार्क की संतृप्ति को पूरी तरह से संबोधित नहीं करती है, क्योंकि कई मॉडल अभी भी सच्चे सकारात्मक और सच्चे नकारात्मक दरों में 90% से अधिक हासिल करते हैं। वे सुझाव देते हैं कि अतिरिक्त बेंचमार्क, जैसे डीएएसएच-बी, जो नकारात्मक उदाहरणों के एक अधिक चुनौतीपूर्ण सेट का उपयोग करता है, को रेपोपे के साथ-साथ उपयोग किया जाना चाहिए।

निष्कर्ष

यह विशिष्ट प्रयोग संभव था क्योंकि शामिल डेटासेट का आकार बहुत छोटा था। इसी तरह के अनुमान को हाइपरस्केल डेटासेट पर साबित करना डेटा के बहुत सीमित खंडों पर काम करने का मतलब होगा; अत्यधिक विविध बड़े डेटासेट में, यह परिणामों को विकृत करने वाला साबित हो सकता है।

यहां तक कि अगर यह संभव होता, तो वर्तमान राज्य-ऑफ-द-आर्ट के तहत क्या उपाय होगा? तर्क फिर से बेहतर और अधिक मानवीय एनोटेशन की आवश्यकता की ओर बढ़ जाता है।

इस संबंध में, ‘बेहतर’ और ‘अधिक’ अपने आप में अलग-अलग समस्याएं हैं, क्योंकि एक को एमएटी जैसी रेस-टू-द-बॉटम अर्थव्यवस्थाओं के माध्यम से एनोटेशन की बड़ी मात्रा प्राप्त की जा सकती है। स्पष्ट रूप से, यह संभावित रूप से शोषणकारी उप-आर्थिकी अक्सर खराब परिणामों की ओर ले जाती है।

वैकल्पिक रूप से, एक एनोटेशन कार्यों को आर्थिक क्षेत्रों में आउटसोर्स कर सकता है जहां समान व्यय अधिक मात्रा में एनोटेशन पैदा करेगा। हालांकि, जितना अधिक एनोटेटर मॉडल के लेबल के इच्छित उपयोग के मामले से दूर है, उतना ही कम संभावना है कि परिणामी मॉडल लक्ष्य डोमेन की आवश्यकताओं या अपेक्षाओं के साथ संरेखित होगा।

यह मशीन लर्निंग विकास के अर्थशास्त्र में सबसे लगातार और असुलझे चुनौतियों में से एक बनी हुई है।

 

पहली बार बुधवार, 23 अप्रैल, 2025 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai