Anderson का एंगल

एआई अनुसंधान में ‘डाउनलोड मोर लेबल्स!’ भ्रम

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

वर्तमान मशीन लर्निंग अनुसंधान में एक सामान्य दृष्टिकोण यह है कि मशीन लर्निंग को ही एआई डेटासेट एनोटेशन की गुणवत्ता में सुधार करने के लिए उपयोग किया जा सकता है – विशेष रूप से विजन-लैंग्वेज मॉडल (वीएलएम) के लिए उपयोग किए जाने वाले छवि कैप्शन। यह तर्क मानव एनोटेशन की उच्च लागत और एनोटेटर प्रदर्शन की देखरेख के बोझ द्वारा चलाया जाता है।

यह तर्कatably एआई के लिए 2000 के दशक के शुरुआती दौर के ‘डाउनलोड मोर रैम’ मीम के समान है, जिसने हार्डवेयर सीमा को सॉफ्टवेयर-आधारित फिक्स के साथ हल करने की अवधारणा का उपहास किया था।

यह एक कम माना जाने वाला मुद्दा भी है; जबकि नए एआई मॉडल सार्वजनिक और व्यावसायिक क्षेत्रों में व्यापक ध्यान आकर्षित करते हैं, एनोटेशन अक्सर मशीन लर्निंग पाइपलाइनों में एक तुच्छ विवरण के रूप में दिखाई देता है, जो व्यापक फ्रेमवर्क के आसपास के उत्साह से ढका होता है।

वास्तव में, मशीन लर्निंग सिस्टम की पैटर्न को पहचानने और पुनरुत्पादित करने की क्षमता (लगभग सभी एआई सिस्टम का केंद्रीय उपयोग मामला) वास्तविक दुनिया के एनोटेशन की गुणवत्ता और संगति पर निर्भर करती है – लेबल और वाक्यांश जो वास्तविक लोगों द्वारा बनाए या निर्णीत किए जाते हैं, अक्सर व्यक्तिगत डेटा बिंदुओं के बारे में विषयगत निर्णय लेते हैं जो गैर-आदर्श परिस्थितियों में होते हैं।

अनिवार्य रूप से, जो प्रणाली एनोटेटर व्यवहार में पैटर्न का अवलोकन और पुनरुत्पादन करना चाहती हैं (और इस प्रकार मानव एनोटेटर को बदलना और सटीक लेबलिंग को सुविधाजनक बनाना), उन डेटा पर अच्छा प्रदर्शन नहीं कर सकती हैं जो मानव पर्यवेक्षकों से लिए गए उदाहरणों में नहीं है। कुछ भी ‘समान’ बिल्कुल समान नहीं है, और क्रॉस-डोमेन समकक्षता कंप्यूटर विजन में एक समस्याग्रस्त पीछा बनी हुई है।

‘अपस्ट्रीम डेटा बक’ को कहीं न कहीं रुकना होगा, और इस मामले में, यह वहीं रुक जाता है – एक मानव मस्तिष्क के साथ जो कुछ विषयगत भेदभाव कर रहा है ताकि कृत्रिम प्रणाली के लिए डेटा को संक्षिप्त किया जा सके।

द रैग ट्रेड

हाल तक तक, कम-चुने हुए डेटासेट एनोटेशन से उत्पन्न असंगतताएं, शायद, जेनरेटिव एआई सिस्टम से प्राप्त परिणामों के संदर्भ में स्वीकार्य सहयोगी नुकसान के रूप में देखी जाती थीं।

वास्तव में, इस वर्ष एक सिंगापुर अध्ययन में निष्कर्ष निकाला गया कि हॉलुसिनेशन – अर्थात्, एआई सिस्टम द्वारा उन चीजों का आविष्कार करना जो हमारे इरादों को कमजोर करते हैं – अपरिहार्य हैं, और ऐसे सिस्टम की概念ात्मक वास्तुकला में बंधे हुए हैं।

इसका मुकाबला करने के लिए, आरएजी-आधारित एजेंट – जो इंटरनेट खोजों के माध्यम से तथ्यों की ‘पुष्टि’ कर सकते हैं – शोध और व्यावसायिक समाधानों में लोकप्रिय हो रहे हैं। हालांकि, वे संसाधन लागत और प्रश्नों में देरी को जोड़ते हैं; इसके अलावा, एक प्रशिक्षित मॉडल पर लागू की गई नई जानकारी मूल रूप से प्रशिक्षित मॉडल में मूल परतों की विशिष्ट और गहराई से जुड़ी हुई कनेक्शनों के साथ प्रतिस्पर्धा नहीं कर सकती है।

यह तब बेहतर होगा यदि इन मॉडलों को सूचित करने वाले एनोटेशन डेटा में पहले से ही महत्वपूर्ण रूप से कम दोष हों, भले ही यह पूरी तरह से सही नहीं हो (क्योंकि यह गतिविधि मानव विषयगतता के क्षेत्र में प्रवेश करती है)।

रेपोप

जर्मनी से एक नए शोध पत्र में पुराने, व्यापक रूप से उपयोग किए जाने वाले डेटासेट पर निर्भर रहने से उत्पन्न समस्याओं पर प्रकाश डाला गया है, विशेष रूप से उनकी छवि कैप्शन की सटीकता और विश्वसनीयता पर ध्यान केंद्रित किया गया है। शोधकर्ताओं के निष्कर्ष सुझाव देते हैं कि बेंचमार्क में लेबल त्रुटियां विजन-लैंग्वेज मॉडल में हॉलुसिनेशन को मास्क या गलत तरीके से प्रस्तुत कर सकती हैं।

[कैप्शन id=”attachment_216212″ align=”alignnone” width=”961″] नए शोध पत्र से, कुछ उदाहरण जहां मूल कैप्शन एमएससीओसीओ डेटासेट की छवियों में वस्तुओं की सही पहचान करने में विफल रहे। शोधकर्ताओं के पीओपीई बेंचमार्क डेटासेट का मैनुअल संशोधन इन कमियों को संबोधित करता है, एनोटेशन क्यूरेशन पर पैसे बचाने की लागत को प्रदर्शित करता है। स्रोत: https://arxiv.org/pdf/2504.15707 नए शोध पत्र से, कुछ उदाहरण जहां मूल कैप्शन एमएससीओसीओ डेटासेट की छवियों में वस्तुओं की सही पहचान करने में विफल रहे। शोधकर्ताओं के पीओपीई बेंचमार्क डेटासेट का मैनुअल संशोधन इन कमियों को संबोधित करता है, एनोटेशन क्यूरेशन पर पैसे बचाने की लागत को प्रदर्शित करता है। स्रोत: https://arxiv.org/pdf/2504.15707[/कैप्शन]

एक मॉडल को एक स्ट्रीट सीन की छवि दिखाई जाती है और पूछा जाता है कि क्या इसमें एक साइकिल है। मॉडल हाँ का जवाब देता है। यदि बेंचमार्क डेटासेट कहता है कि इसमें कोई साइकिल नहीं है, तो मॉडल को गलत चिह्नित किया जाता है। लेकिन अगर एक साइकिल स्पष्ट रूप से दिखाई दे रही है छवि में और एनोटेशन के दौरान इसे याद किया गया था, तो मॉडल का जवाब सही था, और बेंचमार्क विफल रहा।

इस तरह की त्रुटियां डेटासेट भर में जमा हो सकती हैं, जो सटीक और हॉलुसिनेशन के प्रति जो मॉडल हैं और जो नहीं हैं, इसका एक विकृत चित्र प्रस्तुत करती हैं।

इसलिए, जब गलत या अस्पष्ट एनोटेशन को ग्राउंड ट्रुथ के रूप में माना जाता है, तो मॉडल हॉलुसिनेट करने के लिए प्रतीत हो सकते हैं जब वे सही होते हैं, या सटीक लगते हैं जब वे नहीं होते हैं, जो हॉलुसिनेशन और मॉडल प्रदर्शन के मूल्यांकन दोनों को विकृत करता है, और समस्या का निदान या संबोधन करना मुश्किल बना देता है।

नए शोध पत्र में रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव शीर्षक से पीओपीई नामक एक व्यापक रूप से उपयोग किए जाने वाले बेंचमार्क को फिर से देखा गया है, जो यह परीक्षण करता है कि क्या विजन-लैंग्वेज मॉडल छवियों में सही ढंग से बता सकते हैं कि क्या है या नहीं।

पीओपीई प्रभावशाली माइक्रोसॉफ्ट सीओसीओ: कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट (एमएससीओसीओ) डेटासेट से लेबल पर आधारित है, जो लंबे समय से एनोटेशन की अच्छी स्तर की पेशकश करने वाला माना जाता रहा है।

पीओपीई विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन का मूल्यांकन करने के लिए एक बाइनरी क्लासिफिकेशन टास्क के रूप में समस्या को फिर से तैयार करता है। जेनरेटेड कैप्शन को पार्स करने के बजाय, सिस्टम मॉडल से छवि में विशिष्ट वस्तुओं के बारे में साधारण हाँ/नहीं प्रश्न पूछता है, ‘क्या छवि में एक <वस्तु> है?’ जैसे टेम्पलेट का उपयोग करता है।

[कैप्शन id=”attachment_216213″ align=”alignnone” width=”950″] विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन के उदाहरण। बोल्ड लेबल मूल एनोटेशन में उपस्थित वस्तुओं को इंगित करते हैं, जबकि लाल लेबल मॉडल द्वारा हॉलुसिनेट की गई वस्तुओं को दिखाते हैं। बायां उदाहरण एक पारंपरिक निर्देश-आधारित मूल्यांकन को दर्शाता है, जबकि दाईं ओर के तीन उदाहरण विभिन्न पीओपीई बेंचमार्क वेरिएंट से लिए गए हैं। स्रोत: https://aclanthology.org/2023.emnlp-main.20.pdf विजन-लैंग्वेज मॉडल में ऑब्जेक्ट हॉलुसिनेशन के उदाहरण। बोल्ड लेबल मूल एनोटेशन में उपस्थित वस्तुओं को इंगित करते हैं, जबकि लाल लेबल मॉडल द्वारा हॉलुसिनेट की गई वस्तुओं को दिखाते हैं। बायां उदाहरण एक पारंपरिक निर्देश-आधारित मूल्यांकन को दर्शाता है, जबकि दाईं ओर के तीन उदाहरण विभिन्न पीओपीई बेंचमार्क वेरिएंट से लिए गए हैं। स्रोत: https://aclanthology.org/2023.emnlp-main.20.pdf[/कैप्शन]

ग्राउंड-ट्रुथ ऑब्जेक्ट (उत्तर: हाँ) को नमूना गैर-मौजूद ऑब्जेक्ट (उत्तर: नहीं) के साथ जोड़ा जाता है, जो यादृच्छिक, बार-बार (लोकप्रिय), या सह-उद्भव-आधारित (विरोधी) रणनीतियों के माध्यम से चुना जाता है। यह सेटअप जटिल नियम-आधारित कैप्शन विश्लेषण पर निर्भर किए बिना हॉलुसिनेशन का मूल्यांकन करने की अनुमति देता है।

नए शोध पत्र के लेखक – रेपोपे: पीओपीई बेंचमार्क पर एनोटेशन त्रुटियों का प्रभाव – पीओपीई की मानी गई सटीकता को चुनौती देते हैं – एमएससीओसीओ (पीओपीई के लिए उपयोग की जाने वाली छवियों के लेबल) की जांच करके – और पाया कि आश्चर्यजनक संख्या में गलत या अस्पष्ट हैं।

[कैप्शन id=”attachment_216214″ align=”alignnone” width=”939″] 2014 एमएससीओसीओ डेटासेट के उदाहरण। स्रोत: https://arxiv.org/pdf/1405.0312 2014 एमएससीओसीओ डेटासेट के उदाहरण। स्रोत: https://arxiv.org/pdf/1405.0312[/कैप्शन]

इन त्रुटियों ने मॉडल की रैंकिंग को बदल दिया, जिनमें से कुछ ने शुरू में अच्छा प्रदर्शन किया लेकिन सुधारे हुए लेबल के खिलाफ आंका जाने पर पीछे रह गए।

परीक्षणों में, लेखकों ने विभिन्न ओपन-वेट विजन-लैंग्वेज मॉडल का मूल पीओपीई बेंचमार्क और उनके पुनः लेबल वाले रेपोपे संस्करण पर मूल्यांकन किया।

शोध पत्र के अनुसार, सुधारे हुए एनोटेशन ने मॉडल रैंकिंग में उल्लेखनीय परिवर्तन किए, विशेष रूप से एफ1 स्कोर में, जिसमें पीओपीई पर उच्च प्रदर्शन करने वाले कई मॉडल रेपोपे के तहत पदों में गिर गए।

लेखकों का तर्क है कि यह परिवर्तन यह दर्शाता है कि एनोटेशन त्रुटियों की कितनी हद तक मॉडल के हॉलुसिनेशन व्यवहार को धुंधला कर सकती हैं, और वे रेपोपे को हॉलुसिनेशन की कमजोरता का मूल्यांकन करने के लिए एक अधिक विश्वसनीय उपकरण के रूप में प्रस्तुत करते हैं।

[कैप्शन id=”attachment_216215″ align=”alignnone” width=”940″] नए शोध पत्र में एक और उदाहरण, जहां हम देखते हैं कि मूल पीओपीई कैप्शन बारीक वस्तुओं को पहचानने में विफल रहते हैं, जैसे कि ट्राम के केबिन के बगल में बैठा एक व्यक्ति या टेनिस खिलाड़ी द्वारा ढकी कुर्सी। नए शोध पत्र में एक और उदाहरण, जहां हम देखते हैं कि मूल पीओपीई कैप्शन बारीक वस्तुओं को पहचानने में विफल रहते हैं, जैसे कि ट्राम के केबिन के बगल में बैठा एक व्यक्ति या टेनिस खिलाड़ी द्वारा ढकी कुर्सी।[/em>[/कैप्शन]

विधि और परीक्षण

शोधकर्ताओं ने मूल एमएससीओसीओ डेटासेट में सभी एनोटेशन को फिर से लेबल किया, प्रत्येक डेटा उदाहरण के लिए दो मानव लेबलर नियुक्त किए। जहां मूल लेबल की गुणवत्ता के बारे में अस्पष्टता उत्पन्न हुई (नीचे दिए गए उदाहरणों की तरह), इन परिणामों को परीक्षण दौर से अलग रखा गया।

[कैप्शन id=”attachment_216218″ align=”alignnone” width=”942″] अस्पष्ट मामले, जहां पीओपीई में लेबलिंग असंगतता स्पष्ट श्रेणी सीमाओं को दर्शाती है। उदाहरण के लिए, एक टेडी बियर को एक भालू के रूप में लेबल किया गया, एक मोटरसाइकिल को एक साइकिल के रूप में और हवाई अड्डे के वाहनों को कारों के रूप में लेबल किया गया। ये मामले विषयगत वर्गीकरण की अस्पष्टता के कारण, साथ ही एमएससीओसीओ के मूल लेबल में असंगतता के कारण रेपोपे से बाहर रखे गए थे। अस्पष्ट मामले, जहां पीओपीई में लेबलिंग असंगतता स्पष्ट श्रेणी सीमाओं को दर्शाती है। उदाहरण के लिए, एक टेडी बियर को एक भालू के रूप में लेबल किया गया, एक मोटरसाइकिल को एक साइकिल के रूप में और हवाई अड्डे के वाहनों को कारों के रूप में लेबल किया गया। ये मामले विषयगत वर्गीकरण की अस्पष्टता के कारण, साथ ही एमएससीओसीओ के मूल लेबल में असंगतता के कारण रेपोपे से बाहर रखे गए थे।[/em>[/कैप्शन]

शोध पत्र में कहा गया है:

‘मूल एनोटेटर्स ने पृष्ठभूमि में या ग्लास के पीछे व्यक्तियों को याद किया, टेनिस खिलाड़ी पृष्ठभूमि में ‘कुर्सियों’ को ढक देता है और कोलेस्लॉ में केवल एक छोटी सी दिखाई देने वाली गाजर की धारी होती है। ‘

‘कुछ वस्तुओं के लिए, सीओसीओ एनोटेशन असंगत हैं, शायद मूल एनोटेटर्स द्वारा उनका उपयोग की जाने वाली वस्तुओं की विभिन्न परिभाषाओं के कारण। एक ‘टेडी बियर’ को ‘भालू’ के रूप में वर्गीकृत करना, एक मोटरसाइकिल को ‘मोटर चालित साइकिल’ के रूप में या एक हवाई अड्डे के वाहन को ‘कार’ के रूप में वर्गीकृत करना वस्तु की विशिष्ट परिभाषाओं पर निर्भर करता है, जो पीओपीई ग्राउंड ट्रुथ एनोटेशन में असंगतता की ओर ले जाता है। इसलिए, हम संबंधित छवि-प्रश्न जोड़ों को ‘अस्पष्ट’ के रूप में लेबल करते हैं। ‘

[कैप्शन id=”attachment_216219″ align=”alignnone” width=”874″] पुनः लेबलिंग के परिणाम: पीओपीई के सभी तीन संस्करणों में सकारात्मक प्रश्न साझा किए जाते हैं। पीओपीई में 'हाँ' के रूप में लेबल किए गए लोगों में से, 9.3 प्रतिशत गलत पाए गए और 13.8 प्रतिशत को अस्पष्ट वर्गीकृत किया गया। 'नहीं' प्रश्नों के लिए, 1.7 प्रतिशत गलत लेबल किए गए और 4.3 प्रतिशत अस्पष्ट थे। पुनः लेबलिंग के परिणाम: पीओपीई के सभी तीन संस्करणों में सकारात्मक प्रश्न साझा किए जाते हैं। पीओपीई में ‘हाँ’ के रूप में लेबल किए गए लोगों में से, 9.3 प्रतिशत गलत पाए गए और 13.8 प्रतिशत को अस्पष्ट वर्गीकृत किया गया। ‘नहीं’ प्रश्नों के लिए, 1.7 प्रतिशत गलत लेबल किए गए और 4.3 प्रतिशत अस्पष्ट थे।[/em>[/कैप्शन]

लेखकों ने विभिन्न ओपन-वेट मॉडल का पीओपीई और रेपोपे पर मूल्यांकन किया, विभिन्न आर्किटेक्चर और मॉडल आकारों के साथ। मूल्यांकन किए गए मॉडल में शामिल थे ओपनवीएलएम लीडरबोर्ड पर अग्रणी आर्किटेक्चर: इंटरनवीएल2.5 (8बी/26बी/38बी/78बी और 8बी-एमपीओ/26बी-एमपीओ); एलएवीए-नेक्स्ट; विकुना; मिस्ट्रल 7बी; लामा; एलएवीए-वनविजन; ओविस2 (1बी/2बी/4बी/8बी); पालीगेम्मा-3बी; और पालीगेम्मा2 (3बी/10बी)।

[कैप्शन id=”attachment_216220″ align=”alignnone” width=”880″] प्रारंभिक परिणाम: मूल सकारात्मक लेबल में उच्च त्रुटि दर सभी मॉडल में सच्चे सकारात्मक में तेजी से गिरावट की ओर ले जाती है। झूठे सकारात्मक प्रश्नों में परिवर्तन उपसेट के साथ भिन्न होता है, जो यादृच्छिक उपसेट पर लगभग दोगुना हो जाता है, लोकप्रिय उपसेट पर लगभग अपरिवर्तित रहता है, और विरोधी उपसेट पर थोड़ा कम हो जाता है। पुनः लेबलिंग एफ1-आधारित रैंकिंग पर एक महत्वपूर्ण प्रभाव डालती है। पीओपीई पर लोकप्रिय और विरोधी विभाजन में अच्छा प्रदर्शन करने वाले मॉडल जैसे ओविस2-4बी और ओविस2-8बी रेपोपे के तहत यादृच्छिक उपसेट पर भी शीर्ष पर पहुंच जाते हैं। कृपया बेहतर रिज़ॉल्यूशन के लिए स्रोत पीडीएफ पर जाएं।[/em>[/कैप्शन]

परिणाम ग्राफ ऊपर दिखाते हैं कि पुनः लेबलिंग के बाद सच्चे सकारात्मक और झूठे सकारात्मक में कैसे बदलाव आता है।

सच्चे सकारात्मक सभी मॉडल में गिरे, जो यह दर्शाता है कि वे अक्सर सही उत्तरों के लिए श्रेय दिए जाते थे जब वे केवल दोषपूर्ण लेबल के तहत सही थे। झूठे सकारात्मक एक अधिक विविध पैटर्न का अनुसरण किया।

‘यादृच्छिक’ पीओपीई संस्करण पर, झूठे सकारात्मक कई मॉडल के लिए लगभग दोगुने हो गए, जो यह दर्शाता है कि एक महत्वपूर्ण संख्या में वस्तुओं को हॉलुसिनेशन के रूप में चिह्नित किया गया था जो वास्तव में छवियों में मौजूद थीं लेकिन मूल एनोटेशन में याद की गई थीं। इस मामले में, कई माने जाने वाले मॉडल त्रुटियां वास्तव में डेटासेट लेबलिंग त्रुटियां थीं।

‘विरोधी’ पीओपीई संस्करण के लिए, जहां प्रश्न अक्सर सह-उद्भव वाली वस्तुओं पर आधारित थे, झूठे सकारात्मक में गिरावट आई। यह शायद इसलिए है क्योंकि कथित रूप से अनुपस्थित वस्तु वास्तव में छवि में मौजूद थी लेकिन लेबलिंग के दौरान अनलेबल्ड छोड़ दी गई थी।

हालांकि ये परिवर्तन सटीकता और पुनरावृत्ति को प्रभावित करते हैं, मॉडल रैंकिंग दोनों मेट्रिक्स के लिए अपेक्षाकृत स्थिर रही।

पीओपीई के मुख्य मूल्यांकन उपाय के रूप में एफ1 स्कोर पुनः लेबलिंग के प्रति बहुत अधिक संवेदनशील था। यादृच्छिक उपसेट पर, मॉडल जो मूल लेबल के साथ शीर्ष पर थे, जैसे कि इंटरनवीएल2.5-8बी और -26बी, रेपोपे के साथ स्कोरिंग पर नीचे गिर गए। अन्य, जैसे ओविस2-4बी और -8बी, शीर्ष पर पहुंच गए।

एक समान पैटर्न सटीकता स्कोर में भी दिखाई दिया, हालांकि लेखकों का उल्लेख है कि वे अब पूर्वाग्रह से ग्रस्त हो सकते हैं, क्योंकि सुधारा गया डेटासेट सकारात्मक और नकारात्मक उदाहरणों की असमान संख्या है।

लेखकों का तर्क है कि बेंचमार्क परिणामों पर एनोटेशन त्रुटियों का मजबूत प्रभाव उच्च गुणवत्ता वाले डेटा की आवश्यकता को रेखांकित करता है। हॉलुसिनेशन का मूल्यांकन करने के लिए अधिक विश्वसनीय मूल्यांकन का समर्थन करने के लिए, उन्होंने सुधारे हुए लेबल को गिटहब पर जारी किया है।

हालांकि, वे यह भी नोट करते हैं कि यह पुनः लेबलिंग बेंचमार्क की संतृप्ति को पूरी तरह से संबोधित नहीं करती है, क्योंकि कई मॉडल अभी भी सच्चे सकारात्मक और सच्चे नकारात्मक दरों में 90% से अधिक हासिल करते हैं। वे सुझाव देते हैं कि अतिरिक्त बेंचमार्क, जैसे डीएएसएच-बी, जो नकारात्मक उदाहरणों के एक अधिक चुनौतीपूर्ण सेट का उपयोग करता है, को रेपोपे के साथ-साथ उपयोग किया जाना चाहिए।

निष्कर्ष

यह विशिष्ट प्रयोग संभव था क्योंकि शामिल डेटासेट का आकार बहुत छोटा था। इसी तरह के अनुमान को हाइपरस्केल डेटासेट पर साबित करना डेटा के बहुत सीमित खंडों पर काम करने का मतलब होगा; अत्यधिक विविध बड़े डेटासेट में, यह परिणामों को विकृत करने वाला साबित हो सकता है।

यहां तक कि अगर यह संभव होता, तो वर्तमान राज्य-ऑफ-द-आर्ट के तहत क्या उपाय होगा? तर्क फिर से बेहतर और अधिक मानवीय एनोटेशन की आवश्यकता की ओर बढ़ जाता है।

इस संबंध में, ‘बेहतर’ और ‘अधिक’ अपने आप में अलग-अलग समस्याएं हैं, क्योंकि एक को एमएटी जैसी रेस-टू-द-बॉटम अर्थव्यवस्थाओं के माध्यम से एनोटेशन की बड़ी मात्रा प्राप्त की जा सकती है। स्पष्ट रूप से, यह संभावित रूप से शोषणकारी उप-आर्थिकी अक्सर खराब परिणामों की ओर ले जाती है।

वैकल्पिक रूप से, एक एनोटेशन कार्यों को आर्थिक क्षेत्रों में आउटसोर्स कर सकता है जहां समान व्यय अधिक मात्रा में एनोटेशन पैदा करेगा। हालांकि, जितना अधिक एनोटेटर मॉडल के लेबल के इच्छित उपयोग के मामले से दूर है, उतना ही कम संभावना है कि परिणामी मॉडल लक्ष्य डोमेन की आवश्यकताओं या अपेक्षाओं के साथ संरेखित होगा।

यह मशीन लर्निंग विकास के अर्थशास्त्र में सबसे लगातार और असुलझे चुनौतियों में से एक बनी हुई है।

पहली बार बुधवार, 23 अप्रैल, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एआई अनुसंधान में ‘डाउनलोड मोर लेबल्स!’ भ्रम

द रैग ट्रेड

रेपोप

विधि और परीक्षण

निष्कर्ष

You may like