Connect with us

рдПрдЖрдИ рдХреА рдПрдирд╛рд▓реЙрдЧ рдШрдбрд╝рд┐рдпреЛрдВ рдХреЛ рдкрдврд╝рдиреЗ рдореЗрдВ рдХрдард┐рдирд╛рдИ рдХрд╛ рдЧрд╣рд░рд╛ рдорд╣рддреНрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдХреА рдПрдирд╛рд▓реЙрдЧ рдШрдбрд╝рд┐рдпреЛрдВ рдХреЛ рдкрдврд╝рдиреЗ рдореЗрдВ рдХрдард┐рдирд╛рдИ рдХрд╛ рдЧрд╣рд░рд╛ рдорд╣рддреНрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

mm
ChatGPT-4o and Adobe Firefly.

चीन और स्पेन के शोधकर्ताओं के एक नए शोध पत्र में पाया गया है कि जीपीटी-4.1 जैसे उन्नत बहुस्तरीय एआई मॉडल भी एनालॉग घड़ियों की तस्वीरों से समय बताने में संघर्ष करते हैं। घड़ियों में छोटे दृश्य परिवर्तन बड़े व्याख्या त्रुटियों का कारण बन सकते हैं, और केवल परिचित उदाहरणों के साथ फाइन-ट्यूनिंग मदद करती है। परिणाम इन मॉडलों की विश्वसनीयता के बारे में चिंता उठाते हैं जब उन्हें वास्तविक दुनिया के कार्यों में अपरिचित छवियों का सामना करना पड़ता है।

जब मनुष्य किसी डोमेन की गहरी समझ विकसित करते हैं, जैसे कि गुरुत्वाकर्षण या अन्य मूलभूत भौतिक सिद्धांत, तो हम विशिष्ट उदाहरणों से परे जाकर अंतर्निहित अमूर्तता को समझने लगते हैं। यह हमें उस ज्ञान को रचनात्मक रूप से विभिन्न संदर्भों में लागू करने और नए उदाहरणों को पहचानने की अनुमति देता है, जिन्हें हमने पहले कभी नहीं देखा है, सिद्धांत को कार्रवाई में पहचानकर।

जब कोई डोमेन पर्याप्त महत्व रखता है, तो हम इसे तब भी पहचानना शुरू कर सकते हैं जब यह मौजूद नहीं होता है, जैसा कि पेरिडोलिया के साथ होता है, जो वास्तविक उदाहरण को पहचानने में विफल होने की उच्च लागत से प्रेरित होता है। यह पैटर्न-मान्यता जीवित रहने का तंत्र इतना मजबूत है कि यह हमें कोई पैटर्न नहीं होने पर भी व्यापक श्रृंखला के पैटर्न खोजने के लिए प्रेरित करता है।

जितनी जल्दी और बार-बार एक डोमेन हमें सिखाया जाता है, उतना ही गहरा इसका आधार और जीवन भर बना रहता है; और जिन पहली दृश्य डेटासेट में से हमें बच्चों के रूप में सिखाया जाता है, वे शिक्षण घड़ियों के रूप में आते हैं, जहां मुद्रित सामग्री या इंटरैक्टिव एनालॉग घड़ियों का उपयोग हमें समय बताना सिखाने के लिए किया जाता है:

рдмрдЪреНрдЪреЛрдВ рдХреЛ рд╕рдордп рдмрддрд╛рдирд╛ рд╕рд┐рдЦрд╛рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╢рд┐рдХреНрд╖рдг рд╕рд╛рдордЧреНрд░реАред рд╕реНрд░реЛрдд: https://www.youtube.com/watch?v=IBBQXBhSNUs

बच्चों को समय बताना सिखाने में मदद करने के लिए शिक्षण सामग्री। स्रोत: https://www.youtube.com/watch?v=IBBQXBhSNUs

हालांकि घड़ी डिज़ाइन में बदलते फैशन कभी-कभी हमें चुनौती दे सकते हैं, इस प्रारंभिक डोमेन-मास्टरी की लचीलापन बहुत प्रभावशाली है, जो हमें जटिल या ‘विचित्र’ डिज़ाइन विकल्पों के बावजूद एनालॉग घड़ी के चेहरे को पहचानने की अनुमति देता है:

рд╡реЙрдЪ рдХреНрдпреВрдЯрд░ рдореЗрдВ рдХреБрдЫ рдЪреБрдиреМрддреАрдкреВрд░реНрдг рдЪреЗрд╣рд░реЗред рд╕реНрд░реЛрдд: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

वॉच क्यूटर में कुछ चुनौतीपूर्ण चेहरे। स्रोत: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

मानव को हजारों उदाहरणों की आवश्यकता नहीं होती घड़ियों के काम करने के तरीके को सीखने के लिए; एक बार मूलभूत अवधारणा को समझ लेने के बाद, हम इसे लगभग किसी भी रूप में पहचान सकते हैं, यहां तक कि जब यह विकृत या अमूर्त होता है।

इस कार्य में एआई मॉडल की कठिनाई एक गहरे मुद्दे को उजागर करती है: उनकी स्पष्ट ताकत उच्च-वॉल्यूम एक्सपोजर पर निर्भर हो सकती है, न कि समझ पर।

नकल के खेल से परे?

सतह-स्तर के प्रदर्शन और वास्तविक ‘समझ’ के बीच तनाव बार-बार हाल के जांच में बड़े मॉडलों में। पिछले महीने जेजियांग विश्वविद्यालय और वेस्टलेक विश्वविद्यालय ने एक पेपर में प्रश्न को फिर से तैयार किया, जिसका शीर्षक था क्या पीएचडी-स्तर के एलएलएम वास्तव में प्राथमिक जोड़ को समझते हैं? (यह इस लेख का फोकस नहीं है), निष्कर्ष निकाला:

‘बेंचमार्क में प्रभावशाली होने के बावजूद, मॉडल पैटर्न मिलान के बजाय वास्तविक समझ पर महत्वपूर्ण निर्भरता दिखाते हैं, जो प्रतीकात्मक प्रतिनिधित्व और मूलभूत गुणों के उल्लंघन के साथ विफलता से साबित होता है।

‘नियम प्रावधान के प्रदर्शन को बाधित करने से संरचनात्मक प्रतिबंधों का संकेत मिलता है। ये अंतर्दृष्टि मूल्यांकन अंतराल को उजागर करती हैं और वास्तविक गणितीय तर्क के लिए स्थापत्य की आवश्यकता पर प्रकाश डालती हैं जो पैटर्न पहचान से परे है।’

इस सप्ताह फिर से प्रश्न उठता है, अब नानजिंग विश्वविद्यालय ऑफ एयरोनॉटिक्स एंड एस्ट्रोनॉटिक्स और स्पेन में यूनिवर्सिडाड पॉलिटेक्निका डी मैड्रिड के बीच सहयोग में। शीर्षक क्या बहुस्तरीय बड़े भाषा मॉडल (एमएलएलएम) वास्तव में एनालॉग घड़ियों पर समय बताना सीखा है?, नए पेपर में यह अन्वेषण किया गया है कि बहुस्तरीय मॉडल समय बताने को कितनी अच्छी तरह समझते हैं।

हालांकि शोध की प्रगति केवल व्यापक विवरण में कवर की जाती है, शोधकर्ताओं के प्रारंभिक परीक्षणों में यह स्थापित किया गया कि ओपनएआई के जीपीटी-4.1 बहुस्तरीय भाषा मॉडल विविध घड़ी छवियों से समय बताने में संघर्ष करता है, अक्सर सरल मामलों में भी गलत उत्तर देता है।

यह मॉडल के प्रशिक्षण डेटा में एक संभावित अंतर की ओर इशारा करता है, जो एक अधिक संतुलित डेटासेट की आवश्यकता को बढ़ाता है, यह परीक्षण करने के लिए कि क्या मॉडल वास्तव में अंतर्निहित अवधारणा सीख सकता है। इसलिए, लेखकों ने एक सिंथेटिक डेटासेट तैयार किया जिसमें एनालॉग घड़ियों को समान रूप से शामिल किया गया, हर संभावित समय को कवर किया गया, और आमतौर पर इंटरनेट छवियों में पाए जाने वाले पूर्वाग्रहों से बचा गया:

рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЗ рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдПрдирд╛рд▓реЙрдЧ рдШрдбрд╝рд┐рдпреЛрдВ рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг, рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдЬреАрдкреАрдЯреА рдореЙрдбрд▓ рдХреЛ рдлрд╛рдЗрди-рдЯреНрдпреВрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рд╕реНрд░реЛрдд: https://huggingface.co/datasets/migonsa/analog_watches_finetune

शोधकर्ताओं के सिंथेटिक एनालॉग घड़ियों के डेटासेट का एक उदाहरण, जिसका उपयोग जीपीटी मॉडल को फाइन-ट्यून करने के लिए किया गया था। स्रोत: https://huggingface.co/datasets/migonsa/analog_watches_finetune

फाइन-ट्यूनिंग से पहले, जीपीटी-4.1 इन घड़ियों को पढ़ने में लगातार विफल रहता था। हालांकि, नए संग्रह के संपर्क में आने के बाद, इसका प्रदर्शन में सुधार हुआ – लेकिन केवल जब नई छवियां उन लोगों की तरह दिखती थीं जिन्हें यह पहले से ही देख चुका था।

जब घड़ी का आकार या हाथों की शैली बदल जाती है, तो सटीकता तेजी से गिर जाती है; यहां तक कि छोटे संशोधन, जैसे कि पतले हाथ या तीर के सिरे (दाएं छवि नीचे), इसे बंद करने के लिए पर्याप्त थे; और जीपीटी-4.1 को डाली-जैसे ‘पिघलने वाली घड़ियों’ की व्याख्या करने में भी संघर्ष हुआ:

рдорд╛рдирдХ рдбрд┐рдЬрд╝рд╛рдЗрди (рдмрд╛рдПрдВ), рд╡рд┐рдХреГрдд рдЖрдХрд╛рд░ (рдордзреНрдп), рдФрд░ рд╕рдВрд╢реЛрдзрд┐рдд рд╣рд╛рде (рджрд╛рдПрдВ) рдХреЗ рд╕рд╛рде рдШрдбрд╝реА рдЫрд╡рд┐рдпреЛрдВ, рд╕рд╛рде рд╣реА рдЬреАрдкреАрдЯреА-4.1 рджреНрд╡рд╛рд░рд╛ рд▓реМрдЯрд╛рдП рдЧрдП рд╕рдордп рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд╕реЗ рдкрд╣рд▓реЗ рдФрд░ рдмрд╛рдж рдореЗрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2505.10862

मानक डिज़ाइन (बाएं), विकृत आकार (मध्य), और संशोधित हाथ (दाएं) के साथ घड़ी छवियों, साथ ही जीपीटी-4.1 द्वारा लौटाए गए समय फाइन-ट्यूनिंग से पहले और बाद में। स्रोत: https://arxiv.org/pdf/2505.10862

लेखक निष्कर्ष निकालते हैं कि वर्तमान मॉडल जैसे जीपीटी-4.1 इसलिए घड़ी पढ़ने में मुख्य रूप से दृश्य पैटर्न मिलान के माध्यम से सीखते हैं, समय की किसी गहरी अवधारणा के बजाय:

‘[जीपीटी 4.1] तब विफल होता है जब घड़ी विकृत होती है या जब हाथों को पतला और तीर के आकार में बदल दिया जाता है। समय अनुमान में माध्य पूर्ण त्रुटि (एमएई) 150 यादृच्छिक समय के लिए 232.48s थी जब घड़ियों को शुरू में देखा गया था, 1380.69s जब आकार विकृत था, और 3726.93s जब हाथों को बदल दिया गया था।

‘इन परिणामों से सुझाव मिलता है कि एमएलएलएम ने समय बताना नहीं सीखा है, बल्कि पैटर्न को याद किया है।’

पर्याप्त समय

अधिकांश प्रशिक्षण डेटासेट वेब छवियों पर निर्भर करते हैं, जो अक्सर कुछ समय को दोहराते हैं – विशेष रूप से 10:10, जो घड़ी विज्ञापनों में एक लोकप्रिय सेटिंग है:

рдирдП рдкреЗрдкрд░ рд╕реЗ, рдПрдирд╛рд▓реЙрдЧ рдШрдбрд╝реА рдЫрд╡рд┐рдпреЛрдВ рдореЗрдВ 'рджрд╕ рдорд┐рдирдЯ рдмрд╛рдж рджрд╕' рд╕рдордп рдХреА рдкреНрд░рдЪреБрд░рддрд╛ рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдгред

नए पेपर से, एनालॉग घड़ी छवियों में ‘दस मिनट बाद दस’ समय की प्रचुरता का एक उदाहरण।

इस प्रतिबंधित समय सीमा के परिणामस्वरूप, मॉडल को केवल एक संकीर्ण श्रृंखला में संभावित घड़ी कॉन्फ़िगरेशन दिखाई दे सकती है, जो इसकी प्रतिबिंब क्षमता को उन पुनरावृत्ति पैटर्न से परे सीमित करती है।

विकृत घड़ियों की व्याख्या करने में मॉडल की विफलता के कारणों के बारे में, पेपर में कहा गया है:

‘हालांकि जीपीटी-4.1 मानक घड़ी छवियों के साथ असाधारण रूप से अच्छा प्रदर्शन करता है, यह आश्चर्यजनक है कि हाथों को पतला करना और तीर के सिरे जोड़ने से इसकी सटीकता में काफी गिरावट आती है।

‘आश्चर्यजनक रूप से, एक दृश्य रूप से जटिल परिवर्तन – एक विकृत डायल – प्रदर्शन पर बड़ा प्रभाव नहीं डालता है, लेकिन यह संशोधन लगता है कि इसका एक tương đối छोटा प्रभाव है।

‘यह एक प्रश्न उठाता है: एमएलएलएम घड़ियों की व्याख्या कैसे करते हैं, और वे क्यों विफल होते हैं? एक संभावना यह है कि पतले हाथ मॉडल की दिशा की धारणा को बाधित करते हैं, इसकी स्थानिक अभिविन्यास की समझ को कमजोर करते हैं।

‘वैकल्पिक रूप से, अन्य कारक हो सकते हैं जो मॉडल को घंटे, मिनट और सेकंड के हाथों को एक सटीक समय पढ़ने में शामिल करने का प्रयास करते समय भ्रमित करते हैं।’

लेखकों का तर्क है कि इन विफलताओं के मूल कारण की पहचान करना बहुस्तरीय मॉडल को आगे बढ़ाने के लिए महत्वपूर्ण है: यदि समस्या मॉडल की स्थानिक दिशा की धारणा में है, तो फाइन-ट्यूनिंग एक सरल समाधान प्रदान कर सकती है; लेकिन यदि समस्या कई दृश्य संकेतों को एकीकृत करने में एक व्यापक कठिनाई से उत्पन्न होती है, तो यह इन प्रणालियों द्वारा जानकारी के प्रसंस्करण में एक मूलभूत कमजोरी की ओर इशारा करता है।

फाइन-ट्यूनिंग परीक्षण

यह परीक्षण करने के लिए कि क्या मॉडल की विफलताओं को एक्सपोजर के साथ दूर किया जा सकता है, जीपीटी-4.1 को उपरोक्त और व्यापक सिंथेटिक डेटासेट पर फाइन-ट्यून किया गया था। फाइन-ट्यूनिंग से पहले, इसकी भविष्यवाणियां व्यापक रूप से बिखरी हुई थीं, सभी प्रकार की घड़ियों में महत्वपूर्ण त्रुटियों के साथ। फाइन-ट्यूनिंग के बाद, मानक घड़ी चेहरों पर सटीकता में तेजी से सुधार हुआ, और विकृत घड़ियों पर भी कम से कम।

हालांकि, संशोधित हाथों वाली घड़ियों, जैसे कि पतले आकार या तीर के सिरे, ने बड़ी त्रुटियां जारी रखीं।

दो अलग-अलग विफलता मोड उभरे: सामान्य और विकृत घड़ियों पर, मॉडल आमतौर पर हाथों की दिशा को गलत समझता था; लेकिन हाथ शैली में बदलाव वाली घड़ियों पर, यह अक्सर प्रत्येक हाथ के कार्य को भ्रमित करता था, घंटे के हाथ को मिनट के हाथ के लिए या मिनट के हाथ को सेकंड के लिए गलत समझता था।

рдореЙрдбрд▓ рдХреА рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдХрдордЬреЛрд░реА рдХреА рддреБрд▓рдирд╛ рдореЗрдВ, рдФрд░ рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЖрдВрд╢рд┐рдХ рд▓рд╛рдн, 150 рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдШрдбрд╝рд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рдирд┐рдд рдмрдирд╛рдо рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп, рд╕реЗрдХрдВрдб рдореЗрдВ, рджрд┐рдЦрд╛ рд░рд╣рд╛ рд╣реИред рдмрд╛рдПрдВ, рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд╕реЗ рдкрд╣рд▓реЗ, рдЬреАрдкреАрдЯреА-4.1 рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпрд╛рдВ рдмрд┐рдЦрд░реА рд╣реБрдИ рдФрд░ рдЕрдХреНрд╕рд░ рд╕рд╣реА рдореВрд▓реНрдпреЛрдВ рд╕реЗ рджреВрд░ рд╣реИрдВ, рдЬреЛ рд▓рд╛рд▓ рддрд┐рд░рдЫреА рд░реЗрдЦрд╛ рджреНрд╡рд╛рд░рд╛ рд╕рдВрдХреЗрдд рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рджрд╛рдПрдВ, рдПрдХ рд╕рдВрддреБрд▓рд┐рдд рд╕рд┐рдВрдереЗрдЯрд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░ рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЗ рдмрд╛рдж, рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпрд╛рдВ рдореИрджрд╛рди рдХреЗ рд╕рд╛рде рдмрд╣реБрдд рдХрд░реАрдм рд╕реЗ рдореЗрд▓ рдЦрд╛рддреА рд╣реИрдВ, рд╣рд╛рд▓рд╛рдВрдХрд┐ рдХреБрдЫ рддреНрд░реБрдЯрд┐рдпрд╛рдВ рдмрдиреА рд░рд╣рддреА рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2505.10862

मॉडल की प्रारंभिक कमजोरी की तुलना में, और फाइन-ट्यूनिंग के माध्यम से आंशिक लाभ, 150 यादृच्छिक घड़ियों के लिए अनुमानित बनाम वास्तविक समय, सेकंड में, दिखा रहा है। स्रोत: https://arxiv.org/pdf/2505.10862

यह सुझाव देता है कि मॉडल ने दृश्य विशेषताओं जैसे हाथ की मोटाई के साथ विशिष्ट भूमिकाओं को सीखा है, और जब ये संकेत बदलते हैं तो संघर्ष करता है।

अनजान डिज़ाइनों पर सीमित सुधार आगे संदेह पैदा करता है कि क्या इस प्रकार का मॉडल वास्तव में समय बताने की अमूर्त अवधारणा को सीखता है, या केवल पैटर्न मिलान को परिष्कृत करता है।

हाथ संकेत

तो जबकि फाइन-ट्यूनिंग ने जीपीटी-4.1 के प्रदर्शन में सुधार किया मानक एनालॉग घड़ियों पर, यह संशोधित हाथों वाली घड़ियों पर बहुत कम प्रभाव डालता है, जो यह सुझाव देता है कि मॉडल की विफलता कम हो सकती है स abstract तर्क से अधिक हाथ की भूमिका के बारे में भ्रम से。

यह परीक्षण करने के लिए कि क्या सटीकता में सुधार हो सकता है यदि यह भ्रम दूर हो जाए, तो मॉडल की भविष्यवाणियों का एक नया विश्लेषण ‘संशोधित-हाथ’ डेटासेट पर किया गया था। आउटपुट को दो समूहों में विभाजित किया गया था: मामले जहां जीपीटी-4.1 ने घंटे, मिनट और सेकंड के हाथों को सही ढंग से पहचाना, और मामले जहां यह नहीं किया।

भविष्यवाणियों का मूल्यांकन माध्य पूर्ण त्रुटि (एमएई) के लिए किया गया था फाइन-ट्यूनिंग से पहले और बाद में, और परिणामों की तुलना मानक घड़ियों से की गई; प्रत्येक हाथ के लिए डायल स्थिति के आधार पर कोणीय त्रुटि को भी मापा गया:

рд╕рдВрд╢реЛрдзрд┐рдд-рд╣рд╛рде рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВ рд╣рд╛рде-рднреВрдорд┐рдХрд╛ рднреНрд░рдо рдХреЗ рд╕рд╛рде рдФрд░ рдмрд┐рдирд╛ рддреНрд░реБрдЯрд┐ рдХреА рддреБрд▓рдирд╛ред

संशोधित-हाथ डेटासेट में हाथ-भूमिका भ्रम के साथ और बिना त्रुटि की तुलना।

हाथों की भूमिका को भ्रमित करने से सबसे बड़ी त्रुटियां हुईं। जब जीपीटी-4.1 ने घंटे के हाथ को मिनट के हाथ के लिए या मिनट के हाथ को सेकंड के लिए गलत समझा, तो परिणामी समय अनुमान अक्सर बहुत दूर थे।

दूसरी ओर, जब मॉडल ने सही ढंग से हाथों की पहचान की, तो त्रुटियां छोटी थीं। तीनों हाथों में, घंटे के हाथ ने फाइन-ट्यूनिंग से पहले सबसे अधिक कोणीय त्रुटि दिखाई, जबकि सेकंड के हाथ ने सबसे कम दिखाया:

рд╣рд╛рде рдкреНрд░рдХрд╛рд░ рджреНрд╡рд╛рд░рд╛ рдХреЛрдгреАрдп рддреНрд░реБрдЯрд┐, рд╣рд╛рде-рднреВрдорд┐рдХрд╛ рднреНрд░рдо рдХреЗ рд╕рд╛рде рдФрд░ рдмрд┐рдирд╛, рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд╕реЗ рдкрд╣рд▓реЗ рдФрд░ рдмрд╛рдж рдореЗрдВ, рд╕рдВрд╢реЛрдзрд┐рдд-рд╣рд╛рде рдбреЗрдЯрд╛рд╕реЗрдЯ рдореЗрдВред

हाथ प्रकार द्वारा कोणीय त्रुटि, हाथ-भूमिका भ्रम के साथ और बिना, फाइन-ट्यूनिंग से पहले और बाद में, संशोधित-हाथ डेटासेट में।

यह सुझाव देता है कि मॉडल ने दृश्य विशेषताओं जैसे हाथ की मोटाई के साथ विशिष्ट भूमिकाओं को सीखा है, और जब ये संकेत बदलते हैं तो संघर्ष करता है।

एक अज्ञात दृश्य विशेषता मॉडल की समग्र व्याख्या को बाधित करने में सक्षम प्रतीत होती है, भले ही यह पहले अच्छा प्रदर्शन कर चुका हो।

рдорд╛рдирдХ, рд╡рд┐рдХреГрдд, рдФрд░ рд╕рдВрд╢реЛрдзрд┐рдд-рд╣рд╛рде рдШрдбрд╝рд┐рдпреЛрдВ рдкрд░ рдЬреАрдкреАрдЯреА-4.1 рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХрд╛ рдЕрд╡рд▓реЛрдХрди, рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд╕реЗ рдкрд╣рд▓реЗ рдФрд░ рдмрд╛рдж рдореЗрдВ, рдЕрд╕рдорд╛рди рд▓рд╛рдн рдФрд░ рд▓рдВрдмреЗ рд╕рдордп рд╕реЗ рдЪрд▓реА рдЖ рд░рд╣реА рдХрдордЬреЛрд░рд┐рдпреЛрдВ рдХреЛ рдЙрдЬрд╛рдЧрд░ рдХрд░рддрд╛ рд╣реИред

मानक, विकृत, और संशोधित-हाथ घड़ियों पर जीपीटी-4.1 के प्रदर्शन का अवलोकन, फाइन-ट्यूनिंग से पहले और बाद में, असमान लाभ और लंबे समय से चली आ रही कमजोरियों को उजागर करता है।

निष्कर्ष

जबकि पेपर का फोकस पहली नज़र में तुच्छ लग सकता है, यह वास्तव में एक गहरे बार-बार प्रश्न पर केंद्रित है: क्या मॉडलों को अधिक (और विविध) डेटा के साथ संतृप्त करने से मानवों द्वारा अमूर्तता और सामान्यीकरण के माध्यम से प्राप्त की गई डोमेन समझ हासिल की जा सकती है; या क्या एकमात्र व्यवहार्य मार्ग यह है कि डोमेन को इतने सारे उदाहरणों से भर दें कि अनुमान में हर संभावित भिन्नता का अनुमान लगाया जा सके?

दोनों मार्ग संदेह पैदा करते हैं कि वर्तमान संरचनाएं वास्तव में क्या सीख सकती हैं।

 

सोमवार, 19 मई, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai