Anderson рдХрд╛ рдПрдВрдЧрд▓
рдПрдЖрдИ рдХреА рдПрдирд╛рд▓реЙрдЧ рдШрдбрд╝рд┐рдпреЛрдВ рдХреЛ рдкрдврд╝рдиреЗ рдореЗрдВ рдХрдард┐рдирд╛рдИ рдХрд╛ рдЧрд╣рд░рд╛ рдорд╣рддреНрд╡ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ

चीन और स्पेन के शोधकर्ताओं के एक नए शोध पत्र में पाया गया है कि जीपीटी-4.1 जैसे उन्नत बहुस्तरीय एआई मॉडल भी एनालॉग घड़ियों की तस्वीरों से समय बताने में संघर्ष करते हैं। घड़ियों में छोटे दृश्य परिवर्तन बड़े व्याख्या त्रुटियों का कारण बन सकते हैं, और केवल परिचित उदाहरणों के साथ फाइन-ट्यूनिंग मदद करती है। परिणाम इन मॉडलों की विश्वसनीयता के बारे में चिंता उठाते हैं जब उन्हें वास्तविक दुनिया के कार्यों में अपरिचित छवियों का सामना करना पड़ता है।
जब मनुष्य किसी डोमेन की गहरी समझ विकसित करते हैं, जैसे कि गुरुत्वाकर्षण या अन्य मूलभूत भौतिक सिद्धांत, तो हम विशिष्ट उदाहरणों से परे जाकर अंतर्निहित अमूर्तता को समझने लगते हैं। यह हमें उस ज्ञान को रचनात्मक रूप से विभिन्न संदर्भों में लागू करने और नए उदाहरणों को पहचानने की अनुमति देता है, जिन्हें हमने पहले कभी नहीं देखा है, सिद्धांत को कार्रवाई में पहचानकर।
जब कोई डोमेन पर्याप्त महत्व रखता है, तो हम इसे तब भी पहचानना शुरू कर सकते हैं जब यह मौजूद नहीं होता है, जैसा कि पेरिडोलिया के साथ होता है, जो वास्तविक उदाहरण को पहचानने में विफल होने की उच्च लागत से प्रेरित होता है। यह पैटर्न-मान्यता जीवित रहने का तंत्र इतना मजबूत है कि यह हमें कोई पैटर्न नहीं होने पर भी व्यापक श्रृंखला के पैटर्न खोजने के लिए प्रेरित करता है।
जितनी जल्दी और बार-बार एक डोमेन हमें सिखाया जाता है, उतना ही गहरा इसका आधार और जीवन भर बना रहता है; और जिन पहली दृश्य डेटासेट में से हमें बच्चों के रूप में सिखाया जाता है, वे शिक्षण घड़ियों के रूप में आते हैं, जहां मुद्रित सामग्री या इंटरैक्टिव एनालॉग घड़ियों का उपयोग हमें समय बताना सिखाने के लिए किया जाता है:

बच्चों को समय बताना सिखाने में मदद करने के लिए शिक्षण सामग्री। स्रोत: https://www.youtube.com/watch?v=IBBQXBhSNUs
हालांकि घड़ी डिज़ाइन में बदलते फैशन कभी-कभी हमें चुनौती दे सकते हैं, इस प्रारंभिक डोमेन-मास्टरी की लचीलापन बहुत प्रभावशाली है, जो हमें जटिल या ‘विचित्र’ डिज़ाइन विकल्पों के बावजूद एनालॉग घड़ी के चेहरे को पहचानने की अनुमति देता है:

वॉच क्यूटर में कुछ चुनौतीपूर्ण चेहरे। स्रोत: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
मानव को हजारों उदाहरणों की आवश्यकता नहीं होती घड़ियों के काम करने के तरीके को सीखने के लिए; एक बार मूलभूत अवधारणा को समझ लेने के बाद, हम इसे लगभग किसी भी रूप में पहचान सकते हैं, यहां तक कि जब यह विकृत या अमूर्त होता है।
इस कार्य में एआई मॉडल की कठिनाई एक गहरे मुद्दे को उजागर करती है: उनकी स्पष्ट ताकत उच्च-वॉल्यूम एक्सपोजर पर निर्भर हो सकती है, न कि समझ पर।
नकल के खेल से परे?
सतह-स्तर के प्रदर्शन और वास्तविक ‘समझ’ के बीच तनाव बार-बार हाल के जांच में बड़े मॉडलों में। पिछले महीने जेजियांग विश्वविद्यालय और वेस्टलेक विश्वविद्यालय ने एक पेपर में प्रश्न को फिर से तैयार किया, जिसका शीर्षक था क्या पीएचडी-स्तर के एलएलएम वास्तव में प्राथमिक जोड़ को समझते हैं? (यह इस लेख का फोकस नहीं है), निष्कर्ष निकाला:
‘बेंचमार्क में प्रभावशाली होने के बावजूद, मॉडल पैटर्न मिलान के बजाय वास्तविक समझ पर महत्वपूर्ण निर्भरता दिखाते हैं, जो प्रतीकात्मक प्रतिनिधित्व और मूलभूत गुणों के उल्लंघन के साथ विफलता से साबित होता है।
‘नियम प्रावधान के प्रदर्शन को बाधित करने से संरचनात्मक प्रतिबंधों का संकेत मिलता है। ये अंतर्दृष्टि मूल्यांकन अंतराल को उजागर करती हैं और वास्तविक गणितीय तर्क के लिए स्थापत्य की आवश्यकता पर प्रकाश डालती हैं जो पैटर्न पहचान से परे है।’
इस सप्ताह फिर से प्रश्न उठता है, अब नानजिंग विश्वविद्यालय ऑफ एयरोनॉटिक्स एंड एस्ट्रोनॉटिक्स और स्पेन में यूनिवर्सिडाड पॉलिटेक्निका डी मैड्रिड के बीच सहयोग में। शीर्षक क्या बहुस्तरीय बड़े भाषा मॉडल (एमएलएलएम) वास्तव में एनालॉग घड़ियों पर समय बताना सीखा है?, नए पेपर में यह अन्वेषण किया गया है कि बहुस्तरीय मॉडल समय बताने को कितनी अच्छी तरह समझते हैं।
हालांकि शोध की प्रगति केवल व्यापक विवरण में कवर की जाती है, शोधकर्ताओं के प्रारंभिक परीक्षणों में यह स्थापित किया गया कि ओपनएआई के जीपीटी-4.1 बहुस्तरीय भाषा मॉडल विविध घड़ी छवियों से समय बताने में संघर्ष करता है, अक्सर सरल मामलों में भी गलत उत्तर देता है।
यह मॉडल के प्रशिक्षण डेटा में एक संभावित अंतर की ओर इशारा करता है, जो एक अधिक संतुलित डेटासेट की आवश्यकता को बढ़ाता है, यह परीक्षण करने के लिए कि क्या मॉडल वास्तव में अंतर्निहित अवधारणा सीख सकता है। इसलिए, लेखकों ने एक सिंथेटिक डेटासेट तैयार किया जिसमें एनालॉग घड़ियों को समान रूप से शामिल किया गया, हर संभावित समय को कवर किया गया, और आमतौर पर इंटरनेट छवियों में पाए जाने वाले पूर्वाग्रहों से बचा गया:

शोधकर्ताओं के सिंथेटिक एनालॉग घड़ियों के डेटासेट का एक उदाहरण, जिसका उपयोग जीपीटी मॉडल को फाइन-ट्यून करने के लिए किया गया था। स्रोत: https://huggingface.co/datasets/migonsa/analog_watches_finetune
फाइन-ट्यूनिंग से पहले, जीपीटी-4.1 इन घड़ियों को पढ़ने में लगातार विफल रहता था। हालांकि, नए संग्रह के संपर्क में आने के बाद, इसका प्रदर्शन में सुधार हुआ – लेकिन केवल जब नई छवियां उन लोगों की तरह दिखती थीं जिन्हें यह पहले से ही देख चुका था।
जब घड़ी का आकार या हाथों की शैली बदल जाती है, तो सटीकता तेजी से गिर जाती है; यहां तक कि छोटे संशोधन, जैसे कि पतले हाथ या तीर के सिरे (दाएं छवि नीचे), इसे बंद करने के लिए पर्याप्त थे; और जीपीटी-4.1 को डाली-जैसे ‘पिघलने वाली घड़ियों’ की व्याख्या करने में भी संघर्ष हुआ:

मानक डिज़ाइन (बाएं), विकृत आकार (मध्य), और संशोधित हाथ (दाएं) के साथ घड़ी छवियों, साथ ही जीपीटी-4.1 द्वारा लौटाए गए समय फाइन-ट्यूनिंग से पहले और बाद में। स्रोत: https://arxiv.org/pdf/2505.10862
लेखक निष्कर्ष निकालते हैं कि वर्तमान मॉडल जैसे जीपीटी-4.1 इसलिए घड़ी पढ़ने में मुख्य रूप से दृश्य पैटर्न मिलान के माध्यम से सीखते हैं, समय की किसी गहरी अवधारणा के बजाय:
‘[जीपीटी 4.1] तब विफल होता है जब घड़ी विकृत होती है या जब हाथों को पतला और तीर के आकार में बदल दिया जाता है। समय अनुमान में माध्य पूर्ण त्रुटि (एमएई) 150 यादृच्छिक समय के लिए 232.48s थी जब घड़ियों को शुरू में देखा गया था, 1380.69s जब आकार विकृत था, और 3726.93s जब हाथों को बदल दिया गया था।
‘इन परिणामों से सुझाव मिलता है कि एमएलएलएम ने समय बताना नहीं सीखा है, बल्कि पैटर्न को याद किया है।’
पर्याप्त समय
अधिकांश प्रशिक्षण डेटासेट वेब छवियों पर निर्भर करते हैं, जो अक्सर कुछ समय को दोहराते हैं – विशेष रूप से 10:10, जो घड़ी विज्ञापनों में एक लोकप्रिय सेटिंग है:

नए पेपर से, एनालॉग घड़ी छवियों में ‘दस मिनट बाद दस’ समय की प्रचुरता का एक उदाहरण।
इस प्रतिबंधित समय सीमा के परिणामस्वरूप, मॉडल को केवल एक संकीर्ण श्रृंखला में संभावित घड़ी कॉन्फ़िगरेशन दिखाई दे सकती है, जो इसकी प्रतिबिंब क्षमता को उन पुनरावृत्ति पैटर्न से परे सीमित करती है।
विकृत घड़ियों की व्याख्या करने में मॉडल की विफलता के कारणों के बारे में, पेपर में कहा गया है:
‘हालांकि जीपीटी-4.1 मानक घड़ी छवियों के साथ असाधारण रूप से अच्छा प्रदर्शन करता है, यह आश्चर्यजनक है कि हाथों को पतला करना और तीर के सिरे जोड़ने से इसकी सटीकता में काफी गिरावट आती है।
‘आश्चर्यजनक रूप से, एक दृश्य रूप से जटिल परिवर्तन – एक विकृत डायल – प्रदर्शन पर बड़ा प्रभाव नहीं डालता है, लेकिन यह संशोधन लगता है कि इसका एक tương đối छोटा प्रभाव है।
‘यह एक प्रश्न उठाता है: एमएलएलएम घड़ियों की व्याख्या कैसे करते हैं, और वे क्यों विफल होते हैं? एक संभावना यह है कि पतले हाथ मॉडल की दिशा की धारणा को बाधित करते हैं, इसकी स्थानिक अभिविन्यास की समझ को कमजोर करते हैं।
‘वैकल्पिक रूप से, अन्य कारक हो सकते हैं जो मॉडल को घंटे, मिनट और सेकंड के हाथों को एक सटीक समय पढ़ने में शामिल करने का प्रयास करते समय भ्रमित करते हैं।’
लेखकों का तर्क है कि इन विफलताओं के मूल कारण की पहचान करना बहुस्तरीय मॉडल को आगे बढ़ाने के लिए महत्वपूर्ण है: यदि समस्या मॉडल की स्थानिक दिशा की धारणा में है, तो फाइन-ट्यूनिंग एक सरल समाधान प्रदान कर सकती है; लेकिन यदि समस्या कई दृश्य संकेतों को एकीकृत करने में एक व्यापक कठिनाई से उत्पन्न होती है, तो यह इन प्रणालियों द्वारा जानकारी के प्रसंस्करण में एक मूलभूत कमजोरी की ओर इशारा करता है।
फाइन-ट्यूनिंग परीक्षण
यह परीक्षण करने के लिए कि क्या मॉडल की विफलताओं को एक्सपोजर के साथ दूर किया जा सकता है, जीपीटी-4.1 को उपरोक्त और व्यापक सिंथेटिक डेटासेट पर फाइन-ट्यून किया गया था। फाइन-ट्यूनिंग से पहले, इसकी भविष्यवाणियां व्यापक रूप से बिखरी हुई थीं, सभी प्रकार की घड़ियों में महत्वपूर्ण त्रुटियों के साथ। फाइन-ट्यूनिंग के बाद, मानक घड़ी चेहरों पर सटीकता में तेजी से सुधार हुआ, और विकृत घड़ियों पर भी कम से कम।
हालांकि, संशोधित हाथों वाली घड़ियों, जैसे कि पतले आकार या तीर के सिरे, ने बड़ी त्रुटियां जारी रखीं।
दो अलग-अलग विफलता मोड उभरे: सामान्य और विकृत घड़ियों पर, मॉडल आमतौर पर हाथों की दिशा को गलत समझता था; लेकिन हाथ शैली में बदलाव वाली घड़ियों पर, यह अक्सर प्रत्येक हाथ के कार्य को भ्रमित करता था, घंटे के हाथ को मिनट के हाथ के लिए या मिनट के हाथ को सेकंड के लिए गलत समझता था।

मॉडल की प्रारंभिक कमजोरी की तुलना में, और फाइन-ट्यूनिंग के माध्यम से आंशिक लाभ, 150 यादृच्छिक घड़ियों के लिए अनुमानित बनाम वास्तविक समय, सेकंड में, दिखा रहा है। स्रोत: https://arxiv.org/pdf/2505.10862
यह सुझाव देता है कि मॉडल ने दृश्य विशेषताओं जैसे हाथ की मोटाई के साथ विशिष्ट भूमिकाओं को सीखा है, और जब ये संकेत बदलते हैं तो संघर्ष करता है।
अनजान डिज़ाइनों पर सीमित सुधार आगे संदेह पैदा करता है कि क्या इस प्रकार का मॉडल वास्तव में समय बताने की अमूर्त अवधारणा को सीखता है, या केवल पैटर्न मिलान को परिष्कृत करता है।
हाथ संकेत
तो जबकि फाइन-ट्यूनिंग ने जीपीटी-4.1 के प्रदर्शन में सुधार किया मानक एनालॉग घड़ियों पर, यह संशोधित हाथों वाली घड़ियों पर बहुत कम प्रभाव डालता है, जो यह सुझाव देता है कि मॉडल की विफलता कम हो सकती है स abstract तर्क से अधिक हाथ की भूमिका के बारे में भ्रम से。
यह परीक्षण करने के लिए कि क्या सटीकता में सुधार हो सकता है यदि यह भ्रम दूर हो जाए, तो मॉडल की भविष्यवाणियों का एक नया विश्लेषण ‘संशोधित-हाथ’ डेटासेट पर किया गया था। आउटपुट को दो समूहों में विभाजित किया गया था: मामले जहां जीपीटी-4.1 ने घंटे, मिनट और सेकंड के हाथों को सही ढंग से पहचाना, और मामले जहां यह नहीं किया।
भविष्यवाणियों का मूल्यांकन माध्य पूर्ण त्रुटि (एमएई) के लिए किया गया था फाइन-ट्यूनिंग से पहले और बाद में, और परिणामों की तुलना मानक घड़ियों से की गई; प्रत्येक हाथ के लिए डायल स्थिति के आधार पर कोणीय त्रुटि को भी मापा गया:

संशोधित-हाथ डेटासेट में हाथ-भूमिका भ्रम के साथ और बिना त्रुटि की तुलना।
हाथों की भूमिका को भ्रमित करने से सबसे बड़ी त्रुटियां हुईं। जब जीपीटी-4.1 ने घंटे के हाथ को मिनट के हाथ के लिए या मिनट के हाथ को सेकंड के लिए गलत समझा, तो परिणामी समय अनुमान अक्सर बहुत दूर थे।
दूसरी ओर, जब मॉडल ने सही ढंग से हाथों की पहचान की, तो त्रुटियां छोटी थीं। तीनों हाथों में, घंटे के हाथ ने फाइन-ट्यूनिंग से पहले सबसे अधिक कोणीय त्रुटि दिखाई, जबकि सेकंड के हाथ ने सबसे कम दिखाया:

हाथ प्रकार द्वारा कोणीय त्रुटि, हाथ-भूमिका भ्रम के साथ और बिना, फाइन-ट्यूनिंग से पहले और बाद में, संशोधित-हाथ डेटासेट में।
यह सुझाव देता है कि मॉडल ने दृश्य विशेषताओं जैसे हाथ की मोटाई के साथ विशिष्ट भूमिकाओं को सीखा है, और जब ये संकेत बदलते हैं तो संघर्ष करता है।
एक अज्ञात दृश्य विशेषता मॉडल की समग्र व्याख्या को बाधित करने में सक्षम प्रतीत होती है, भले ही यह पहले अच्छा प्रदर्शन कर चुका हो।

मानक, विकृत, और संशोधित-हाथ घड़ियों पर जीपीटी-4.1 के प्रदर्शन का अवलोकन, फाइन-ट्यूनिंग से पहले और बाद में, असमान लाभ और लंबे समय से चली आ रही कमजोरियों को उजागर करता है।
निष्कर्ष
जबकि पेपर का फोकस पहली नज़र में तुच्छ लग सकता है, यह वास्तव में एक गहरे बार-बार प्रश्न पर केंद्रित है: क्या मॉडलों को अधिक (और विविध) डेटा के साथ संतृप्त करने से मानवों द्वारा अमूर्तता और सामान्यीकरण के माध्यम से प्राप्त की गई डोमेन समझ हासिल की जा सकती है; या क्या एकमात्र व्यवहार्य मार्ग यह है कि डोमेन को इतने सारे उदाहरणों से भर दें कि अनुमान में हर संभावित भिन्नता का अनुमान लगाया जा सके?
दोनों मार्ग संदेह पैदा करते हैं कि वर्तमान संरचनाएं वास्तव में क्या सीख सकती हैं।
सोमवार, 19 मई, 2025 को पहली बार प्रकाशित












