कृत्रिम बुद्धिमत्ता

यहां तक कि राज्य-ऑफ-द-आर्ट भाषा मॉडल समयिक तर्क को समझने के लिए संघर्ष करते हैं

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

भविष्य की स्थितियों की भविष्यवाणी करना कंप्यूटर विजन शोध में एक महत्वपूर्ण मिशन है – न केवल रोबोटिक्स में, जहां वास्तविक दुनिया की स्थितियों पर विचार किया जाना चाहिए, बल्कि मशीन लर्निंग सिस्टम को मिशन-महत्वपूर्ण कार्यों के साथ भी भरोसा किया जाता है। इसलिए, उन्हें भौतिक दुनिया की पर्याप्त समझ की आवश्यकता होती है।

हालांकि, कुछ मामलों में, समयिक वास्तविकता का एक स्पष्ट रूप से प्रभावशाली ज्ञान धोखाधड़ी हो सकता है: संयुक्त अरब अमीरात से एक नए शोध पत्र में पाया गया है कि राज्य-ऑफ-द-आर्ट मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम), जिनमें क्षेत्र के नेता जीपीटी-4ओ और गूगल जेमिनी शामिल हैं, समय को छवियों में प्रस्तुत किए जाने के तरीके की व्याख्या करने में असफल रहते हैं।

उदाहरण के अनुक्रमिक जोड़े (नीचे दी गई छवि देखें), जो मानवों के लिए भी गलत क्रम में रखे जाने पर भी चुनौतीपूर्ण नहीं होंगे, उन्नत एमएलएलएम को असामान्य संदर्भों या कॉन्फ़िगरेशन (जैसे कि दूसरी छवि पहले, एकल छवियों में संकलित, अनुक्रमिक कई छवियों जो सही समयिक क्रम का प्रतिनिधित्व कर सकती हैं या नहीं) में धोखा दे सकते हैं।

एक नए अध्ययन के लिए संकलित डेटासेट के नमूने, जो अनुक्रमिक घटनाओं को दिखाते हैं। शोधकर्ताओं ने इस डेटा को https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer पर उपलब्ध कराया है

एक नए अध्ययन के लिए संकलित डेटासेट के नमूने, जो अनुक्रमिक घटनाओं को दिखाते हैं और ‘पहले और बाद में’ छवियों के रूप में दिखाए जाते हैं। शोधकर्ताओं ने इस डेटा को https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer पर उपलब्ध कराया है

शोधकर्ताओं ने मॉडल्स को मूलभूत समयिक तर्क चुनौतियों के साथ काम किया, जैसे कि घटना क्रम निर्धारित करना या समय अंतराल का अनुमान लगाना, और पाया कि सात एमएलएलएम ने मानव सटीकता से काफी नीचे प्रदर्शन किया:

‘सामान्य तौर पर, [परिणाम] यह बताते हैं कि सभी वर्तमान एमएलएलएम, जीपीटी-4ओ सहित – हमारे मूल्यांकन में सबसे उन्नत मॉडल – प्रस्तावित बेंचमार्क के साथ संघर्ष करते हैं। जीपीटी-4ओ के अन्य मॉडल्स की तुलना में श्रेष्ठ प्रदर्शन के बावजूद, यह विभिन्न सेटिंग्स में सटीक समयिक तर्क का स्थिर रूप से प्रदर्शन करने में विफल रहता है।

‘सभी मॉडल्स के लिए सुसंगत सटीकता स्कोर उल्लेखनीय रूप से कम हैं, जो उनकी दृश्य इनपुट से समयिक अनुक्रमों को समझने और व्याख्या करने में महत्वपूर्ण सीमाओं का संकेत देते हैं। ये कमियां तब भी स्पष्ट हैं जब मॉडल्स को मल्टी-इमेज इनपुट या अनुकूलित प्रॉम्प्ट प्रदान किए जाते हैं, जो यह सुझाव देते हैं कि वर्तमान आर्किटेक्चर और प्रशिक्षण विधियां मजबूत समयिक क्रम समझ के लिए पर्याप्त नहीं हैं।’

मशीन लर्निंग सिस्टम को सबसे सटीक, लेकिन सबसे कुशल और लोगों को पसंद आने वाले परिणामों के लिए अनुकूलित किया जाता है। चूंकि वे अपने तर्क को स्पष्ट रूप से प्रकट नहीं करते हैं, इसलिए यह बताना मुश्किल हो सकता है कि वे ‘छोटे रास्ते’ का उपयोग कर रहे हैं या नहीं।

इस तरह के मामले में, एमएलएलएम सही उत्तर तक गलत तरीके से पहुंच सकता है। यह तथ्य कि ऐसा उत्तर सही हो सकता है, मॉडल में गलत आत्मविश्वास पैदा कर सकता है, जो बाद में उसी तरीके से गलत परिणाम पैदा कर सकता है।

और भी बुरी बात यह है कि यह मिस्गाइडेंस विकास श्रृंखला में और अधिक गहराई से जड़ सकता है यदि मानव इसे प्रभावित करते हैं और परीक्षणों और एनोटेशन सत्रों में सकारात्मक प्रतिक्रिया देते हैं जो डेटा और/या मॉडल की दिशा में योगदान कर सकते हैं।

इस मामले में, सुझाव यह है कि एमएलएलएम समयिक घटनाओं की वास्तविक समझ को ‘नकल’ कर रहे हैं, द्वितीयक संकेतकों (जैसे कि समय-स्टैम्प, वीडियो डेटा में) का अवलोकन और एंकरिंग करके।

यह आगे संकेत देता है कि एमएलएलएम वर्तमान में समयिक घटनाओं की अवधारणा को सामान्यीकृत करने की किसी भी वास्तविक परिभाषा को संतुष्ट नहीं करते हैं – कम से कम, उतना जितना मानव कर सकते हैं।

नया शोध पत्र क्या मल्टीमॉडल एमएलएलएम दृश्य समयिक समझ और तर्क कर सकते हैं? उत्तर नहीं है! है, और यह मोहम्मद बिन जायद विश्वविद्यालय के तीन शोधकर्ताओं और अलीबाबा इंटरनेशनल डिजिटल कॉमर्स से है।

डेटा और परीक्षण

लेखकों का उल्लेख है कि पिछले बेंचमार्क और अध्ययन, जैसे कि एमएमयू और टेम्पोरलबेंच, एकल-छवि इनपुट पर केंद्रित होते हैं या एमएलएलएम के लिए प्रश्न तैयार करते हैं जो बहुत आसान हो सकते हैं और शॉर्टकट व्यवहार की प्रवृत्ति को उजागर नहीं कर सकते हैं।

इसलिए, लेखक दो अद्यतन दृष्टिकोण प्रदान करते हैं: समयिक क्रम समझ (टीओयू) और समय-लैप्स अनुमान (टीएलई)। टीओयू दृष्टिकोण मॉडल्स की क्षमता का परीक्षण करता है कि वे वीडियो फ्रेम के जोड़े से सही घटना क्रम निर्धारित कर सकते हैं; टीएलई विधि एमएलएलएम की क्षमता का मूल्यांकन करती है कि वे दो छवियों के बीच समय अंतराल का अनुमान लगा सकते हैं, जो कि सेकंड से लेकर वर्षों तक हो सकता है।

<img class=" wp-image-211730" src="https://www.unite.ai/wp-content/uploads/2025/01/two-methods-temporal-order-understanding-and-time-lapse-estimation.jpg" alt="पेपर से, टेम्पोरलवीक्यूए बेंचमार्क के दो मुख्य कार्य: समयिक क्रम समझ में, मॉडल तय करता है कि दो छवियों में से कौन सी पहले हुई घटना को दिखाती है; समय-लैप्स अनुमान में, मॉडल दो छवियों के बीच कितना समय बीता है, इसका अनुमान लगाता है, जिसमें सेकंड, मिनट, दिन या वर्ष जैसे विकल्प शामिल हैं। ये कार्य एमएलएलएम द्वारा दृश्य घटनाओं के समय और अनुक्रम के बारे में तर्क करने की क्षमता का परीक्षण करने के लिए डिज़ाइन किए गए हैं। स्रोत: https://arxiv.org/pdf/2501.10674

शोधकर्ताओं ने टीओयू बेंचमार्क के लिए 360 छवि जोड़े तैयार किए, जो पिक्साबे और पेक्सल्स से खुले स्रोत वीडियो का उपयोग करके तैयार किए गए थे, ताकि यह सुनिश्चित किया जा सके कि डेटासेट जीयूआई के माध्यम से उपलब्ध हो।

वीडियो में लोगों की दैनिक गतिविधियों से लेकर गैर-मानव सामग्री जैसे जानवरों और पौधों तक विभिन्न विषयों को शामिल किया गया था। इनमें से, घटनाओं के अनुक्रम को दर्शाने वाले फ्रेम के जोड़े चुने गए थे, जिसमें पर्याप्त भिन्नता थी ताकि शुरुआती फ्रेम ‘स्पष्ट’ हो।

मानव चयन का उपयोग यह सुनिश्चित करने के लिए किया गया था कि फ्रेमों को निश्चित रूप से क्रमबद्ध किया जा सकता है। उदाहरण के लिए, एक संकलित जोड़े में एक फ्रेम में एक आंशिक रूप से भरा हुआ चाय का कप दिखाया गया है, और अगले फ्रेम में वही कप चाय से भरा हुआ है, जिससे अनुक्रम तर्क को पहचानना आसान हो जाता है।

इन दो तस्वीरों का समयिक तर्क बच नहीं सकता, क्योंकि चाय नली के माध्यम से वापस नहीं जा सकती है।

इस तरह, 360 छवि जोड़े प्राप्त किए गए।

टीएलई दृष्टिकोण के लिए, कॉपीराइट-मुक्त छवियों को गूगल और फ्लिकर से चुना गया, साथ ही यूट्यूब पर कॉपीराइट-मुक्त वीडियो के चयनित फ्रेम। इन वीडियो की विषय-वस्तु में दृश्य या वस्तुएं शामिल थीं जिनका परिवर्तन अंतराल सेकंड से लेकर दिनों और मौसमों तक था – जैसे कि पकने वाले फल, या परिदृश्यों में मौसम का बदलाव।

इस प्रकार, टीएलई विधि के लिए 125 छवि जोड़े तैयार किए गए।

परीक्षणों में भाग लेने वाले सभी एमएलएलएम मल्टी-इमेज इनपुट को संसाधित नहीं कर सकते थे; इसलिए, परीक्षण प्रत्येक मॉडल की क्षमताओं के अनुसार भिन्न थे।

संकलित डेटासेट के कई संस्करण तैयार किए गए, जिनमें से कुछ जोड़े लंबवत रूप से जुड़े हुए थे, और अन्य क्षैतिज रूप से। आगे के संस्करणों में जोड़े के वास्तविक और सही समयिक क्रम को स्वapped किया गया था।

दो प्रॉम्प्ट प्रकार विकसित किए गए। पहला इस टेम्पलेट का अनुसरण करता था:

क्या (बाएं / ऊपर / पहले) छवि में घटना (दाएं / नीचे / दूसरे) छवि में घटना से पहले हुई? सच या झूठा बताएं, तर्क के साथ।

दूसरा इस योजना का पालन करता था:

इन दो छवियों के बीच, कौन सी छवि पहले हुई घटना को दर्शाती है? (बाएं या दाएं / ऊपर या नीचे / पहले या दूसरे) बताएं, तर्क के साथ।

टीएलई के लिए, प्रश्न बहुविकल्पी थे, जिसमें मॉडल्स को दो प्रस्तुत छवियों के बीच समय अंतराल का मूल्यांकन करने के लिए कहा गया था, जिसमें सेकंड, मिनट, घंटे, दिन, महीने और वर्ष विकल्प के रूप में उपलब्ध थे। इस कॉन्फ़िगरेशन में, सबसे हाल की छवि दाईं ओर प्रस्तुत की गई थी।

यहाँ प्रयुक्त प्रॉम्प्ट था:

दी गई छवि में, पहली छवि (बाएं) और दूसरी छवि (दाएं) के बीच का समय अनुमान लगाएं।

निम्नलिखित विकल्पों में से एक चुनें:

1. 15 सेकंड से कम बी। 2 मिनट से 15 मिनट के बीच सी। 1 घंटे से 12 घंटे के बीच डी। 2 दिन से 30 दिन के बीच ई। 4 महीने से 12 महीने के बीच एफ। 3 वर्ष से अधिक

परीक्षण किए गए एमएलएलएम में चैटजीपीटी-4ओ; जेमिनी1.5-प्रो; एलएवीए-नेक्स्ट; इंटरनवीएल; क्वेन-वीएल; लामा-3-विजन; और एलएवीए-コट शामिल थे।

समयिक क्रम समझ: परिणाम

विभिन्न मॉडल्स और इनपुट लेआउट पर समयिक क्रम समझ के परिणाम, विभिन्न सेटअप और प्रॉम्प्ट के लिए सटीकता और सुसंगतता दिखा रहे हैं।

ऊपर दिखाए गए परिणामों के संबंध में, लेखकों ने पाया कि सभी परीक्षण किए गए एमएलएलएम, जीपीटी-4ओ (जो समग्र प्रदर्शन में सबसे अच्छा प्रदर्शन करता है) सहित, समयिकवीक्यूए बेंचमार्क के साथ काफी संघर्ष करते हैं – और यहां तक कि जीपीटी-4ओ विभिन्न कॉन्फ़िगरेशन में सुसंगत रूप से विश्वसनीय समयिक तर्क प्रदर्शित करने में विफल रहता है।

लेखकों का तर्क है कि एलएलएम के साथ सुसंगत रूप से कम सटीकता स्कोर मॉडल्स की दृश्य डेटा से समयिक अनुक्रमों को समझने और व्याख्या करने में महत्वपूर्ण सीमाओं को दर्शाता है। ये कमियां तब भी स्पष्ट हैं जब मॉडल्स को मल्टी-इमेज इनपुट या अनुकूलित प्रॉम्प्ट प्रदान किए जाते हैं, जो यह सुझाव देते हैं कि वर्तमान आर्किटेक्चर और प्रशिक्षण विधियां मजबूत समयिक क्रम समझ के लिए पर्याप्त नहीं हैं।

परीक्षणों ने प्रॉम्प्ट रणनीतियों में महत्वपूर्ण भिन्नता दिखाई। जबकि जीपीटी-4ओ ने अनुकूलित प्रॉम्प्ट के साथ सुधार किया (एकल-छवि सेटिंग में 4% और मल्टी-इमेज सेटिंग में 65.3% तक पहुंच गया), प्रदर्शन अभी भी स्वीकार्य स्तर से नीचे रहा।

मॉडल्स जैसे एलएवीए-नेक्स्ट और क्वेन-वीएल वैकल्पिक प्रॉम्प्ट का उपयोग करने पर और अधिक संवेदनशील थे, जिसमें प्रदर्शन गिर गया था, जो यह सुझाव देता है कि प्रॉम्प्ट इंजीनियरिंग अकेले एमएलएलएम की मूलभूत सीमाओं को समयिक तर्क के संबंध में दूर नहीं कर सकती है।

परीक्षणों से यह भी पता चला कि छवि लेआउट (यानी, लंबवत बनाम क्षैतिज) मॉडल प्रदर्शन पर महत्वपूर्ण प्रभाव डालता है। जीपीटी-4ओ ने लंबवत व्यवस्था के साथ अपनी सुसंगतता में सुधार किया, 39.2% से 52.8% तक बढ़ गया; हालांकि, अन्य मॉडल्स, जिनमें एलएवीए स्ट्रेन शामिल हैं, ने मजबूत दिशात्मक पूर्वाग्रह दिखाया, एक दिशा में उत्कृष्टता प्राप्त की लेकिन दूसरे में विफल रहे।

पेपर से पता चलता है कि ये असंगतियां स्थानिक संकेतों पर निर्भरता को दर्शाती हैं, न कि वास्तविक समयिक तर्क को, क्योंकि एमएलएलएम घटना क्रम या समय के साथ प्रगति का विश्लेषण नहीं करते हैं, बल्कि छवियों की व्यवस्था से संबंधित पैटर्न या दृश्य विशेषताओं पर निर्भर करते हैं।

गुणात्मक परीक्षण जीपीटी-4ओ की भविष्यवाणियों को विभिन्न इनपुट क्रम का सामना करने पर हाइलाइट करते हैं। पहले क्रम में, छवि जोड़े उनके मूल क्रम में प्रस्तुत किए जाते हैं, जबकि दूसरे क्रम में, क्रम उलटा होता है। सही वर्गीकरण हरे रंग में चिह्नित हैं, शुद्ध गलत वर्गीकरण लाल रंग में, हॉलुसिनेटेड तर्क नारंगी में, और तार्किक या ‘अमान्य’ तर्क भूरे रंग में हैं, जो मॉडल की विभिन्न इनपुट कॉन्फ़िगरेशन में असंगतता को दर्शाते हैं।

एकल-छवि और मल्टी-इमेज इनपुट के बीच तुलना परीक्षणों ने सीमित समग्र सुधार दिखाया, जिसमें जीपीटी-4ओ ने मल्टी-इमेज इनपुट पर थोड़ा बेहतर प्रदर्शन किया, 31.0% से 43.6% (पी1 के साथ) और 46.0% से 65.3% (पी2 के साथ) तक बढ़ गया।

अन्य मॉडल्स, जैसे इंटरनवीएल, ने स्थिर लेकिन कम सटीकता दिखाई, जबकि क्वेन-वीएल ने छोटे लाभ देखे। लेखकों का निष्कर्ष है कि ये परिणाम यह दर्शाते हैं कि अतिरिक्त दृश्य संदर्भ समयिक तर्क क्षमताओं को काफी हद तक बढ़ाने में विफल रहता है, क्योंकि मॉडल समयिक जानकारी को प्रभावी ढंग से एकीकृत करने के लिए संघर्ष करते हैं।

मानव अध्ययन

एक मानव अध्ययन में, तीन सर्वेक्षण किए गए ताकि यह आकलन किया जा सके कि कैसे सर्वश्रेष्ठ प्रदर्शन करने वाला मल्टीमॉडल एमएलएलएम मानव अनुमान के साथ तुलना में प्रदर्शन करता है।

मानवों ने 90.3% सटीकता हासिल की, जो जीपीटी-4ओ के 65.3% से 25% बेहतर थी। डेटासेट विश्वसनीय साबित हुआ, जिसमें मानव त्रुटियां न्यूनतम थीं और सही उत्तरों पर सुसंगत सहमति थी।

पहले दौर के परीक्षणों के लिए मानव उपयोगकर्ता अध्ययन के परिणाम。

समय-लैप्स अनुमान: परिणाम

टीएलई के लिए परिणाम: समय-लैप्स अनुमान मॉडल की सटीकता का मूल्यांकन करता है कि वे छवि जोड़े के बीच अंतराल की पहचान कर सकते हैं, सेकंड से लेकर वर्षों तक। यह कार्य प्रत्येक मॉडल की क्षमता का आकलन करता है कि वे समयिक अंतर के लिए सही समय स्केल का चयन कर सकते हैं।

इन परीक्षणों में, एमएलएलएम ने समय-लैप्स अनुमान पर केवल पर्याप्त रूप से प्रदर्शन किया: जीपीटी-4ओ ने 70% सटीकता हासिल की, लेकिन अन्य मॉडल्स ने काफी खराब प्रदर्शन किया (ऊपर दी गई तालिका देखें), और प्रदर्शन विभिन्न समय स्केल पर भी भिन्न था।

लेखकों का टिप्पणी है:

‘समय-लैप्स अनुमान का कार्य एमएलएलएम की क्षमता का परीक्षण करता है कि वे छवि जोड़े के बीच समयिक अंतराल का अनुमान लगा सकते हैं। [सभी] एमएलएलएम, जीपीटी-4ओ और जेमिनी1.5-प्रो जैसे शीर्ष प्रदर्शनकर्ताओं सहित, इस कार्य के साथ संघर्ष करते हैं, केवल 60-70% की मध्यम सटीकता स्तर प्राप्त करते हैं। जीपीटी-4ओ का प्रदर्शन असंगत है, सेकंड और वर्षों में मजबूत प्रदर्शन करता है लेकिन घंटों में कमजोर प्रदर्शन करता है।

‘इसी तरह, एलएवीए-コट सेकंड और दिनों के समय अंतराल में असाधारण प्रदर्शन दिखाता है, जबकि अन्य समय अंतराल में उल्लेखनीय रूप से खराब प्रदर्शन करता है।’

मानव अध्ययन

टीएलई के लिए मानव अध्ययन में, औसत मानव प्रदर्शन जीपीटी-4ओ (इस श्रेणी में भी सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल) से 12.3% बेहतर था।

लेखकों का उल्लेख है कि कुछ चुनौतियां विशेष रूप से कठिन थीं, और एक मामले में, सभी मानव प्रतिभागियों ने गलत उत्तर दिया, साथ ही सभी एआई प्रतिभागियों ने।

लेखकों का निष्कर्ष है कि जीपीटी-4ओ में ‘पर्याप्त रूप से मजबूत तर्क क्षमता’ है, जो छवियों के क्रम की परवाह किए बिना है।

निष्कर्ष

यदि एमएलएलएम अंततः पर्याप्त ‘शॉर्टकट’ डेटा एकत्र करते हैं और अवशोषित करते हैं ताकि वे इस अध्ययन में प्रस्तुत चुनौतियों को कवर कर सकें, तो यह एक मूर्खतापूर्ण बिंदु बन सकता है कि क्या वे इस डोमेन में मानव-शैली की सामान्यीकरण क्षमता विकसित कर सकते हैं या नहीं।

यह भी ज्ञात नहीं है कि हम अपनी समयिक तर्क क्षमताओं को किस मार्ग से प्राप्त करते हैं – क्या हम भी ‘छोटे रास्ते’ का उपयोग करते हैं जब तक कि सीखे गए अनुभव की भारी मात्रा एक पैटर्न को प्रकट नहीं करती जो इस प्रकार के परीक्षण के लिए ‘प्रवृत्ति’ के रूप में कार्य करती है?

* इस बात से दृष्टिकोण कि मॉडल्स को हानि कार्यों के साथ अनुकूलित किया जा रहा है जिसमें मानव प्रतिक्रिया का योगदान है, और मानव परीक्षणों और बाद के ट्राइएज के माध्यम से प्रभावी ढंग से अनुकूलित किया जा रहा है।

सोमवार, 27 जनवरी, 2025 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai