Connect with us

рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рд░рд╛рдЬреНрдп-рдСрдл-рдж-рдЖрд░реНрдЯ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рд╕рдордпрд┐рдХ рддрд░реНрдХ рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдВрдШрд░реНрд╖ рдХрд░рддреЗ рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рд░рд╛рдЬреНрдп-рдСрдл-рдж-рдЖрд░реНрдЯ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рд╕рдордпрд┐рдХ рддрд░реНрдХ рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдВрдШрд░реНрд╖ рдХрд░рддреЗ рд╣реИрдВ

mm
Variation on ChatGPT-4o prompt: тАШ1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movieтАЩ

भविष्य की स्थितियों की भविष्यवाणी करना कंप्यूटर विजन शोध में एक महत्वपूर्ण मिशन है – न केवल रोबोटिक्स में, जहां वास्तविक दुनिया की स्थितियों पर विचार किया जाना चाहिए, बल्कि मशीन लर्निंग सिस्टम को मिशन-महत्वपूर्ण कार्यों के साथ भी भरोसा किया जाता है। इसलिए, उन्हें भौतिक दुनिया की पर्याप्त समझ की आवश्यकता होती है।

हालांकि, कुछ मामलों में, समयिक वास्तविकता का एक स्पष्ट रूप से प्रभावशाली ज्ञान धोखाधड़ी हो सकता है: संयुक्त अरब अमीरात से एक नए शोध पत्र में पाया गया है कि राज्य-ऑफ-द-आर्ट मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम), जिनमें क्षेत्र के नेता जीपीटी-4ओ और गूगल जेमिनी शामिल हैं, समय को छवियों में प्रस्तुत किए जाने के तरीके की व्याख्या करने में असफल रहते हैं।

उदाहरण के अनुक्रमिक जोड़े (नीचे दी गई छवि देखें), जो मानवों के लिए भी गलत क्रम में रखे जाने पर भी चुनौतीपूर्ण नहीं होंगे, उन्नत एमएलएलएम को असामान्य संदर्भों या कॉन्फ़िगरेशन (जैसे कि दूसरी छवि पहले, एकल छवियों में संकलित, अनुक्रमिक कई छवियों जो सही समयिक क्रम का प्रतिनिधित्व कर सकती हैं या नहीं) में धोखा दे सकते हैं।

рдПрдХ рдирдП рдЕрдзреНрдпрдпрди рдХреЗ рд▓рд┐рдП рд╕рдВрдХрд▓рд┐рдд рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреЗ рдирдореВрдиреЗ, рдЬреЛ рдЕрдиреБрдХреНрд░рдорд┐рдХ рдШрдЯрдирд╛рдУрдВ рдХреЛ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВред рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдиреЗ рдЗрд╕ рдбреЗрдЯрд╛ рдХреЛ https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer рдкрд░ рдЙрдкрд▓рдмреНрдз рдХрд░рд╛рдпрд╛ рд╣реИ

एक नए अध्ययन के लिए संकलित डेटासेट के नमूने, जो अनुक्रमिक घटनाओं को दिखाते हैं और ‘पहले और बाद में’ छवियों के रूप में दिखाए जाते हैं। शोधकर्ताओं ने इस डेटा को https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer पर उपलब्ध कराया है

शोधकर्ताओं ने मॉडल्स को मूलभूत समयिक तर्क चुनौतियों के साथ काम किया, जैसे कि घटना क्रम निर्धारित करना या समय अंतराल का अनुमान लगाना, और पाया कि सात एमएलएलएम ने मानव सटीकता से काफी नीचे प्रदर्शन किया:

‘सामान्य तौर पर, [परिणाम] यह बताते हैं कि सभी वर्तमान एमएलएलएम, जीपीटी-4ओ सहित – हमारे मूल्यांकन में सबसे उन्नत मॉडल – प्रस्तावित बेंचमार्क के साथ संघर्ष करते हैं। जीपीटी-4ओ के अन्य मॉडल्स की तुलना में श्रेष्ठ प्रदर्शन के बावजूद, यह विभिन्न सेटिंग्स में सटीक समयिक तर्क का स्थिर रूप से प्रदर्शन करने में विफल रहता है।

‘सभी मॉडल्स के लिए सुसंगत सटीकता स्कोर उल्लेखनीय रूप से कम हैं, जो उनकी दृश्य इनपुट से समयिक अनुक्रमों को समझने और व्याख्या करने में महत्वपूर्ण सीमाओं का संकेत देते हैं। ये कमियां तब भी स्पष्ट हैं जब मॉडल्स को मल्टी-इमेज इनपुट या अनुकूलित प्रॉम्प्ट प्रदान किए जाते हैं, जो यह सुझाव देते हैं कि वर्तमान आर्किटेक्चर और प्रशिक्षण विधियां मजबूत समयिक क्रम समझ के लिए पर्याप्त नहीं हैं।’

मशीन लर्निंग सिस्टम को सबसे सटीक, लेकिन सबसे कुशल और लोगों को पसंद आने वाले परिणामों के लिए अनुकूलित किया जाता है। चूंकि वे अपने तर्क को स्पष्ट रूप से प्रकट नहीं करते हैं, इसलिए यह बताना मुश्किल हो सकता है कि वे ‘छोटे रास्ते’ का उपयोग कर रहे हैं या नहीं।

इस तरह के मामले में, एमएलएलएम सही उत्तर तक गलत तरीके से पहुंच सकता है। यह तथ्य कि ऐसा उत्तर सही हो सकता है, मॉडल में गलत आत्मविश्वास पैदा कर सकता है, जो बाद में उसी तरीके से गलत परिणाम पैदा कर सकता है।

और भी बुरी बात यह है कि यह मिस्गाइडेंस विकास श्रृंखला में और अधिक गहराई से जड़ सकता है यदि मानव इसे प्रभावित करते हैं और परीक्षणों और एनोटेशन सत्रों में सकारात्मक प्रतिक्रिया देते हैं जो डेटा और/या मॉडल की दिशा में योगदान कर सकते हैं।

इस मामले में, सुझाव यह है कि एमएलएलएम समयिक घटनाओं की वास्तविक समझ को ‘नकल’ कर रहे हैं, द्वितीयक संकेतकों (जैसे कि समय-स्टैम्प, वीडियो डेटा में) का अवलोकन और एंकरिंग करके।

यह आगे संकेत देता है कि एमएलएलएम वर्तमान में समयिक घटनाओं की अवधारणा को सामान्यीकृत करने की किसी भी वास्तविक परिभाषा को संतुष्ट नहीं करते हैं – कम से कम, उतना जितना मानव कर सकते हैं।

नया शोध पत्र क्या मल्टीमॉडल एमएलएलएम दृश्य समयिक समझ और तर्क कर सकते हैं? उत्तर नहीं है! है, और यह मोहम्मद बिन जायद विश्वविद्यालय के तीन शोधकर्ताओं और अलीबाबा इंटरनेशनल डिजिटल कॉमर्स से है।

डेटा और परीक्षण

लेखकों का उल्लेख है कि पिछले बेंचमार्क और अध्ययन, जैसे कि एमएमयू और टेम्पोरलबेंच, एकल-छवि इनपुट पर केंद्रित होते हैं या एमएलएलएम के लिए प्रश्न तैयार करते हैं जो बहुत आसान हो सकते हैं और शॉर्टकट व्यवहार की प्रवृत्ति को उजागर नहीं कर सकते हैं।

इसलिए, लेखक दो अद्यतन दृष्टिकोण प्रदान करते हैं: समयिक क्रम समझ (टीओयू) और समय-लैप्स अनुमान (टीएलई)। टीओयू दृष्टिकोण मॉडल्स की क्षमता का परीक्षण करता है कि वे वीडियो फ्रेम के जोड़े से सही घटना क्रम निर्धारित कर सकते हैं; टीएलई विधि एमएलएलएम की क्षमता का मूल्यांकन करती है कि वे दो छवियों के बीच समय अंतराल का अनुमान लगा सकते हैं, जो कि सेकंड से लेकर वर्षों तक हो सकता है।

<img class=" wp-image-211730" src="https://www.unite.ai/wp-content/uploads/2025/01/two-methods-temporal-order-understanding-and-time-lapse-estimation.jpg" alt="पेपर से, टेम्पोरलवीक्यूए बेंचमार्क के दो मुख्य कार्य: समयिक क्रम समझ में, मॉडल तय करता है कि दो छवियों में से कौन सी पहले हुई घटना को दिखाती है; समय-लैप्स अनुमान में, मॉडल दो छवियों के बीच कितना समय बीता है, इसका अनुमान लगाता है, जिसमें सेकंड, मिनट, दिन या वर्ष जैसे विकल्प शामिल हैं। ये कार्य एमएलएलएम द्वारा दृश्य घटनाओं के समय और अनुक्रम के बारे में तर्क करने की क्षमता का परीक्षण करने के लिए डिज़ाइन किए गए हैं। स्रोत: https://arxiv.org/pdf/2501.10674

शोधकर्ताओं ने टीओयू बेंचमार्क के लिए 360 छवि जोड़े तैयार किए, जो पिक्साबे और पेक्सल्स से खुले स्रोत वीडियो का उपयोग करके तैयार किए गए थे, ताकि यह सुनिश्चित किया जा सके कि डेटासेट जीयूआई के माध्यम से उपलब्ध हो।

वीडियो में लोगों की दैनिक गतिविधियों से लेकर गैर-मानव सामग्री जैसे जानवरों और पौधों तक विभिन्न विषयों को शामिल किया गया था। इनमें से, घटनाओं के अनुक्रम को दर्शाने वाले फ्रेम के जोड़े चुने गए थे, जिसमें पर्याप्त भिन्नता थी ताकि शुरुआती फ्रेम ‘स्पष्ट’ हो।

मानव चयन का उपयोग यह सुनिश्चित करने के लिए किया गया था कि फ्रेमों को निश्चित रूप से क्रमबद्ध किया जा सकता है। उदाहरण के लिए, एक संकलित जोड़े में एक फ्रेम में एक आंशिक रूप से भरा हुआ चाय का कप दिखाया गया है, और अगले फ्रेम में वही कप चाय से भरा हुआ है, जिससे अनुक्रम तर्क को पहचानना आसान हो जाता है।

рдЗрди рджреЛ рддрд╕реНрд╡реАрд░реЛрдВ рдХрд╛ рд╕рдордпрд┐рдХ рддрд░реНрдХ рдмрдЪ рдирд╣реАрдВ рд╕рдХрддрд╛, рдХреНрдпреЛрдВрдХрд┐ рдЪрд╛рдп рдирд▓реА рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╡рд╛рдкрд╕ рдирд╣реАрдВ рдЬрд╛ рд╕рдХрддреА рд╣реИред

इन दो तस्वीरों का समयिक तर्क बच नहीं सकता, क्योंकि चाय नली के माध्यम से वापस नहीं जा सकती है।

इस तरह, 360 छवि जोड़े प्राप्त किए गए।

टीएलई दृष्टिकोण के लिए, कॉपीराइट-मुक्त छवियों को गूगल और फ्लिकर से चुना गया, साथ ही यूट्यूब पर कॉपीराइट-मुक्त वीडियो के चयनित फ्रेम। इन वीडियो की विषय-वस्तु में दृश्य या वस्तुएं शामिल थीं जिनका परिवर्तन अंतराल सेकंड से लेकर दिनों और मौसमों तक था – जैसे कि पकने वाले फल, या परिदृश्यों में मौसम का बदलाव।

इस प्रकार, टीएलई विधि के लिए 125 छवि जोड़े तैयार किए गए।

परीक्षणों में भाग लेने वाले सभी एमएलएलएम मल्टी-इमेज इनपुट को संसाधित नहीं कर सकते थे; इसलिए, परीक्षण प्रत्येक मॉडल की क्षमताओं के अनुसार भिन्न थे।

संकलित डेटासेट के कई संस्करण तैयार किए गए, जिनमें से कुछ जोड़े लंबवत रूप से जुड़े हुए थे, और अन्य क्षैतिज रूप से। आगे के संस्करणों में जोड़े के वास्तविक और सही समयिक क्रम को स्वapped किया गया था।

दो प्रॉम्प्ट प्रकार विकसित किए गए। पहला इस टेम्पलेट का अनुसरण करता था:

क्या (बाएं / ऊपर / पहले) छवि में घटना (दाएं / नीचे / दूसरे) छवि में घटना से पहले हुई? सच या झूठा बताएं, तर्क के साथ।

दूसरा इस योजना का पालन करता था:

इन दो छवियों के बीच, कौन सी छवि पहले हुई घटना को दर्शाती है? (बाएं या दाएं / ऊपर या नीचे / पहले या दूसरे) बताएं, तर्क के साथ।

टीएलई के लिए, प्रश्न बहुविकल्पी थे, जिसमें मॉडल्स को दो प्रस्तुत छवियों के बीच समय अंतराल का मूल्यांकन करने के लिए कहा गया था, जिसमें सेकंड, मिनट, घंटे, दिन, महीने और वर्ष विकल्प के रूप में उपलब्ध थे। इस कॉन्फ़िगरेशन में, सबसे हाल की छवि दाईं ओर प्रस्तुत की गई थी।

यहाँ प्रयुक्त प्रॉम्प्ट था:

दी गई छवि में, पहली छवि (बाएं) और दूसरी छवि (दाएं) के बीच का समय अनुमान लगाएं।

निम्नलिखित विकल्पों में से एक चुनें:

    1. 15 सेकंड से कम
      बी। 2 मिनट से 15 मिनट के बीच
      सी। 1 घंटे से 12 घंटे के बीच
      डी। 2 दिन से 30 दिन के बीच
      ई। 4 महीने से 12 महीने के बीच
      एफ। 3 वर्ष से अधिक

परीक्षण किए गए एमएलएलएम में चैटजीपीटी-4ओ; जेमिनी1.5-प्रो; एलएवीए-नेक्स्ट; इंटरनवीएल; क्वेन-वीएल; लामा-3-विजन; और एलएवीए-コट शामिल थे।

समयिक क्रम समझ: परिणाम

рд╡рд┐рднрд┐рдиреНрди рдореЙрдбрд▓реНрд╕ рдФрд░ рдЗрдирдкреБрдЯ рд▓реЗрдЖрдЙрдЯ рдкрд░ рд╕рдордпрд┐рдХ рдХреНрд░рдо рд╕рдордЭ рдХреЗ рдкрд░рд┐рдгрд╛рдо, рд╡рд┐рднрд┐рдиреНрди рд╕реЗрдЯрдЕрдк рдФрд░ рдкреНрд░реЙрдореНрдкреНрдЯ рдХреЗ рд▓рд┐рдП рд╕рдЯреАрдХрддрд╛ рдФрд░ рд╕реБрд╕рдВрдЧрддрддрд╛ рджрд┐рдЦрд╛ рд░рд╣реЗ рд╣реИрдВред

विभिन्न मॉडल्स और इनपुट लेआउट पर समयिक क्रम समझ के परिणाम, विभिन्न सेटअप और प्रॉम्प्ट के लिए सटीकता और सुसंगतता दिखा रहे हैं।

ऊपर दिखाए गए परिणामों के संबंध में, लेखकों ने पाया कि सभी परीक्षण किए गए एमएलएलएम, जीपीटी-4ओ (जो समग्र प्रदर्शन में सबसे अच्छा प्रदर्शन करता है) सहित, समयिकवीक्यूए बेंचमार्क के साथ काफी संघर्ष करते हैं – और यहां तक कि जीपीटी-4ओ विभिन्न कॉन्फ़िगरेशन में सुसंगत रूप से विश्वसनीय समयिक तर्क प्रदर्शित करने में विफल रहता है।

लेखकों का तर्क है कि एलएलएम के साथ सुसंगत रूप से कम सटीकता स्कोर मॉडल्स की दृश्य डेटा से समयिक अनुक्रमों को समझने और व्याख्या करने में महत्वपूर्ण सीमाओं को दर्शाता है। ये कमियां तब भी स्पष्ट हैं जब मॉडल्स को मल्टी-इमेज इनपुट या अनुकूलित प्रॉम्प्ट प्रदान किए जाते हैं, जो यह सुझाव देते हैं कि वर्तमान आर्किटेक्चर और प्रशिक्षण विधियां मजबूत समयिक क्रम समझ के लिए पर्याप्त नहीं हैं।

परीक्षणों ने प्रॉम्प्ट रणनीतियों में महत्वपूर्ण भिन्नता दिखाई। जबकि जीपीटी-4ओ ने अनुकूलित प्रॉम्प्ट के साथ सुधार किया (एकल-छवि सेटिंग में 4% और मल्टी-इमेज सेटिंग में 65.3% तक पहुंच गया), प्रदर्शन अभी भी स्वीकार्य स्तर से नीचे रहा।

मॉडल्स जैसे एलएवीए-नेक्स्ट और क्वेन-वीएल वैकल्पिक प्रॉम्प्ट का उपयोग करने पर और अधिक संवेदनशील थे, जिसमें प्रदर्शन गिर गया था, जो यह सुझाव देता है कि प्रॉम्प्ट इंजीनियरिंग अकेले एमएलएलएम की मूलभूत सीमाओं को समयिक तर्क के संबंध में दूर नहीं कर सकती है।

परीक्षणों से यह भी पता चला कि छवि लेआउट (यानी, लंबवत बनाम क्षैतिज) मॉडल प्रदर्शन पर महत्वपूर्ण प्रभाव डालता है। जीपीटी-4ओ ने लंबवत व्यवस्था के साथ अपनी सुसंगतता में सुधार किया, 39.2% से 52.8% तक बढ़ गया; हालांकि, अन्य मॉडल्स, जिनमें एलएवीए स्ट्रेन शामिल हैं, ने मजबूत दिशात्मक पूर्वाग्रह दिखाया, एक दिशा में उत्कृष्टता प्राप्त की लेकिन दूसरे में विफल रहे।

पेपर से पता चलता है कि ये असंगतियां स्थानिक संकेतों पर निर्भरता को दर्शाती हैं, न कि वास्तविक समयिक तर्क को, क्योंकि एमएलएलएम घटना क्रम या समय के साथ प्रगति का विश्लेषण नहीं करते हैं, बल्कि छवियों की व्यवस्था से संबंधित पैटर्न या दृश्य विशेषताओं पर निर्भर करते हैं।

рдЧреБрдгрд╛рддреНрдордХ рдкрд░реАрдХреНрд╖рдг рдЬреАрдкреАрдЯреА-4рдУ рдХреА рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпреЛрдВ рдХреЛ рд╡рд┐рднрд┐рдиреНрди рдЗрдирдкреБрдЯ рдХреНрд░рдо рдХрд╛ рд╕рд╛рдордирд╛ рдХрд░рдиреЗ рдкрд░ рд╣рд╛рдЗрд▓рд╛рдЗрдЯ рдХрд░рддреЗ рд╣реИрдВред рдкрд╣рд▓реЗ рдХреНрд░рдо рдореЗрдВ, рдЫрд╡рд┐ рдЬреЛрдбрд╝реЗ рдЙрдирдХреЗ рдореВрд▓ рдХреНрд░рдо рдореЗрдВ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ, рдЬрдмрдХрд┐ рджреВрд╕рд░реЗ рдХреНрд░рдо рдореЗрдВ, рдХреНрд░рдо рдЙрд▓рдЯрд╛ рд╣реЛрддрд╛ рд╣реИред рд╕рд╣реА рд╡рд░реНрдЧреАрдХрд░рдг рд╣рд░реЗ рд░рдВрдЧ рдореЗрдВ рдЪрд┐рд╣реНрдирд┐рдд рд╣реИрдВ, рд╢реБрджреНрдз рдЧрд▓рдд рд╡рд░реНрдЧреАрдХрд░рдг рд▓рд╛рд▓ рд░рдВрдЧ рдореЗрдВ, рд╣реЙрд▓реБрд╕рд┐рдиреЗрдЯреЗрдб рддрд░реНрдХ рдирд╛рд░рдВрдЧреА рдореЗрдВ, рдФрд░ рддрд╛рд░реНрдХрд┐рдХ рдпрд╛ 'рдЕрдорд╛рдиреНрдп' рддрд░реНрдХ рднреВрд░реЗ рд░рдВрдЧ рдореЗрдВ рд╣реИрдВ, рдЬреЛ рдореЙрдбрд▓ рдХреА рд╡рд┐рднрд┐рдиреНрди рдЗрдирдкреБрдЯ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдореЗрдВ рдЕрд╕рдВрдЧрддрддрд╛ рдХреЛ рджрд░реНрд╢рд╛рддреЗ рд╣реИрдВред

गुणात्मक परीक्षण जीपीटी-4ओ की भविष्यवाणियों को विभिन्न इनपुट क्रम का सामना करने पर हाइलाइट करते हैं। पहले क्रम में, छवि जोड़े उनके मूल क्रम में प्रस्तुत किए जाते हैं, जबकि दूसरे क्रम में, क्रम उलटा होता है। सही वर्गीकरण हरे रंग में चिह्नित हैं, शुद्ध गलत वर्गीकरण लाल रंग में, हॉलुसिनेटेड तर्क नारंगी में, और तार्किक या ‘अमान्य’ तर्क भूरे रंग में हैं, जो मॉडल की विभिन्न इनपुट कॉन्फ़िगरेशन में असंगतता को दर्शाते हैं।

एकल-छवि और मल्टी-इमेज इनपुट के बीच तुलना परीक्षणों ने सीमित समग्र सुधार दिखाया, जिसमें जीपीटी-4ओ ने मल्टी-इमेज इनपुट पर थोड़ा बेहतर प्रदर्शन किया, 31.0% से 43.6% (पी1 के साथ) और 46.0% से 65.3% (पी2 के साथ) तक बढ़ गया।

अन्य मॉडल्स, जैसे इंटरनवीएल, ने स्थिर लेकिन कम सटीकता दिखाई, जबकि क्वेन-वीएल ने छोटे लाभ देखे। लेखकों का निष्कर्ष है कि ये परिणाम यह दर्शाते हैं कि अतिरिक्त दृश्य संदर्भ समयिक तर्क क्षमताओं को काफी हद तक बढ़ाने में विफल रहता है, क्योंकि मॉडल समयिक जानकारी को प्रभावी ढंग से एकीकृत करने के लिए संघर्ष करते हैं।

मानव अध्ययन

एक मानव अध्ययन में, तीन सर्वेक्षण किए गए ताकि यह आकलन किया जा सके कि कैसे सर्वश्रेष्ठ प्रदर्शन करने वाला मल्टीमॉडल एमएलएलएम मानव अनुमान के साथ तुलना में प्रदर्शन करता है।

मानवों ने 90.3% सटीकता हासिल की, जो जीपीटी-4ओ के 65.3% से 25% बेहतर थी। डेटासेट विश्वसनीय साबित हुआ, जिसमें मानव त्रुटियां न्यूनतम थीं और सही उत्तरों पर सुसंगत सहमति थी।

рдкрд╣рд▓реЗ рджреМрд░ рдХреЗ рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рд▓рд┐рдП рдорд╛рдирд╡ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЕрдзреНрдпрдпрди рдХреЗ рдкрд░рд┐рдгрд╛рдоред

पहले दौर के परीक्षणों के लिए मानव उपयोगकर्ता अध्ययन के परिणाम。

समय-लैप्स अनुमान: परिणाम

рдЯреАрдПрд▓рдИ рдХреЗ рд▓рд┐рдП рдкрд░рд┐рдгрд╛рдо: рд╕рдордп-рд▓реИрдкреНрд╕ рдЕрдиреБрдорд╛рди рдореЙрдбрд▓ рдХреА рд╕рдЯреАрдХрддрд╛ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рддрд╛ рд╣реИ рдХрд┐ рд╡реЗ рдЫрд╡рд┐ рдЬреЛрдбрд╝реЗ рдХреЗ рдмреАрдЪ рдЕрдВрддрд░рд╛рд▓ рдХреА рдкрд╣рдЪрд╛рди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд╕реЗрдХрдВрдб рд╕реЗ рд▓реЗрдХрд░ рд╡рд░реНрд╖реЛрдВ рддрдХред рдпрд╣ рдХрд╛рд░реНрдп рдкреНрд░рддреНрдпреЗрдХ рдореЙрдбрд▓ рдХреА рдХреНрд╖рдорддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рддрд╛ рд╣реИ рдХрд┐ рд╡реЗ рд╕рдордпрд┐рдХ рдЕрдВрддрд░ рдХреЗ рд▓рд┐рдП рд╕рд╣реА рд╕рдордп рд╕реНрдХреЗрд▓ рдХрд╛ рдЪрдпрди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

टीएलई के लिए परिणाम: समय-लैप्स अनुमान मॉडल की सटीकता का मूल्यांकन करता है कि वे छवि जोड़े के बीच अंतराल की पहचान कर सकते हैं, सेकंड से लेकर वर्षों तक। यह कार्य प्रत्येक मॉडल की क्षमता का आकलन करता है कि वे समयिक अंतर के लिए सही समय स्केल का चयन कर सकते हैं।

इन परीक्षणों में, एमएलएलएम ने समय-लैप्स अनुमान पर केवल पर्याप्त रूप से प्रदर्शन किया: जीपीटी-4ओ ने 70% सटीकता हासिल की, लेकिन अन्य मॉडल्स ने काफी खराब प्रदर्शन किया (ऊपर दी गई तालिका देखें), और प्रदर्शन विभिन्न समय स्केल पर भी भिन्न था।

लेखकों का टिप्पणी है:

‘समय-लैप्स अनुमान का कार्य एमएलएलएम की क्षमता का परीक्षण करता है कि वे छवि जोड़े के बीच समयिक अंतराल का अनुमान लगा सकते हैं। [सभी] एमएलएलएम, जीपीटी-4ओ और जेमिनी1.5-प्रो जैसे शीर्ष प्रदर्शनकर्ताओं सहित, इस कार्य के साथ संघर्ष करते हैं, केवल 60-70% की मध्यम सटीकता स्तर प्राप्त करते हैं। जीपीटी-4ओ का प्रदर्शन असंगत है, सेकंड और वर्षों में मजबूत प्रदर्शन करता है लेकिन घंटों में कमजोर प्रदर्शन करता है।

‘इसी तरह, एलएवीए-コट सेकंड और दिनों के समय अंतराल में असाधारण प्रदर्शन दिखाता है, जबकि अन्य समय अंतराल में उल्लेखनीय रूप से खराब प्रदर्शन करता है।’

मानव अध्ययन

टीएलई के लिए मानव अध्ययन में, औसत मानव प्रदर्शन जीपीटी-4ओ (इस श्रेणी में भी सर्वश्रेष्ठ प्रदर्शन करने वाला मॉडल) से 12.3% बेहतर था।

लेखकों का उल्लेख है कि कुछ चुनौतियां विशेष रूप से कठिन थीं, और एक मामले में, सभी मानव प्रतिभागियों ने गलत उत्तर दिया, साथ ही सभी एआई प्रतिभागियों ने।

लेखकों का निष्कर्ष है कि जीपीटी-4ओ में ‘पर्याप्त रूप से मजबूत तर्क क्षमता’ है, जो छवियों के क्रम की परवाह किए बिना है।

निष्कर्ष

यदि एमएलएलएम अंततः पर्याप्त ‘शॉर्टकट’ डेटा एकत्र करते हैं और अवशोषित करते हैं ताकि वे इस अध्ययन में प्रस्तुत चुनौतियों को कवर कर सकें, तो यह एक मूर्खतापूर्ण बिंदु बन सकता है कि क्या वे इस डोमेन में मानव-शैली की सामान्यीकरण क्षमता विकसित कर सकते हैं या नहीं।

यह भी ज्ञात नहीं है कि हम अपनी समयिक तर्क क्षमताओं को किस मार्ग से प्राप्त करते हैं – क्या हम भी ‘छोटे रास्ते’ का उपयोग करते हैं जब तक कि सीखे गए अनुभव की भारी मात्रा एक पैटर्न को प्रकट नहीं करती जो इस प्रकार के परीक्षण के लिए ‘प्रवृत्ति’ के रूप में कार्य करती है?

 

* इस बात से दृष्टिकोण कि मॉडल्स को हानि कार्यों के साथ अनुकूलित किया जा रहा है जिसमें मानव प्रतिक्रिया का योगदान है, और मानव परीक्षणों और बाद के ट्राइएज के माध्यम से प्रभावी ढंग से अनुकूलित किया जा रहा है।

सोमवार, 27 जनवरी, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai