Anderson рдХрд╛ рдПрдВрдЧрд▓

рдЖрд░реНрдЯрд┐рдлрд╝рд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕ рдорд╛рдирд╡реЛрдВ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдлрд░реНрдиреАрдЪрд░ рдЕрд╕реЗрдВрдмрд▓ рдХрд░рдиреЗ рдореЗрдВ рдХрд╛рдлреА рдЦрд░рд╛рдм рд╣реИ

mm
AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

चैटजीपीटी और गूगल जेमिनी अभी भी आईकेईए असेंब्ली वीडियोज़ को विश्वसनीय रूप से समझने में असमर्थ हैं, कई अन्य प्रमुख एआई सिस्टम भागों को भ्रमित करते हैं, कनेक्शन को याद करते हैं और वीडियो का उपयोग करके यह पता लगाने के लिए कि क्या हो रहा है, इसका उपयोग करने में असमर्थ हैं।

 

आईकेईए-शैली के फ्लैट-पैक फर्नीचर को असेंब्ल करने में कठिनाई के आसपास का सांस्कृतिक मेम कंप्यूटर विजन रिसर्च के लिए एक आकर्षक लक्ष्य बनाता है — कम से कम इसलिए कि लंबे क्रियाओं के क्रम, वस्तु-ट्रैकिंग और इसमें शामिल स्थानिक तर्क रोबोटिक मैनिपुलेशन सिस्टम को उन सरल आकारों और नियंत्रित वातावरण से परे धकेलने की संभावना है जिनसे वे अभ्यस्त हैं।

इसलिए, एआई-संचालित रोबोटिक असेंब्ली रूटीन के लिए फ्लैट-पैक फर्नीचर पर काम करना कंप्यूटर विजन अनुसंधान क्षेत्र में एक छोटा लेकिन सम्मानित शाखा बन गया है, जैसे कि यूएससी के 2019 आईकेईए फर्नीचर असेंब्ली एनवायरनमेंट, जो फर्नीचर असेंब्ली के लिए विशेष रूप से लक्षित पहले बेंचमार्क डेटासेट और अनुसंधान संदर्भों में से एक है:

[वीडियो चौड़ाई=”1204″ ऊंचाई=”888″ mp4=”https://www.unite.ai/wp-content/uploads/2026/05/IKEA-Furniture-Assembly-Environment_encoded.mp4″ लूप=”सच”][/वीडियो]

प्ले करने के लिए क्लिक करें रोबोटिक असेंब्ली अभ्यास के उदाहरण, 2019 आईकेईए फर्नीचर असेंब्ली एनवायरनमेंट पहल के परियोजना साइट से। स्रोत

2024 में, स्टैनफोर्ड/जेपी मॉर्गन सहयोग आईकेईए मैनुअल्स एट वर्क एआई की क्षमता का पहला महत्वपूर्ण परीक्षण था इस कथित रूप से साधारण (लेकिन अक्सर निराशाजनक) प्रक्रिया को करने के लिए, एक नए डेटासेट का उपयोग करके निर्देश मैनुअल से छवियों के साथ-साथ निर्देशात्मक वीडियो का उपयोग किया:

[कैप्शन आईडी=”अटैचमेंट_424150″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”905″]рдбреЗрдЯрд╛рд╕реЗрдЯ рд╡рд┐рдзрд┐ рдФрд░ рд╡рд┐рд╡рд░рдг 2024 рдЖрдИрдХреЗрдИрдП рдореИрдиреБрдЕрд▓реНрд╕ рдПрдЯ рд╡рд░реНрдХ рдкрд╣рд▓ рд╕реЗред рд╕реНрд░реЛрдд - https://arxiv.org/abs/2411.11409 डेटासेट विधि और विवरण 2024 आईकेईए मैनुअल्स एट वर्क पहल से। स्रोत[/कैप्शन]

इस पत्र के लेखकों — जिन्होंने डीजीसीएनएन, सीएनओएस, एसएएम-6डी, मेगापोज, मिडास, एसएएम2 हियरा-एल, क्यूटी-बेस, और जीपीटी-4ओ का लाभ उठाया — ने निष्कर्ष निकाला कि कार्य ने ‘निर्देशात्मक असेंब्ली वीडियो में ग्राउंडिंग में महत्वपूर्ण चुनौतियां पैदा कीं, जिनमें भाग खंडीकरण और मुद्रा निकालना, उच्च-स्तरीय असेंब्ली योजनाओं का निर्माण, और वीडियो में कुंजी असेंब्ली चरणों का पता लगाना शामिल है।’

वैक्स ऑन, वैक्स ऑफ

यह स्पष्ट होना चाहिए कि जबकि हमें एक ऐसे कार्य से मुक्त करने के लिए एआई को स्वचालित करना अच्छा होगा जिसे कम लोग प्यार करते हैं, यह वैज्ञानिक लोडस्टार नहीं है, या कंप्यूटर विजन अनुसंधान क्षेत्र के लिए प्राथमिकताओं की सूची में उच्च है।

इसके बजाय, कार्य का मूल्य इस तथ्य में निहित है कि एआई प्रणालियों को इस कार्य में महारत हासिल करने के लिए क्या सीखने की आवश्यकता है — जो उन्हें कृषि, उद्योग, सेवा क्षेत्र, और विभिन्न अन्य क्षेत्रों में समान रूप से चुनौतीपूर्ण दिनचर्या के लिए आधार प्रदान करेगा।

इस संबंध में, लेगो-पज़ल्स प्रोजेक्ट और डेटासेट यह जांचता है कि विजन लैंग्वेज मॉडल (वीएलएम) विभिन्न वास्तुकलाओं में मल्टी-स्टेप स्पेशियल रीजनिंग को कितनी अच्छी तरह से संभालते हैं, क्योंकि असेंब्ली कार्य न केवल सही वस्तुओं को सही समय पर जोड़ने पर निर्भर करता है — एक प्रक्रिया जिसे मेटिंग के रूप में जाना जाता है — लेकिन निर्देशों का पालन करने पर भी जो किसी भी दिए गए चरण में मॉडल के लिए उपलब्ध कच्चे दृश्य दृश्य से कहीं अधिक अमूर्त हो सकते हैं:

[कैप्शन आईडी=”अटैचमेंट_424151″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1017″]рд▓реЗрдЧреЛ-рдкрдЬрд╝рд▓реНрд╕ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рд╕реЗ рдЪреБрдиреМрддреАрдкреВрд░реНрдг рдкреНрд░рд╢реНрдиред рд╕реНрд░реЛрдд - https://tangkexian.github.io/LEGO-Puzzles/ लेगो-पज़ल्स प्रोजेक्ट से चुनौतीपूर्ण प्रश्न。 स्रोत[/कैप्शन]

फर्नीचर असेंब्ली की चुनौती का सामना करने वाली नवीनतम परियोजना में एक और वर्तमान और क्षमतावान एआई मॉडल का शोषण किया जाता है, जिसमें गूगल जेमिनी 2.5/3.1 और ओपनएआई के जीपीटी-5 शामिल हैं — लेकिन फिर भी एआई के लिए कार्य में जीत हासिल नहीं करता है, केवल मॉडल के मूल चांस से थोड़ा सुधार हुआ है, और प्रदर्शन ‘मानव स्तर से बहुत नीचे’ है।

लेखकों का कहना है:

‘हमारे प्रयोग से पता चलता है कि राज्य-ऑफ-द-आर्ट एलवीएलएम फाइन-ग्रेन्ड स्पेशियल-टेम्पोरल रीजनिंग के साथ महत्वपूर्ण संघर्ष करते हैं, जो उनकी सीमाओं को प्रभावी ढंग से वीडियो से टेम्पोरल जानकारी का लाभ उठाने, सीमित ट्रैकिंग क्षमता और भौतिक संपर्क जैसे स्थानिक बातचीत की समझ को उजागर करता है।’

इस शोध शाखा में संबोधित की जा रही समस्याएं इस चरण में व्यावहारिक रोबोटिक्स से केवल संकल्पनात्मक रूप से संबंधित हैं, हालांकि जब теорिया मुद्दे अंततः निहित एआई में विकसित होते हैं तो अतिरिक्त चुनौतियां सुनिश्चित करने के लिए आती हैं।

नई कागज़ का शीर्षक फ्लैट-पैक बेंच: लार्ज विजन-लैंग्वेज मॉडल में स्पेशियल-टेम्पोरल समझ का मूल्यांकन फर्नीचर असेंब्ली के माध्यम से है, और यह कॉर्नेल विश्वविद्यालय, कॉर्नेल टेक, एमबीज़ूएआई, और यूसी बर्कले के आठ लेखकों के पार है। कागज़ के साथ एक प्रोजेक्ट साइट है।

विधि

नई कार्य के लेखक इस बात पर जोर देते हैं कि एआई सहायकों को वीडियो के माध्यम से असेंब्ली प्रक्रिया को समझने में कठिनाई होती है, जैसे कि लोगों को सामुदायिक ज्ञान से लाभान्वित करने के लिए जो अक्सर यूट्यूब-शैली के निर्देशात्मक वीडियो पर भरोसा करते हैं:

[कैप्शन आईडी=”अटैचमेंट_424152″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1200″]рдлреНрд▓реИрдЯ-рдкреИрдХ рдЕрд╕реЗрдВрдмреНрд▓реА рдХрд╛рд░реНрдп рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди рдХреБрдЫ рдкреНрд░рд╢реНрди, рд╕рд╛рде рд╣реА рдЪреБрдиреМрддрд┐рдпреЛрдВ рдХреЛ рдкрд╛рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрд╡рд╢реНрдпрдХ рдЪрд╛рд░ рдЖрд╡рд╢реНрдпрдХ рдХреМрд╢рд▓ред рд╕реНрд░реЛрдд - https://arxiv.org/pdf/2605.21625 फ्लैट-पैक असेंब्ली कार्य द्वारा उत्पन्न कुछ प्रश्न, साथ ही चुनौतियों को पार करने के लिए आवश्यक चार आवश्यक कौशल。 स्रोत[/कैप्शन]

उन्होंने पहले उल्लिखित आईकेईए-मैनुअल्स-एट-वर्क (आईएमएडब्ल्यू) डेटासेट से फ़िल्टर किया हुआ डेटासेट तैयार किया है, जिसमें लोगों द्वारा आईकेईए फर्नीचर की असेंब्ली के वाइल्ड-वीडियो शामिल हैं। संशोधित बेंचमार्क मूल वीडियो को ट्रिम करता है ताकि पाठ-मात्र निर्देश कार्ड को हटाया जा सके, अलग की-फ्रेम और पूर्ण-वीडियो वेरिएंट के साथ-साथ मैन्युअल रूप से एनोटेटेड विज़ुअल प्रॉम्प्ट के साथ, जो मल्टी-चॉइस तर्क कार्यों के लिए फर्नीचर भागों को खंडित करता है।

बेंचमार्क चार प्रश्न प्रकारों के आसपास घूमता है: मेट, यह निर्धारित करने के लिए कि क्या दो भाग अंतिम असेंब्ली में जुड़े हुए हैं; ट्रैक, मॉडल को वीडियो का उपयोग करके खंडित फ्रेम में भाग आईडी के बीच सही संबंध को पुनः प्राप्त करने की आवश्यकता है; टोर्ड, यह मूल्यांकन करने के लिए कि मॉडल कनेक्शन घटनाओं का सही क्रम निर्धारित कर सकता है या नहीं; और टीएलओसी, यह परीक्षण करने के लिए कि मॉडल विज़ुअल प्रॉम्प्ट में दिखाए गए राज्य से तुरंत पहले या बाद में होने वाली घटनाओं की पहचान कर सकता है या नहीं, जिसमें अस्थायी स्थानीयकरण और निकटवर्ती घटनाओं के बारे में तर्क की आवश्यकता होती है।

[कैप्शन आईडी=”अटैचमेंट_424153″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1024″]рдлреНрд▓реИрдЯ-рдкреИрдХ рдЕрд╕реЗрдВрдмреНрд▓реА рд╡реАрдбрд┐рдпреЛ рдореЗрдВ рд╕реНрдкреЗрд╢рд┐рдпрд▓-рдЯреЗрдореНрдкреЛрд░рд▓ рддрд░реНрдХ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рдЪрд╛рд░ рдХреЛрд░ рдХрд╛рд░реНрдп рдкреНрд░рдХрд╛рд░реЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдг: рдЯреЗрдореНрдкреЛрд░рд▓ рд▓реЛрдХрд▓рд╛рдЗрдЬреЗрд╢рди; рдЯреЗрдореНрдкреЛрд░рд▓ рдСрд░реНрдбрд░рд┐рдВрдЧ; рдЯреНрд░реИрдХрд┐рдВрдЧ; рдФрд░ рдореЗрдЯрд┐рдВрдЧред рдкреНрд░рддреНрдпреЗрдХ рдХрд╛рд░реНрдп рдЕрд╕реЗрдВрдмреНрд▓реА рд╡реАрдбрд┐рдпреЛ рдлреБрдЯреЗрдЬ рдХреЛ рдПрдХ рдпрд╛ рдПрдХ рд╕реЗ рдЕрдзрд┐рдХ рд╕реЗрдЧрдореЗрдВрдЯ-рд▓реЗрдмрд▓ рд╡рд┐рдЬрд╝реБрдЕрд▓ рдкреНрд░реЙрдореНрдкреНрдЯ рдФрд░ рдПрдХ рдорд▓реНрдЯреА-рдЪреЙрдЗрд╕ рддрд░реНрдХ рдкреНрд░рд╢реНрди рдХреЗ рд╕рд╛рде рдЬреЛрдбрд╝рддрд╛ рд╣реИред फ्लैट-पैक असेंब्ली वीडियो में स्पेशियल-टेम्पोरल तर्क का परीक्षण करने के लिए डिज़ाइन किए गए चार कोर कार्य प्रकारों के उदाहरण: टेम्पोरल लोकलाइजेशन; टेम्पोरल ऑर्डरिंग; ट्रैकिंग; और मेटिंग। प्रत्येक कार्य असेंब्ली वीडियो फुटेज को एक या एक से अधिक सेगमेंट-लेबल विज़ुअल प्रॉम्प्ट और एक मल्टी-चॉइस तर्क प्रश्न के साथ जोड़ता है।[/कैप्शन]

उपरोक्त स्कीमा छवि में दिखाए गए टेम्पलेट इन चार प्रश्न मॉडल से व्युत्पन्न किए गए थे।

लेखकों का यह भी उल्लेख है कि उन्होंने मूल आईएमएडब्ल्यू वीडियो में प्रत्येक के लिए फाइन-ग्रेन्ड पार्ट-एसेंब्ली एनोटेशन जोड़े, जो यह निर्दिष्ट करते हैं कि कौन से भाग किस अन्य भागों से जुड़ते हैं — विवरण जो मूल संग्रह में अनुपस्थित थे:

पलायन

कागज़ में उल्लेख किया गया है कि प्रश्नों को मैन्युअल रूप से क्यूरेट किया जाना था, क्योंकि ऑटो-जेनरेटेड प्रश्न अक्सर एआई को वीडियो की उपेक्षा करने और अपने स्वयं के प्रशिक्षित समझ का लाभ उठाने का अवसर प्रदान करते हैं — एक परिदृश्य जिसे एलएलएम/वीएलएम का नियमित उपयोगकर्ता संभवतः पहचानेगा, क्योंकि ऑप्टिमाइजेशन और अन्य रहस्यमय कॉर्पोरेट प्राथमिकताएं अक्सर फ्रंटियर मॉडल को जमा की गई जानकारी, जैसे पीडीएफ या छवियों की उपेक्षा करने और अपने स्वयं के समझ का लाभ उठाने का कारण बनती हैं*:

‘[हमने] पाया कि ऑटो-जेनरेशन अक्सर प्रश्न पैदा करता है जो वीडियो की उपेक्षा करने और शॉर्टकट का लाभ उठाने से उत्तर दिए जा सकते हैं। उदाहरण के लिए, ऑटो-जेनरेटेड मेटिंग प्रश्न जो पहले से ही जुड़ने के लिए स्थित भागों के बारे में, या विचलित करने वाले विकल्पों के साथ जो स्पष्ट रूप से अलग-अलग आकार या रंग हैं, जो आसानी से समाप्ति की अनुमति देते हैं। इसे संबोधित करने के लिए, हमने निर्धारित टेम्पलेट का उपयोग करके सभी प्रश्नों को मैन्युअल रूप से क्यूरेट किया।

‘एनोटेटर्स को पूरा असेंब्ली वीडियो, सेगमेंट-लेबल फ्रेम विज़ुअल प्रॉम्प्ट, प्रश्न टेम्पलेट, और विज़ुअल प्रॉम्प्ट से स्थिर संकेतों पर आधारित शॉर्टकट से बचने के लिए विस्तृत दिशानिर्देश प्राप्त हुए।’

समाप्त बेंचमार्क में 50 विभिन्न फर्नीचर असेंब्ली वीडियो में 602 मल्टी-चॉइस प्रश्न शामिल हैं।

डेटा और परीक्षण

परीक्षण के दौर में मूल्यांकित मॉडल में उल्लिखित चैटजीपीटी और जेमिनी वेरिएंट शामिल थे, साथ ही वीडियो-एलएलवीए; एलएवीए-नेक्स्ट-विड; एलएवीए-वनविजन; एलएवीए-वीडियो; क्वेन 2.5/क्वेन 3-वीएल; इंटरनवीएल3; एरोरेल; परसेप्शनएलएम; और वीडियो-रेफर

जेनएस का उपयोग लंबे वीडियो में प्रश्न-प्रासंगिक फ्रेम का चयन करने के लिए आधार जेमिनी 2.5 प्रो मॉडल के लिए किया गया था, और अधिकांश मॉडल वन-शॉट संदर्भ में लालची डिकोडिंग (जीपीटी-5 में असमर्थित, हालांकि) के तहत परीक्षण किया गया था।

बेंचमार्क के लिए तीन प्रोम्प्ट प्रारूप तैयार किए गए थे: मिक्स्ड-मीडिया प्रोम्प्ट ने विज़ुअल प्रॉम्प्ट को एक अलग छवि के रूप में असेंब्ली वीडियो के बगल में प्रदान किया; कोलाज प्रोम्प्ट ने विज़ुअल प्रॉम्प्ट को प्रत्येक वीडियो फ्रेम में एक ग्रिड लेआउट के हिस्से के रूप में एम्बेड किया; और कॉनकैट प्रोम्प्ट ने वीडियो की शुरुआत में विज़ुअल प्रॉम्प्ट को प्रीफ़िक्स किया।

दोनों ट्रिम्ड और की-फ्रेम वीडियो वेरिएंट इन प्रारूपों में परीक्षण किए गए थे, ताकि यह मापा जा सके कि प्रोम्प्ट संरचना और टेम्पोरल संपीड़न मॉडल के प्रदर्शन को कैसे प्रभावित कर सकते हैं।

परीक्षण के लिए माने जाने वाले मौका बेसलाइन में ‘मौका मौका’ भी शामिल था, जहां सबसे आम विकल्प (एक वास्तविक मौका विकल्प के बजाय) चुना जाता है।

मानव कारक

मानव प्रदर्शन का मूल्यांकन कंप्यूटर विज्ञान कार्यक्रमों से प्रतिभागियों का उपयोग करके किया गया था, जो स्नातक से डॉक्टरेट स्तर तक थे। प्रत्येक प्रतिभागी को एक असेंब्ली वीडियो, संबंधित विज़ुअल प्रॉम्प्ट और मल्टी-चॉइस प्रश्न, साथ ही साथ कार्य निर्देश के साथ प्रस्तुत किया गया था, इससे पहले कि वे एक उत्तर चुनते थे।

प्रत्येक प्रश्न के लिए तीन प्रतिक्रियाएं एकत्र की गईं और बहुमत मतदान के माध्यम से हल की गईं, जबकि एक अलग क्राउड-सोर्स्ड अध्ययन भी बेंचमार्क के एक यादृच्छिक नमूने पर आयोजित किया गया था।

सटीकता का उपयोग परीक्षणों के लिए मीट्रिक के रूप में किया गया था:

मॉडल रैंक माइक्रो एवरेज टीओर्ड टीएलओसी ट्रैक मेट
मानव प्रदर्शन 94.18 93.54 93.20 93.77 97.70
मौका बेसलाइन
रैंडम मौका 26.41 25.00 25.00 25.49 33.33
मौका मौका 26.74 27.74 30.10 26.46 36.78
प्रोप्राइटरी मॉडल
जीपीटी-5 1 37.71 40.65 53.40 25.68 49.43
जेमिनी 2.5 प्रो 2 33.72 40.65 44.66 23.35 39.08
जेमिनी 3.1 प्रो 3 32.89 34.84 43.69 21.79 49.43
जेमिनी 2.5 फ्लैश 4 31.06 31.61 41.75 23.35 40.23
जेमिनी 2.5 प्रो + जेनएस 5 25.58 33.55 32.04 13.23 40.23
ओपन मॉडल
वीडियो-एलएलवीए-7बी 26 23.75 21.29 35.92 10.89 51.72
इंटरनवीएल3-14बी 5 37.71 42.58 21.36 37.74 48.28
इंटरनवीएल3-38बी 12 36.05 42.58 37.86 25.68 52.87
इंटरनवीएल3-78बी 1 41.03 43.87 39.81 42.02 34.48
क्वेन2.5-वीएल-7बी 22 30.23 27.10 18.45 33.07 41.38
क्वेन2.5-वीएल-32बी 13 35.88 34.84 29.13 33.07 54.02
क्वेन2.5-वीएल-72बी 2 40.37 41.29 30.10 45.14 36.78
क्वेन3-वीएल-4बी 11 36.54 34.19 33.01 32.68 56.32
क्वेन3-वीएल-4बी-थिंक 9 37.21 31.61 25.24 37.74 59.77
क्वेन3-वीएल-8बी 15 33.72 36.13 30.10 33.85 33.33
क्वेन3-वीएल-8बी-थिंक 17 31.73 34.19 33.01 25.29 44.83
क्वेन3-वीएल-32बी 6 37.71 38.71 46.60 31.91 42.53
क्वेन3-वीएल-32बी-थिंक 3 40.03 38.71 22.33 45.53 47.13
क्वेन3-वीएल-30बी-ए3बी 10 36.71 30.32 22.33 42.02 49.43
क्वेन3-वीएल-235बी-ए22बी 8 37.21 37.42 25.24 39.69 43.68
एलएवीए-नेक्स्ट-विड-7बी 25 25.08 33.55 24.27 16.73 35.63
एलएवीए-नेक्स्ट-विड-34बी 21 30.40 30.32 24.27 32.68 31.03
एलएवीए-वनविजन-7बी 16 32.89 26.45 30.10 34.24 43.68
एलएवीए-वनविजन-72बी 4 38.37 35.48 25.24 38.91 57.47
एलएवीए-वीडियो-7बी 19 30.73 30.97 24.27 25.68 52.87
एलएवीए-वीडियो-72बी 7 37.54 36.77 27.18 35.80 56.32
परसेप्शन-एलएम-1बी 24 27.74 28.39 26.21 25.29 35.63
परसेप्शन-एलएम-3बी 18 31.40 28.39 32.04 29.96 40.23
परसेप्शन-एलएम-8बी 14 35.38 26.45 26.21 44.75 34.48
वीडियो-रेफर 23 28.57 32.90 30.10 17.51 51.72
एरोरेल-7बी 20 30.56 30.97 24.27 29.18 41.38

फ्लैट-पैक बेंच पर प्रदर्शन परिणाम, प्रोप्राइटरी और ओपन मल्टीमॉडल मॉडल की तुलना करते हुए टेम्पोरल ऑर्डरिंग, टेम्पोरल लोकलाइजेशन, ट्रैकिंग और मेटिंग कार्यों में, मानव प्रदर्शन सभी परीक्षणित सिस्टम से बहुत आगे रहा,尽管 बड़े फ्रंटियर मॉडलों में मामूली लाभ थे।

जैसा कि प्रारंभिक परीक्षणों (ऊपर की छवि) में देखा गया है, मानवों ने सभी प्रश्न श्रेणियों में 90% से अधिक स्कोर किया, 80% एकमतता के साथ, यह दावा करते हुए कि प्रस्ताव स्पष्ट और स्पष्ट हैं।

जीपीटी-5 और जेमिनी 2.5/3.1 प्रो ने डेटासेट पर संघर्ष किया, केवल मॉडल के मूल चांस से थोड़ा सुधार हुआ, और मानव प्रदर्शन से बहुत नीचे रहा। जेनएस का उपयोग करके जेमिनी 2.5 प्रो के लिए प्रश्न-प्रासंगिक फ्रेम का चयन करने से परिणाम में सुधार नहीं हुआ, जिससे लेखकों को यह निष्कर्ष निकालने के लिए प्रेरित किया गया कि प्रोप्राइटरी एलवीएलएम फ्लैट-पैक बेंच द्वारा आवश्यक स्पेशियल-टेम्पोरल समझ कार्य में संघर्ष करते हैं।

ओपन सिस्टम में, इंटरनवीएल3 और क्वेन परिवारों से सबसे मजबूत परिणाम आए, हालांकि श्रेणी में प्रदर्शन तेजी से भिन्न होता है; कई मॉडल मौका से अधिक प्रदर्शन नहीं करते हैं; और विशेषज्ञ प्रणाली, जिनमें परसेप्शनएलएम और वीडियो-रेफर शामिल हैं, बेंचमार्क के जटिल असेंब्ली कार्यों पर भी संघर्ष करती हैं, मानव प्रतिभागी हर मॉडल श्रेणी में महत्वपूर्ण रूप से आगे रहते हैं।

शोधकर्ताओं ने कागज़ के मानक प्रोम्प्टिंग सेटअप के खिलाफ दो चेन-ऑफ-थॉट प्रोम्प्टिंग रणनीतियों का भी परीक्षण किया। जीरो-शॉट चेन-ऑफ-थॉट प्रोम्प्टिंग ने मॉडल से अपने उत्तरों की व्याख्या करने के लिए कहा, जबकि स्व-संगतता के साथ चेन-ऑफ-थॉट ने पांच उम्मीदवार प्रतिक्रियाओं का उत्पादन किया और बहुमत मतदान के माध्यम से एक अंतिम उत्तर का चयन किया। हालांकि, न ही दृष्टिकोण ने फ्लैट पैक बेंच डेटासेट पर परिणाम में सुधार किया, दोनों दृष्टिकोण बेंचमार्क की डिफ़ॉल्ट प्रोम्प्टिंग कॉन्फ़िगरेशन से नीचे स्कोर किया।

चीट कोड

यह परीक्षण करने के लिए कि क्या एलवीएलएम वास्तव में असेंब्ली वीडियो से सीख रहे थे या केवल स्थिर दृश्य संकेतों का लाभ उठा रहे थे, शोधकर्ताओं ने बेंचमार्क का एक छवि-केवल संस्करण बनाया, जिसने वीडियो को पूरी तरह से हटा दिया और केवल प्रश्न-पाठ और विज़ुअल प्रॉम्प्ट को बनाए रखा।

मानव प्रदर्शन इन परिस्थितियों में 50% से अधिक गिर गया, यह दिखाते हुए कि कार्य वास्तव में असेंब्ली प्रक्रिया की अस्थायी समझ की आवश्यकता है। मॉडल, हालांकि, बहुत कम गंभीरता से खराब हो गए, कुछ कार्यों में स्थिर या यहां तक कि सुधार हुआ बिना वीडियो इनपुट के।

यह, कागज़ का सुझाव है, यह इंगित करता है कि कई एलवीएलएम वास्तव में वीडियो का उपयोग नहीं कर रहे थे बिल्कुल, इसके बजाय छवि-आधारित शॉर्टकट और सामान्य ज्ञान के अनुमानों पर भरोसा कर रहे थे ताकि संभावित उत्तरों का अनुमान लगाया जा सके*:

[कैप्शन आईडी=”अटैचमेंट_424154″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”762″]рдПрд▓рд╡реАрдПрд▓рдПрдо рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХреА рддреБрд▓рдирд╛ рдЫрд╡рд┐-рдХреЗрд╡рд▓ рд╕рдВрд╕реНрдХрд░рдг рдХреЗ рд╕рд╛рде рдлреНрд▓реИрдЯ-рдкреИрдХ рдмреЗрдВрдЪ, рдорд╛рдирдХ рд╡реАрдбрд┐рдпреЛ-рдкреНрд▓рд╕-рдЫрд╡рд┐ рд╕реЗрдЯрдЕрдк рдХреЗ рд╕рд╛рде, рдФрд░ рдЕрд╕реНрдерд╛рдпреА рд╡реАрдбрд┐рдпреЛ рд╕рдордЭ рдХреЗ рдмрдЬрд╛рдп рд▓реЗрдмрд▓-рдЖрджреЗрд╢ рд╢реЙрд░реНрдЯрдХрдЯ рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдиреЗ рдХреЗ рд▓рд┐рдП рднрд╛рдЧ рдЖрдИрдбреА рдХреЛ рдорд┐рд▓рд╛рдиреЗ рдХреЗ рдмрд╛рдж рдкрд░рд┐рдгрд╛рдоред एलवीएलएम के प्रदर्शन की तुलना छवि-केवल संस्करण के साथ फ्लैट-पैक बेंच, मानक वीडियो-प्लस-छवि सेटअप के साथ, और अस्थायी वीडियो समझ के बजाय लेबल-आदेश शॉर्टकट का लाभ उठाने के लिए भाग आईडी को मिलाने के बाद परिणाम।[/कैप्शन]

‘[ऊपर की छवि] इस छवि-केवल संस्करण पर एलवीएलएम के प्रदर्शन को दिखाती है, और उनके प्रदर्शन में परिवर्तन पूर्ण मूल्यांकन से, साथ ही मानव प्रदर्शन। ‘

‘मानव प्रदर्शन में तेजी से गिरावट (>50%) यह दिखाती है कि प्रश्नों का उत्तर देने के लिए वीडियो की आवश्यकता है। ‘

‘हम यह भी देखते हैं कि मॉडल का समग्र प्रदर्शन गिरता है (8.80%), लेकिन मुख्य रूप से ट्रैक सब-टास्क के कारण। अन्य कार्यों पर सटीकता समान रहती है या सुधारती है, यह दर्शाती है कि एलवीएलएम वीडियो का प्रभावी ढंग से उपयोग नहीं करता है, जबकि मानव वीडियो का उपयोग करके उत्तर देते हैं। ‘

कागज़ का गहरा विश्लेषण सुझाव देता है कि मुख्य बाधा केवल सरल अस्थायी अनुक्रम ही नहीं है, बल्कि वस्तु आधार और स्पेशियल-टेम्पोरल तर्क में विफलता है: मॉडल अक्सर दृश्य रूप से समान फर्नीचर भागों को गति, कैमरा शिफ्ट और दृश्य परिवर्तनों के माध्यम से ट्रैक करने में संघर्ष करते थे, यहां तक कि जब वे व्यापक असेंब्ली प्रक्रिया को सही ढंग से पहचानते थे।
अतिरिक्त प्रयोगों में एक टूल-लेडेन एजेंटिक एआई को कार्य पर छोड़ दिया गया, और यह ‘खराब प्रदर्शन’ किया, लेखकों के अनुसार — हालांकि यह उन प्रश्नों का सही उत्तर देने में सक्षम था जिन्हें अन्य दृष्टिकोणों से याद किया गया था, जो 11.48% अधिक थे।

निष्कर्ष

संकल्पनाओं और वस्तुओं के स्थायी आंतरिककरण मानव विकास और संवेदी विकास के लिए केंद्रीय हैं, और उन व्यक्तिगत, अक्सर नए कार्यों के लिए जिनके लिए उस विकास ने हमें तैयार किया है।

कंप्यूटर विजन अनुसंधान को पहले से ही वस्तुओं और लोगों को पुनः प्राप्त करने और पुनः पहचानने के लिए संघर्ष करना पड़ता है जो फ्रेम से बाहर निकलते हैं और फिर से प्रवेश करते हैं। ये मुद्दे तब बढ़ जाते हैं जब दृष्टि और मुद्रा को लगातार बदलने की आवश्यकता होती है — जैसा कि एक यूट्यूब निर्देशात्मक वीडियो में फ्लैट-पैक फर्नीचर असेंब्ली के बारे में होने की संभावना है।

 

* लेखकों का मूल प्रारूप, जिसे मैंने आवश्यकतानुसार उद्धरण प्रारूप के प्रभाव को बनाए रखने के लिए संशोधित किया है।

सोमवार, 25 मई, 2026 को पहली बार प्रकाशित। बुधवार, 27 मई, 2026 को तारीख गुणात्मक जानकारी को सही करने के लिए संशोधित किया गया (!)।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai