Anderson का एंगल

आर्टिफ़िशियल इंटेलिजेंस मानवों की तुलना में फर्नीचर असेंबल करने में काफी खराब है

प्रकाशित 25 मई 2026

अपडेट किया गया 27 मई 2026

Martin Anderson

AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

चैटजीपीटी और गूगल जेमिनी अभी भी आईकेईए असेंब्ली वीडियोज़ को विश्वसनीय रूप से समझने में असमर्थ हैं, कई अन्य प्रमुख एआई सिस्टम भागों को भ्रमित करते हैं, कनेक्शन को याद करते हैं और वीडियो का उपयोग करके यह पता लगाने के लिए कि क्या हो रहा है, इसका उपयोग करने में असमर्थ हैं।

आईकेईए-शैली के फ्लैट-पैक फर्नीचर को असेंब्ल करने में कठिनाई के आसपास का सांस्कृतिक मेम कंप्यूटर विजन रिसर्च के लिए एक आकर्षक लक्ष्य बनाता है — कम से कम इसलिए कि लंबे क्रियाओं के क्रम, वस्तु-ट्रैकिंग और इसमें शामिल स्थानिक तर्क रोबोटिक मैनिपुलेशन सिस्टम को उन सरल आकारों और नियंत्रित वातावरण से परे धकेलने की संभावना है जिनसे वे अभ्यस्त हैं।

इसलिए, एआई-संचालित रोबोटिक असेंब्ली रूटीन के लिए फ्लैट-पैक फर्नीचर पर काम करना कंप्यूटर विजन अनुसंधान क्षेत्र में एक छोटा लेकिन सम्मानित शाखा बन गया है, जैसे कि यूएससी के 2019 आईकेईए फर्नीचर असेंब्ली एनवायरनमेंट, जो फर्नीचर असेंब्ली के लिए विशेष रूप से लक्षित पहले बेंचमार्क डेटासेट और अनुसंधान संदर्भों में से एक है:

[वीडियो चौड़ाई=”1204″ ऊंचाई=”888″ mp4=”https://www.unite.ai/wp-content/uploads/2026/05/IKEA-Furniture-Assembly-Environment_encoded.mp4″ लूप=”सच”][/वीडियो]

प्ले करने के लिए क्लिक करें रोबोटिक असेंब्ली अभ्यास के उदाहरण, 2019 आईकेईए फर्नीचर असेंब्ली एनवायरनमेंट पहल के परियोजना साइट से। स्रोत

2024 में, स्टैनफोर्ड/जेपी मॉर्गन सहयोग आईकेईए मैनुअल्स एट वर्क एआई की क्षमता का पहला महत्वपूर्ण परीक्षण था इस कथित रूप से साधारण (लेकिन अक्सर निराशाजनक) प्रक्रिया को करने के लिए, एक नए डेटासेट का उपयोग करके निर्देश मैनुअल से छवियों के साथ-साथ निर्देशात्मक वीडियो का उपयोग किया:

[कैप्शन आईडी=”अटैचमेंट_424150″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”905″] डेटासेट विधि और विवरण 2024 आईकेईए मैनुअल्स एट वर्क पहल से। स्रोत - https://arxiv.org/abs/2411.11409 डेटासेट विधि और विवरण 2024 आईकेईए मैनुअल्स एट वर्क पहल से। स्रोत[/कैप्शन]

इस पत्र के लेखकों — जिन्होंने डीजीसीएनएन, सीएनओएस, एसएएम-6डी, मेगापोज, मिडास, एसएएम2 हियरा-एल, क्यूटी-बेस, और जीपीटी-4ओ का लाभ उठाया — ने निष्कर्ष निकाला कि कार्य ने ‘निर्देशात्मक असेंब्ली वीडियो में ग्राउंडिंग में महत्वपूर्ण चुनौतियां पैदा कीं, जिनमें भाग खंडीकरण और मुद्रा निकालना, उच्च-स्तरीय असेंब्ली योजनाओं का निर्माण, और वीडियो में कुंजी असेंब्ली चरणों का पता लगाना शामिल है।’

वैक्स ऑन, वैक्स ऑफ

यह स्पष्ट होना चाहिए कि जबकि हमें एक ऐसे कार्य से मुक्त करने के लिए एआई को स्वचालित करना अच्छा होगा जिसे कम लोग प्यार करते हैं, यह वैज्ञानिक लोडस्टार नहीं है, या कंप्यूटर विजन अनुसंधान क्षेत्र के लिए प्राथमिकताओं की सूची में उच्च है।

इसके बजाय, कार्य का मूल्य इस तथ्य में निहित है कि एआई प्रणालियों को इस कार्य में महारत हासिल करने के लिए क्या सीखने की आवश्यकता है — जो उन्हें कृषि, उद्योग, सेवा क्षेत्र, और विभिन्न अन्य क्षेत्रों में समान रूप से चुनौतीपूर्ण दिनचर्या के लिए आधार प्रदान करेगा।

इस संबंध में, लेगो-पज़ल्स प्रोजेक्ट और डेटासेट यह जांचता है कि विजन लैंग्वेज मॉडल (वीएलएम) विभिन्न वास्तुकलाओं में मल्टी-स्टेप स्पेशियल रीजनिंग को कितनी अच्छी तरह से संभालते हैं, क्योंकि असेंब्ली कार्य न केवल सही वस्तुओं को सही समय पर जोड़ने पर निर्भर करता है — एक प्रक्रिया जिसे मेटिंग के रूप में जाना जाता है — लेकिन निर्देशों का पालन करने पर भी जो किसी भी दिए गए चरण में मॉडल के लिए उपलब्ध कच्चे दृश्य दृश्य से कहीं अधिक अमूर्त हो सकते हैं:

[कैप्शन आईडी=”अटैचमेंट_424151″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1017″] लेगो-पज़ल्स प्रोजेक्ट से चुनौतीपूर्ण प्रश्न। स्रोत - https://tangkexian.github.io/LEGO-Puzzles/ लेगो-पज़ल्स प्रोजेक्ट से चुनौतीपूर्ण प्रश्न。 स्रोत[/कैप्शन]

फर्नीचर असेंब्ली की चुनौती का सामना करने वाली नवीनतम परियोजना में एक और वर्तमान और क्षमतावान एआई मॉडल का शोषण किया जाता है, जिसमें गूगल जेमिनी 2.5/3.1 और ओपनएआई के जीपीटी-5 शामिल हैं — लेकिन फिर भी एआई के लिए कार्य में जीत हासिल नहीं करता है, केवल मॉडल के मूल चांस से थोड़ा सुधार हुआ है, और प्रदर्शन ‘मानव स्तर से बहुत नीचे’ है।

लेखकों का कहना है:

‘हमारे प्रयोग से पता चलता है कि राज्य-ऑफ-द-आर्ट एलवीएलएम फाइन-ग्रेन्ड स्पेशियल-टेम्पोरल रीजनिंग के साथ महत्वपूर्ण संघर्ष करते हैं, जो उनकी सीमाओं को प्रभावी ढंग से वीडियो से टेम्पोरल जानकारी का लाभ उठाने, सीमित ट्रैकिंग क्षमता और भौतिक संपर्क जैसे स्थानिक बातचीत की समझ को उजागर करता है।’

इस शोध शाखा में संबोधित की जा रही समस्याएं इस चरण में व्यावहारिक रोबोटिक्स से केवल संकल्पनात्मक रूप से संबंधित हैं, हालांकि जब теорिया मुद्दे अंततः निहित एआई में विकसित होते हैं तो अतिरिक्त चुनौतियां सुनिश्चित करने के लिए आती हैं।

नई कागज़ का शीर्षक फ्लैट-पैक बेंच: लार्ज विजन-लैंग्वेज मॉडल में स्पेशियल-टेम्पोरल समझ का मूल्यांकन फर्नीचर असेंब्ली के माध्यम से है, और यह कॉर्नेल विश्वविद्यालय, कॉर्नेल टेक, एमबीज़ूएआई, और यूसी बर्कले के आठ लेखकों के पार है। कागज़ के साथ एक प्रोजेक्ट साइट है।

विधि

नई कार्य के लेखक इस बात पर जोर देते हैं कि एआई सहायकों को वीडियो के माध्यम से असेंब्ली प्रक्रिया को समझने में कठिनाई होती है, जैसे कि लोगों को सामुदायिक ज्ञान से लाभान्वित करने के लिए जो अक्सर यूट्यूब-शैली के निर्देशात्मक वीडियो पर भरोसा करते हैं:

[कैप्शन आईडी=”अटैचमेंट_424152″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1200″] फ्लैट-पैक असेंब्ली कार्य द्वारा उत्पन्न कुछ प्रश्न, साथ ही चुनौतियों को पार करने के लिए आवश्यक चार आवश्यक कौशल। स्रोत - https://arxiv.org/pdf/2605.21625 फ्लैट-पैक असेंब्ली कार्य द्वारा उत्पन्न कुछ प्रश्न, साथ ही चुनौतियों को पार करने के लिए आवश्यक चार आवश्यक कौशल。 स्रोत[/कैप्शन]

उन्होंने पहले उल्लिखित आईकेईए-मैनुअल्स-एट-वर्क (आईएमएडब्ल्यू) डेटासेट से फ़िल्टर किया हुआ डेटासेट तैयार किया है, जिसमें लोगों द्वारा आईकेईए फर्नीचर की असेंब्ली के वाइल्ड-वीडियो शामिल हैं। संशोधित बेंचमार्क मूल वीडियो को ट्रिम करता है ताकि पाठ-मात्र निर्देश कार्ड को हटाया जा सके, अलग की-फ्रेम और पूर्ण-वीडियो वेरिएंट के साथ-साथ मैन्युअल रूप से एनोटेटेड विज़ुअल प्रॉम्प्ट के साथ, जो मल्टी-चॉइस तर्क कार्यों के लिए फर्नीचर भागों को खंडित करता है।

बेंचमार्क चार प्रश्न प्रकारों के आसपास घूमता है: मेट, यह निर्धारित करने के लिए कि क्या दो भाग अंतिम असेंब्ली में जुड़े हुए हैं; ट्रैक, मॉडल को वीडियो का उपयोग करके खंडित फ्रेम में भाग आईडी के बीच सही संबंध को पुनः प्राप्त करने की आवश्यकता है; टोर्ड, यह मूल्यांकन करने के लिए कि मॉडल कनेक्शन घटनाओं का सही क्रम निर्धारित कर सकता है या नहीं; और टीएलओसी, यह परीक्षण करने के लिए कि मॉडल विज़ुअल प्रॉम्प्ट में दिखाए गए राज्य से तुरंत पहले या बाद में होने वाली घटनाओं की पहचान कर सकता है या नहीं, जिसमें अस्थायी स्थानीयकरण और निकटवर्ती घटनाओं के बारे में तर्क की आवश्यकता होती है।

[कैप्शन आईडी=”अटैचमेंट_424153″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”1024″] फ्लैट-पैक असेंब्ली वीडियो में स्पेशियल-टेम्पोरल तर्क का परीक्षण करने के लिए डिज़ाइन किए गए चार कोर कार्य प्रकारों के उदाहरण: टेम्पोरल लोकलाइजेशन; टेम्पोरल ऑर्डरिंग; ट्रैकिंग; और मेटिंग। प्रत्येक कार्य असेंब्ली वीडियो फुटेज को एक या एक से अधिक सेगमेंट-लेबल विज़ुअल प्रॉम्प्ट और एक मल्टी-चॉइस तर्क प्रश्न के साथ जोड़ता है। फ्लैट-पैक असेंब्ली वीडियो में स्पेशियल-टेम्पोरल तर्क का परीक्षण करने के लिए डिज़ाइन किए गए चार कोर कार्य प्रकारों के उदाहरण: टेम्पोरल लोकलाइजेशन; टेम्पोरल ऑर्डरिंग; ट्रैकिंग; और मेटिंग। प्रत्येक कार्य असेंब्ली वीडियो फुटेज को एक या एक से अधिक सेगमेंट-लेबल विज़ुअल प्रॉम्प्ट और एक मल्टी-चॉइस तर्क प्रश्न के साथ जोड़ता है।[/कैप्शन]

उपरोक्त स्कीमा छवि में दिखाए गए टेम्पलेट इन चार प्रश्न मॉडल से व्युत्पन्न किए गए थे।

लेखकों का यह भी उल्लेख है कि उन्होंने मूल आईएमएडब्ल्यू वीडियो में प्रत्येक के लिए फाइन-ग्रेन्ड पार्ट-एसेंब्ली एनोटेशन जोड़े, जो यह निर्दिष्ट करते हैं कि कौन से भाग किस अन्य भागों से जुड़ते हैं — विवरण जो मूल संग्रह में अनुपस्थित थे:

पलायन

कागज़ में उल्लेख किया गया है कि प्रश्नों को मैन्युअल रूप से क्यूरेट किया जाना था, क्योंकि ऑटो-जेनरेटेड प्रश्न अक्सर एआई को वीडियो की उपेक्षा करने और अपने स्वयं के प्रशिक्षित समझ का लाभ उठाने का अवसर प्रदान करते हैं — एक परिदृश्य जिसे एलएलएम/वीएलएम का नियमित उपयोगकर्ता संभवतः पहचानेगा, क्योंकि ऑप्टिमाइजेशन और अन्य रहस्यमय कॉर्पोरेट प्राथमिकताएं अक्सर फ्रंटियर मॉडल को जमा की गई जानकारी, जैसे पीडीएफ या छवियों की उपेक्षा करने और अपने स्वयं के समझ का लाभ उठाने का कारण बनती हैं*:

‘[हमने] पाया कि ऑटो-जेनरेशन अक्सर प्रश्न पैदा करता है जो वीडियो की उपेक्षा करने और शॉर्टकट का लाभ उठाने से उत्तर दिए जा सकते हैं। उदाहरण के लिए, ऑटो-जेनरेटेड मेटिंग प्रश्न जो पहले से ही जुड़ने के लिए स्थित भागों के बारे में, या विचलित करने वाले विकल्पों के साथ जो स्पष्ट रूप से अलग-अलग आकार या रंग हैं, जो आसानी से समाप्ति की अनुमति देते हैं। इसे संबोधित करने के लिए, हमने निर्धारित टेम्पलेट का उपयोग करके सभी प्रश्नों को मैन्युअल रूप से क्यूरेट किया।

‘एनोटेटर्स को पूरा असेंब्ली वीडियो, सेगमेंट-लेबल फ्रेम विज़ुअल प्रॉम्प्ट, प्रश्न टेम्पलेट, और विज़ुअल प्रॉम्प्ट से स्थिर संकेतों पर आधारित शॉर्टकट से बचने के लिए विस्तृत दिशानिर्देश प्राप्त हुए।’

समाप्त बेंचमार्क में 50 विभिन्न फर्नीचर असेंब्ली वीडियो में 602 मल्टी-चॉइस प्रश्न शामिल हैं।

डेटा और परीक्षण

परीक्षण के दौर में मूल्यांकित मॉडल में उल्लिखित चैटजीपीटी और जेमिनी वेरिएंट शामिल थे, साथ ही वीडियो-एलएलवीए; एलएवीए-नेक्स्ट-विड; एलएवीए-वनविजन; एलएवीए-वीडियो; क्वेन 2.5/क्वेन 3-वीएल; इंटरनवीएल3; एरोरेल; परसेप्शनएलएम; और वीडियो-रेफर।

जेनएस का उपयोग लंबे वीडियो में प्रश्न-प्रासंगिक फ्रेम का चयन करने के लिए आधार जेमिनी 2.5 प्रो मॉडल के लिए किया गया था, और अधिकांश मॉडल वन-शॉट संदर्भ में लालची डिकोडिंग (जीपीटी-5 में असमर्थित, हालांकि) के तहत परीक्षण किया गया था।

बेंचमार्क के लिए तीन प्रोम्प्ट प्रारूप तैयार किए गए थे: मिक्स्ड-मीडिया प्रोम्प्ट ने विज़ुअल प्रॉम्प्ट को एक अलग छवि के रूप में असेंब्ली वीडियो के बगल में प्रदान किया; कोलाज प्रोम्प्ट ने विज़ुअल प्रॉम्प्ट को प्रत्येक वीडियो फ्रेम में एक ग्रिड लेआउट के हिस्से के रूप में एम्बेड किया; और कॉनकैट प्रोम्प्ट ने वीडियो की शुरुआत में विज़ुअल प्रॉम्प्ट को प्रीफ़िक्स किया।

दोनों ट्रिम्ड और की-फ्रेम वीडियो वेरिएंट इन प्रारूपों में परीक्षण किए गए थे, ताकि यह मापा जा सके कि प्रोम्प्ट संरचना और टेम्पोरल संपीड़न मॉडल के प्रदर्शन को कैसे प्रभावित कर सकते हैं।

परीक्षण के लिए माने जाने वाले मौका बेसलाइन में ‘मौका मौका’ भी शामिल था, जहां सबसे आम विकल्प (एक वास्तविक मौका विकल्प के बजाय) चुना जाता है।

मानव कारक

मानव प्रदर्शन का मूल्यांकन कंप्यूटर विज्ञान कार्यक्रमों से प्रतिभागियों का उपयोग करके किया गया था, जो स्नातक से डॉक्टरेट स्तर तक थे। प्रत्येक प्रतिभागी को एक असेंब्ली वीडियो, संबंधित विज़ुअल प्रॉम्प्ट और मल्टी-चॉइस प्रश्न, साथ ही साथ कार्य निर्देश के साथ प्रस्तुत किया गया था, इससे पहले कि वे एक उत्तर चुनते थे।

प्रत्येक प्रश्न के लिए तीन प्रतिक्रियाएं एकत्र की गईं और बहुमत मतदान के माध्यम से हल की गईं, जबकि एक अलग क्राउड-सोर्स्ड अध्ययन भी बेंचमार्क के एक यादृच्छिक नमूने पर आयोजित किया गया था।

सटीकता का उपयोग परीक्षणों के लिए मीट्रिक के रूप में किया गया था:

मौका बेसलाइन
मॉडल	रैंक	माइक्रो एवरेज	टीओर्ड	टीएलओसी	ट्रैक	मेट
मानव प्रदर्शन	–	94.18	93.54	93.20	93.77	97.70
रैंडम मौका	–	26.41	25.00	25.00	25.49	33.33
मौका मौका	–	26.74	27.74	30.10	26.46	36.78
प्रोप्राइटरी मॉडल
जीपीटी-5	1	37.71	40.65	53.40	25.68	49.43
जेमिनी 2.5 प्रो	2	33.72	40.65	44.66	23.35	39.08
जेमिनी 3.1 प्रो	3	32.89	34.84	43.69	21.79	49.43
जेमिनी 2.5 फ्लैश	4	31.06	31.61	41.75	23.35	40.23
जेमिनी 2.5 प्रो + जेनएस	5	25.58	33.55	32.04	13.23	40.23
ओपन मॉडल
वीडियो-एलएलवीए-7बी	26	23.75	21.29	35.92	10.89	51.72
इंटरनवीएल3-14बी	5	37.71	42.58	21.36	37.74	48.28
इंटरनवीएल3-38बी	12	36.05	42.58	37.86	25.68	52.87
इंटरनवीएल3-78बी	1	41.03	43.87	39.81	42.02	34.48
क्वेन2.5-वीएल-7बी	22	30.23	27.10	18.45	33.07	41.38
क्वेन2.5-वीएल-32बी	13	35.88	34.84	29.13	33.07	54.02
क्वेन2.5-वीएल-72बी	2	40.37	41.29	30.10	45.14	36.78
क्वेन3-वीएल-4बी	11	36.54	34.19	33.01	32.68	56.32
क्वेन3-वीएल-4बी-थिंक	9	37.21	31.61	25.24	37.74	59.77
क्वेन3-वीएल-8बी	15	33.72	36.13	30.10	33.85	33.33
क्वेन3-वीएल-8बी-थिंक	17	31.73	34.19	33.01	25.29	44.83
क्वेन3-वीएल-32बी	6	37.71	38.71	46.60	31.91	42.53
क्वेन3-वीएल-32बी-थिंक	3	40.03	38.71	22.33	45.53	47.13
क्वेन3-वीएल-30बी-ए3बी	10	36.71	30.32	22.33	42.02	49.43
क्वेन3-वीएल-235बी-ए22बी	8	37.21	37.42	25.24	39.69	43.68
एलएवीए-नेक्स्ट-विड-7बी	25	25.08	33.55	24.27	16.73	35.63
एलएवीए-नेक्स्ट-विड-34बी	21	30.40	30.32	24.27	32.68	31.03
एलएवीए-वनविजन-7बी	16	32.89	26.45	30.10	34.24	43.68
एलएवीए-वनविजन-72बी	4	38.37	35.48	25.24	38.91	57.47
एलएवीए-वीडियो-7बी	19	30.73	30.97	24.27	25.68	52.87
एलएवीए-वीडियो-72बी	7	37.54	36.77	27.18	35.80	56.32
परसेप्शन-एलएम-1बी	24	27.74	28.39	26.21	25.29	35.63
परसेप्शन-एलएम-3बी	18	31.40	28.39	32.04	29.96	40.23
परसेप्शन-एलएम-8बी	14	35.38	26.45	26.21	44.75	34.48
वीडियो-रेफर	23	28.57	32.90	30.10	17.51	51.72
एरोरेल-7बी	20	30.56	30.97	24.27	29.18	41.38

फ्लैट-पैक बेंच पर प्रदर्शन परिणाम, प्रोप्राइटरी और ओपन मल्टीमॉडल मॉडल की तुलना करते हुए टेम्पोरल ऑर्डरिंग, टेम्पोरल लोकलाइजेशन, ट्रैकिंग और मेटिंग कार्यों में, मानव प्रदर्शन सभी परीक्षणित सिस्टम से बहुत आगे रहा,尽管 बड़े फ्रंटियर मॉडलों में मामूली लाभ थे।

जैसा कि प्रारंभिक परीक्षणों (ऊपर की छवि) में देखा गया है, मानवों ने सभी प्रश्न श्रेणियों में 90% से अधिक स्कोर किया, 80% एकमतता के साथ, यह दावा करते हुए कि प्रस्ताव स्पष्ट और स्पष्ट हैं।

जीपीटी-5 और जेमिनी 2.5/3.1 प्रो ने डेटासेट पर संघर्ष किया, केवल मॉडल के मूल चांस से थोड़ा सुधार हुआ, और मानव प्रदर्शन से बहुत नीचे रहा। जेनएस का उपयोग करके जेमिनी 2.5 प्रो के लिए प्रश्न-प्रासंगिक फ्रेम का चयन करने से परिणाम में सुधार नहीं हुआ, जिससे लेखकों को यह निष्कर्ष निकालने के लिए प्रेरित किया गया कि प्रोप्राइटरी एलवीएलएम फ्लैट-पैक बेंच द्वारा आवश्यक स्पेशियल-टेम्पोरल समझ कार्य में संघर्ष करते हैं।

ओपन सिस्टम में, इंटरनवीएल3 और क्वेन परिवारों से सबसे मजबूत परिणाम आए, हालांकि श्रेणी में प्रदर्शन तेजी से भिन्न होता है; कई मॉडल मौका से अधिक प्रदर्शन नहीं करते हैं; और विशेषज्ञ प्रणाली, जिनमें परसेप्शनएलएम और वीडियो-रेफर शामिल हैं, बेंचमार्क के जटिल असेंब्ली कार्यों पर भी संघर्ष करती हैं, मानव प्रतिभागी हर मॉडल श्रेणी में महत्वपूर्ण रूप से आगे रहते हैं।

शोधकर्ताओं ने कागज़ के मानक प्रोम्प्टिंग सेटअप के खिलाफ दो चेन-ऑफ-थॉट प्रोम्प्टिंग रणनीतियों का भी परीक्षण किया। जीरो-शॉट चेन-ऑफ-थॉट प्रोम्प्टिंग ने मॉडल से अपने उत्तरों की व्याख्या करने के लिए कहा, जबकि स्व-संगतता के साथ चेन-ऑफ-थॉट ने पांच उम्मीदवार प्रतिक्रियाओं का उत्पादन किया और बहुमत मतदान के माध्यम से एक अंतिम उत्तर का चयन किया। हालांकि, न ही दृष्टिकोण ने फ्लैट पैक बेंच डेटासेट पर परिणाम में सुधार किया, दोनों दृष्टिकोण बेंचमार्क की डिफ़ॉल्ट प्रोम्प्टिंग कॉन्फ़िगरेशन से नीचे स्कोर किया।

चीट कोड

यह परीक्षण करने के लिए कि क्या एलवीएलएम वास्तव में असेंब्ली वीडियो से सीख रहे थे या केवल स्थिर दृश्य संकेतों का लाभ उठा रहे थे, शोधकर्ताओं ने बेंचमार्क का एक छवि-केवल संस्करण बनाया, जिसने वीडियो को पूरी तरह से हटा दिया और केवल प्रश्न-पाठ और विज़ुअल प्रॉम्प्ट को बनाए रखा।

मानव प्रदर्शन इन परिस्थितियों में 50% से अधिक गिर गया, यह दिखाते हुए कि कार्य वास्तव में असेंब्ली प्रक्रिया की अस्थायी समझ की आवश्यकता है। मॉडल, हालांकि, बहुत कम गंभीरता से खराब हो गए, कुछ कार्यों में स्थिर या यहां तक कि सुधार हुआ बिना वीडियो इनपुट के।

यह, कागज़ का सुझाव है, यह इंगित करता है कि कई एलवीएलएम वास्तव में वीडियो का उपयोग नहीं कर रहे थे बिल्कुल, इसके बजाय छवि-आधारित शॉर्टकट और सामान्य ज्ञान के अनुमानों पर भरोसा कर रहे थे ताकि संभावित उत्तरों का अनुमान लगाया जा सके*:

[कैप्शन आईडी=”अटैचमेंट_424154″ संरेखित=”संरेखित-कोई नहीं” चौड़ाई=”762″] एलवीएलएम के प्रदर्शन की तुलना छवि-केवल संस्करण के साथ फ्लैट-पैक बेंच, मानक वीडियो-प्लस-छवि सेटअप के साथ, और अस्थायी वीडियो समझ के बजाय लेबल-आदेश शॉर्टकट का लाभ उठाने के लिए भाग आईडी को मिलाने के बाद परिणाम। एलवीएलएम के प्रदर्शन की तुलना छवि-केवल संस्करण के साथ फ्लैट-पैक बेंच, मानक वीडियो-प्लस-छवि सेटअप के साथ, और अस्थायी वीडियो समझ के बजाय लेबल-आदेश शॉर्टकट का लाभ उठाने के लिए भाग आईडी को मिलाने के बाद परिणाम।[/कैप्शन]

‘[ऊपर की छवि] इस छवि-केवल संस्करण पर एलवीएलएम के प्रदर्शन को दिखाती है, और उनके प्रदर्शन में परिवर्तन पूर्ण मूल्यांकन से, साथ ही मानव प्रदर्शन। ‘

‘मानव प्रदर्शन में तेजी से गिरावट (>50%) यह दिखाती है कि प्रश्नों का उत्तर देने के लिए वीडियो की आवश्यकता है। ‘

‘हम यह भी देखते हैं कि मॉडल का समग्र प्रदर्शन गिरता है (8.80%), लेकिन मुख्य रूप से ट्रैक सब-टास्क के कारण। अन्य कार्यों पर सटीकता समान रहती है या सुधारती है, यह दर्शाती है कि एलवीएलएम वीडियो का प्रभावी ढंग से उपयोग नहीं करता है, जबकि मानव वीडियो का उपयोग करके उत्तर देते हैं। ‘

कागज़ का गहरा विश्लेषण सुझाव देता है कि मुख्य बाधा केवल सरल अस्थायी अनुक्रम ही नहीं है, बल्कि वस्तु आधार और स्पेशियल-टेम्पोरल तर्क में विफलता है: मॉडल अक्सर दृश्य रूप से समान फर्नीचर भागों को गति, कैमरा शिफ्ट और दृश्य परिवर्तनों के माध्यम से ट्रैक करने में संघर्ष करते थे, यहां तक कि जब वे व्यापक असेंब्ली प्रक्रिया को सही ढंग से पहचानते थे।
अतिरिक्त प्रयोगों में एक टूल-लेडेन एजेंटिक एआई को कार्य पर छोड़ दिया गया, और यह ‘खराब प्रदर्शन’ किया, लेखकों के अनुसार — हालांकि यह उन प्रश्नों का सही उत्तर देने में सक्षम था जिन्हें अन्य दृष्टिकोणों से याद किया गया था, जो 11.48% अधिक थे।

निष्कर्ष

संकल्पनाओं और वस्तुओं के स्थायी आंतरिककरण मानव विकास और संवेदी विकास के लिए केंद्रीय हैं, और उन व्यक्तिगत, अक्सर नए कार्यों के लिए जिनके लिए उस विकास ने हमें तैयार किया है।

कंप्यूटर विजन अनुसंधान को पहले से ही वस्तुओं और लोगों को पुनः प्राप्त करने और पुनः पहचानने के लिए संघर्ष करना पड़ता है जो फ्रेम से बाहर निकलते हैं और फिर से प्रवेश करते हैं। ये मुद्दे तब बढ़ जाते हैं जब दृष्टि और मुद्रा को लगातार बदलने की आवश्यकता होती है — जैसा कि एक यूट्यूब निर्देशात्मक वीडियो में फ्लैट-पैक फर्नीचर असेंब्ली के बारे में होने की संभावना है।

* लेखकों का मूल प्रारूप, जिसे मैंने आवश्यकतानुसार उद्धरण प्रारूप के प्रभाव को बनाए रखने के लिए संशोधित किया है।

सोमवार, 25 मई, 2026 को पहली बार प्रकाशित। बुधवार, 27 मई, 2026 को तारीख गुणात्मक जानकारी को सही करने के लिए संशोधित किया गया (!)।