Andersons vinkel

AI er betydeligt dårligere end mennesker til at samle møbler

mm
AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

ChatGPT og Google Gemini kan stadig ikke pålideligt forstå IKEA-samlingssvideoer, og mange andre fremtrædende AI-systemer forvirrer dele, mangler forbindelser og bruger knap nok videoen selv til at finde ud af, hvad der sker.

 

Den varige kulturelle meme omkring vanskeligheden ved at samle IKEA-stil fladpakmøbler gør emnet til en attraktiv mål for computer-vision-forskning – ikke mindst fordi de lange sekvenser af handlinger, objekttacking og rumlig tankegang, der er involveret, vil tende til at presse robotmanipulationssystemer langt ud over de simplificerede former og kontrollerede miljøer, de er vant til.

Derfor er arbejdet med AI-drevne robot-samlingssystemer for fladpakmøbler blevet en lille, men respektabel gren i litteraturen, med udgaver som USC’s 2019 IKEA Furniture Assembly Environment, blandt de første benchmark-datasets og forskningskontekster, der specifikt er rettet mod møbelsamling:

Klik for at afspille Eksempler på robot-samlingsspraksis fra projektets website for 2019 IKEA Furniture Assembly Environment-initiativet. Kilde

I 2024 var Stanford/J.P. Morgan-samarbejdet IKEA Manuals at Work det første, der betydeligt undersøgte AI’s evne til at udføre denne tilsyneladende mundane (omend ofte frustrerende) procedure, baseret på en ny dataset af billeder fra instruktionsmanualer og ved hjælp af instruktionsvideoer:

Dataset-metode og detaljer fra 2024 IKEA Manuals at Work-initiativet. Kilde - https://arxiv.org/abs/2411.11409

Dataset-metode og detaljer fra 2024 IKEA Manuals at Work-initiativet. Kilde

Forfatterne af 2024-papiret – som udnyttede DGCNN, CNOS, SAM-6D, MegaPose, MiDaS, SAM2 Hiera-L, Cutie-base, og GPT-4o – konkluderede, at opgaven gav ‘betydelige udfordringer i at grundlægge instruktions-samlingssvideoer, herunder at trække dele-segmentering og stilling, opbygge højniveu-samlingssplaner og registrere nøgle-samlingsskridt i videoer’.

Wax On, Wax Off

Det må være åbenlyst, at selv om det ville være rart at automatisere os ud af en opgave, som få beundrer, er det ikke et videnskabeligt lodstjerne eller højt på en liste over prioriteringer for computer-vision-forskning.

Rather, værdien af opgaven ligger i, at hvad AI-systemer behøver at lære for at blive dygtige til dette ville grundlægge dem for langt mere seriøse rutiner, der er lige så eller endda mere udfordrende, i landbrug, industri, service-sektoren og diverse andre sfærer.

I denne ånd, undersøger LEGO-Puzzles-projektet og datasettet, hvordan godt Vision Language Models (VLMs) håndterer multi-step-rumlig tankegang på tværs af en række arkitekturer, da samlingssopgaver afhænger ikke kun af at parre de korrekte objekter sammen på det korrekte tidspunkt – en proces kendt som mating – men også af at følge instruktioner, der kan være langt mere abstrakte end den rå visuelle scene, der er tilgængelig for modellen på ethvert given tidspunkt:

Udfordrende spørgsmål fra LEGO-Puzzles-projektet. Kilde - https://tangkexian.github.io/LEGO-Puzzles/

Udfordrende spørgsmål fra LEGO-Puzzles-projektet. Kilde

Det seneste projekt, der tager opgaven med møbelsamling, udnytter en mere aktuel og kapabel skare af AI-modeller, herunder Google Gemini 2.5/3.1 og OpenAI’s GPT-5 – men opnår stadig ikke en sejr for AI i opgaven, med kun beskedne forbedringer over baseline-chancen og præstation “langt under menneskelige niveauer”.

Forfatterne fastslår:

‘Vore eksperimenter afslører, at state-of-the-art LVLMs kæmper betydeligt med fin-graned spatio-temporalt fornuft, og fremhæver deres begrænsninger i effektivt at udnytte temporal information fra videoer, begrænset sporingsevne og forståelse af rumlige interaktioner som fysisk kontakt.’

Problemerne, der håndteres i denne forskningsgren, er kun notionelt relateret til praktisk robotteknik på dette stadium, selv om yderligere udfordringer utvivlsomt venter, når de teoretiske problemer endelig udvikler sig til inkorporeret AI.

Den nye artikel har titlen Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly, og kommer fra otte forfattere på tværs af Cornell University, Cornell Tech, MBZUAI og UC Berkeley. Artiklen ledsages af en projekt-side.

Metode

Forfatterne af det nye arbejde understreger, hvor svært det er for AI-assistenten at forstå samlingssprocessen gennem observation, f.eks. via den type YouTube-stil instruktionsvideo, som mange mennesker søger efter for at drage fordel af fællesskabskendskab:

Nogle af spørgsmålene, som flat-pack-samlingssopgaven giver anledning til, samt de fire essentielle færdigheder, der er nødvendige for at overvinde udfordringerne. Kilde - https://arxiv.org/pdf/2605.21625

Nogle af spørgsmålene, som flat-pack-samlingssopgaven giver anledning til, samt de fire essentielle færdigheder, der er nødvendige for at overvinde udfordringerne. Kilde

De kuraterede en dataset, der var filtreret fra den tidligere nævnte IKEA-Manuals-at-Work (IMaW) dataset, som indeholder videoer af mennesker, der samler IKEA-møbler. Den reviderede benchmark reducerer de originale videoer til at fjerne tekst-baserede instruktionskort, med separate nøgle-ramme- og fuld-video-variationer, og tilføjer også manuelt-annoterede visuelle prompts med segmenterede møbeldel, til at understøtte multiple-choice-forståelsessopgaver.

Benchmarket drejer sig om fire spørgsmålstyper: MATE, der bestemmer, om to dele er forbundet i den endelige samling; TRACK, der kræver, at modellerne genskaber den korrekte korrespondance mellem shuffled del-IDs på tværs af segmenterede rammer ved hjælp af videoen selv; TOrd, der vurderer, om modellerne kan slutte den korrekte rækkefølge af forbindelseshændelser; og TLoc, der tester, om modellerne kan identificere begivenheder, der sker lige før eller efter den tilstand, der vises i den visuelle prompt, og kræver temporal lokalisation og fornuft om nærliggende begivenheder.

Eksempler fra den nye benchmark, der illustrerer de fire kerneopgavetyper, der er designet til at teste spatio-temporalt fornuft i møbelsamlingssvideoer: Temporal Lokalisation; Temporal Orden; Sporing; og Mating. Hver opgave kombinerer samlingssvideo med en eller flere segmenterede visuelle prompts og et multiple-choice-forståelsesspørgsmål.

Eksempler fra den nye benchmark, der illustrerer de fire kerneopgavetyper, der er designet til at teste spatio-temporalt fornuft i møbelsamlingssvideoer: Temporal Lokalisation; Temporal Orden; Sporing; og Mating. Hver opgave kombinerer samlingssvideo med en eller flere segmenterede visuelle prompts og et multiple-choice-forståelsesspørgsmål.

Skemaet ovenfor blev afledt af disse fire spørgsmålsmodeller.

Forfatterne bemærker også, at de tilføjede fin-graned del-samling-annoteringer til hver af de originale IMaW-videoer, der specificerer, hvilke dele der forbinder til hvilke andre dele – detaljer, der mangler i den originale samling.

Afledning

Spørgsmålene, bemærker artiklen, skulle være manuelt kurateret, da selv-genererede spørgsmål ofte giver AI mulighed for at ignorere videoen og henviser til sin egen trænet forståelse – en scene, som enhver regelmæssig bruger af LLMs/VLMs sandsynligvis vil genkende, da optimering og andre mystiske erhvervspræferencer ofte får frontmodeller til at ignorere indsendt information, såsom PDF’er eller billeder, og til at stole på deres egen forståelse i stedet*:

‘[Vi] fandt, at selv-generering ofte producerede spørgsmål, der kunne besvares ved at ignorere videoen og udnytte genveje. For eksempel selv-genererede mating spørgsmål om dele, der allerede var positioneret for forbindelse, eller inkluderede distraktor-valgmuligheder med tydeligt adskilte former eller farver, hvilket gjorde det let at eliminere [muligheder]. For at løse dette problem kuraterede vi alle spørgsmål manuelt ved hjælp af faste skabeloner.

‘Annotatorerne fik den fulde samlingssvideo, segmenterede rammer til visuelle prompts, spørgsmålsskabelonerne og detaljerede retningslinjer for at undgå genveje baseret på statiske kilder fra den visuelle prompt.’

Den færdige benchmark består af 602 multiple-choice-spørgsmål på tværs af 50 varierende møbelsamlingssvideoer.

Data og Tests

Modeller, der blev vurderet til testrunden, var de ovennævnte ChatGPT og Gemini-variationer, samt Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; og Video-Refer.

GenS blev brugt til at vælge spørgsmål-relevante rammer i lange videoer for den grundlæggende Gemini 2.5 Pro-model, og de fleste modeller blev testet i en one-shot kontekst under græsk dekodning (ikke understøttet i GPT-5, dog).

Tre prompt-formater blev udviklet til benchmarket: den blandede-medie prompt leverede den visuelle prompt som et separat billede sammen med samlingssvideoen; den collage prompt indlejrede den visuelle prompt direkte i hver video-ramme som en del af et grid-layout; og den concat prompt forspændte den visuelle prompt til starten af videoen.

Both trimmed og key-frame video-variationer blev testet på tværs af disse formater for at måle, hvor stærkt prompt-struktur og temporal kompression kunne påvirke model-præstation.

De chance-baselines, der blev overvejet til testene, inkluderede også ‘frekvens-chance’, hvor den mest almindelige valg (i stedet for et virkelig tilfældigt valg) blev valgt.

Menneskeligt Element

Menneskelig præstation blev vurderet ved hjælp af deltagere fra computer science-programmer, der strakte sig fra bachelor- til ph.d.-niveau. Hver deltager fik vist en samlingssvideo, den tilhørende visuelle prompt og multiple-choice-spørgsmål, samt opgave-instruktionen, før de valgte et svar.

Three svar blev indsamlet pr. spørgsmål og løst gennem flertalsafstemning, mens en separat crowd-sourced studie også blev gennemført på en tilfældigt udvalgt undergruppe af benchmarket.

Nøjagtighed blev brugt som metrik for forsøgene:

Model Rank Micro Avg. TOrd TLoc Track Mate
Menneskelig Præstation 94.18 93.54 93.20 93.77 97.70
Chance Baselines
Tilfældig Chance 26.41 25.00 25.00 25.49 33.33
Frekvens Chance 26.74 27.74 30.10 26.46 36.78
Proprietary Modeller
GPT-5 1 37.71 40.65 53.40 25.68 49.43
Gemini 2.5 Pro 2 33.72 40.65 44.66 23.35 39.08
Gemini 3.1 Pro 3 32.89 34.84 43.69 21.79 49.43
Gemini 2.5 Flash 4 31.06 31.61 41.75 23.35 40.23
Gemini 2.5 Pro + GenS 5 25.58 33.55 32.04 13.23 40.23
Open Modeller
Video-LLaVA-7B 26 23.75 21.29 35.92 10.89 51.72
InternVL3-14B 5 37.71 42.58 21.36 37.74 48.28
InternVL3-38B 12 36.05 42.58 37.86 25.68 52.87
InternVL3-78B 1 41.03 43.87 39.81 42.02 34.48
Qwen2.5-VL-7B 22 30.23 27.10 18.45 33.07 41.38
Qwen2.5-VL-32B 13 35.88 34.84 29.13 33.07 54.02
Qwen2.5-VL-72B 2 40.37 41.29 30.10 45.14 36.78
Qwen3-VL-4B 11 36.54 34.19 33.01 32.68 56.32
Qwen3-VL-4B-Think 9 37.21 31.61 25.24 37.74 59.77
Qwen3-VL-8B 15 33.72 36.13 30.10 33.85 33.33
Qwen3-VL-8B-Think 17 31.73 34.19 33.01 25.29 44.83
Qwen3-VL-32B 6 37.71 38.71 46.60 31.91 42.53
Qwen3-VL-32B-Think 3 40.03 38.71 22.33 45.53 47.13
Qwen3-VL-30B-A3B 10 36.71 30.32 22.33 42.02 49.43
Qwen3-VL-235B-A22B 8 37.21 37.42 25.24 39.69 43.68
LLaVA-NeXT-Vid-7B 25 25.08 33.55 24.27 16.73 35.63
LLaVA-NeXT-Vid-34B 21 30.40 30.32 24.27 32.68 31.03
LlaVA-OneVision-7B 16 32.89 26.45 30.10 34.24 43.68
LlaVA-OneVision-72B 4 38.37 35.48 25.24 38.91 57.47
LLaVA-Video-7B 19 30.73 30.97 24.27 25.68 52.87
LLaVA-Video-72B 7 37.54 36.77 27.18 35.80 56.32
Perception-LM-1B 24 27.74 28.39 26.21 25.29 35.63
Perception-LM-3B 18 31.40 28.39 32.04 29.96 40.23
Perception-LM-8B 14 35.38 26.45 26.21 44.75 34.48
VideoRefer 23 28.57 32.90 30.10 17.51 51.72
ArrowRL-7B 20 30.56 30.97 24.27 29.18 41.38

Præstationsresultater på FLAT-PACK BENCH, sammenlignende proprietære og åbne multimodale modeller på tværs af Temporal Orden (TOrd), Temporal Lokalisation (TLoc), Sporing og Mating-opgaver, med menneskelig præstation langt foran alle testede systemer, trods beskedne forbedringer blandt større frontmodeller.

Som vist i de første tests (billede ovenfor), opnåede mennesker >90% i alle kategorier af spørgsmål, med 80% enighed, hvilket, ifølge artiklen, antyder, at påstandene er godt formuleret og ubestridte.

GPT-5 og Gemini 2.5/3.1 Pro kæmpede på datasettet, og opnåede kun beskedne forbedringer over chance-basen, og forblev langt under menneskelig præstation. Brug af GenS til at vælge spørgsmål-relevante rammer forbedrede ikke Gemini 2.5 Pros resultater, hvilket fik forfatterne til at konkludere, at proprietære LVLMs kæmper med opgaven om spatio-temporalt fornuft, der kræves af benchmarket.

Blandt åbne systemer kom de stærkeste resultater fra InternVL3- og Qwen-familierne, selv om præstationen varierede skarpt på tværs af kategorien, med flere modeller, der kun lidt overgik chance; og specialiserede systemer, herunder PerceptionLM og VideoRefer, kæmpede også på benchmarkets komplekse samlingssopgaver, med menneskelige deltagere, der forblev betydeligt foran i hver modelkategori.

Forskerne testede også to chain-of-thought prompt-strategier mod artiklens standard prompt-opstilling. Zero-shot Chain-of-Thought prompting bad modellerne om at forklare deres svar trin for trin, mens Self-consistency med Chain-of-Thought genererede fem kandidat-svar, før de valgte et endeligt svar gennem flertalsafstemning. Dog forbedrede hverken af disse tilgange resultaterne på Flat Pack Bench-datasettet, med begge tilgange, der scorede under benchmarkets standard prompt-konfiguration.

Snyd

For at teste, om LVLMs faktisk lærte af samlingssvideoerne, eller blot udnyttede statiske visuelle kilder, skabte forskerne en billed-baseret version af benchmarket, der udelukkede videoen helt, og kun beholdt spørgsmålsteksten og visuelle prompts.

Menneskelig præstation kollapsede med over 50% under disse betingelser, hvilket viste, at opgaverne virkelig krævede temporal forståelse af samlingssprocessen. Modellerne degraderede dog langt mindre alvorligt, med nogle opgaver, der forblev stabile eller endda forbedrede uden video-input.

Dette antyder, ifølge artiklen, at mange LVLMs ikke meningsfuldt brugte den temporale information i videoerne overhovedet, men i stedet afhængigt af billed-baserede genveje og fællesforståelse antagelser for at slutte til sandsynlige svar*:

Præstation af LVLM på billed-baseret version af Flat-Pack Bench, sammenlignet med den standard video-plus-billed-opstilling, med yderligere resultater efter at have blandet del-IDs for at teste, om modellerne udnyttede label-rekkefølge-genveje i stedet for temporal video-forståelse.

Præstation af LVLM på billed-baseret version af Flat-Pack Bench, sammenlignet med den standard video-plus-billed-opstilling, med yderligere resultater efter at have blandet del-IDs for at teste, om modellerne udnyttede label-rekkefølge-genveje i stedet for temporal video-forståelse.

‘[Billedet ovenfor] viser præstationen af LVLM på denne billed-baserede version, og ændringen i deres præstation fra den fulde vurdering, samt menneskelig præstation.

‘Det skarpe fald i menneskelig præstation (>50%) viser, at spørgsmålene kræver videoer for at besvare.

‘Vi observerer også, at den samlede præstation af modellen falder betydeligt (8.80%), men primært på grund af TRACK-underopgaven. Præcision på andre opgaver forbliver den samme eller forbedres, hvilket antyder, at LVLM bruger ikke videoen effektivt, mens mennesker bruger videoen til at besvare.’

Artiklens dybere analyse antyder, at det primære hindringsmoment ikke er simpel temporal sekvensering alene, men fejl i objektfundament og spatio-temporalt fornuft: modellerne kæmpede ofte med at holde styr på visuelt lignende møbeldel på tværs af bevægelse, kamera-skift og sceneændringer, selv når de syntes at identificere den bredere samlingssproces korrekt.

Yderligere eksperimenter involverede at sætte en værktøj-laden agentic AI løs på opgaven, og denne “performerede dårligt” ifølge forfatterne – selv om den var i stand til korrekt at besvare yderligere 11.48% af spørgsmålene, der blev overset af de andre tilgange.

Konklusion

At fastholde bestående internaliseringer af begreber og objekter er centralt for både den menneskelige oplevelse af vækst og perceptuel udvikling, og i individuelle, ofte nye opgaver, som denne udvikling har forberedt os på.

Computer Vision-forskning har allerede en pågående kamp for at genopnå og genkende objekter og mennesker, der forlader og genindtræder rammen. Disse problemer er betydeligt forstærket med behovet for at konstant ændre syn og holdning – som sandsynligvis vil ske i en YouTube-instruktionsvideo om fladpak-møbelsamling. Man kan forestille sig, hvor meget mere jarring POV-ændringer af en egocentrisk video kan yderligere forvirre AI’s forsøg på møbelsamling.

 

* Forfatternes originale formatering, ændret af mig, hvis nødvendigt for at fastholde impact under citat-formatering/

Først udgivet mandag, 25. maj 2026. Ændret onsdag, 27. maj 2026 for at korrigere denne dato-attribut (!).

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.