Andersons vinkel

AI er betydelig dårligere enn mennesker til å montere møbler

Publisert 25. mai 2026

Oppdatert 27. mai 2026

Martin Anderson

AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

ChatGPT og Google Gemini kan fortsatt ikke pålitelig forstå IKEA-monteringsvideoer, og mange andre fremtredende AI-systemer forvirrer deler, mangler sammenheng og bruker knapt videoen selv til å finne ut hva som skjer.

Den varige kulturelle meme rundt vanskelighetene med å montere IKEA-liknende flatpakkmøbler gjør emnet til et attraktivt mål for computer-vision-forskning — ikke minst fordi de lange sekvensene av handlinger, objektsporings og romlige resonneringer som er involvert, vil tende til å presse robotmanipulasjonssystemer langt utenfor de forenklede formene og kontrollerte miljøene de er vant til.

Derfor har arbeidet med AI-drevne robotmonteringsrutiner for flatpakkmøbler blitt en liten, men respektabel gren i litteraturen, med utgaver som USC’s 2019 IKEA Furniture Assembly Environment, blant de første benchmark-datasettene og forskningskontekstene som spesifikt er rettet mot møbelmontering:

Klikk for å spille Eksempler på robotmonteringspraksis, fra prosjektets nettsted for 2019 IKEA Furniture Assembly Environment-initiativet. Kilde

I 2024 var Stanford/J.P. Morgan-samarbeidet IKEA Manuals at Work det første som betydelig undersøkte AI’s evne til å utføre denne tilsynelatende enkle (om enn ofte frustrerende) prosessen, basert på et nytt datasett av bilder fra instruksjonsmanualer, og ved hjelp av instruksjonsvideoer:

Dataset-metode og detaljer fra 2024 IKEA Manuals at Work-initiativet. Kilde

Forfatterne av 2024-papiret – som utnyttet DGCNN, CNOS, SAM-6D, MegaPose, MiDaS, SAM2 Hiera-L, Cutie-base, og GPT-4o – konkluderte med at oppgaven ga ‘betydelige utfordringer i å grunnlegge instruksjonsmonteringsvideoer, inkludert å trekke ut delsegmenteringer og posisjoner, konstruere høynivå monteringsplaner og oppdage nøkkelmonteringssteg i videoer’.

Wax On, Wax Off

Det må være åpenbart at, selv om det å få AI til å automatisere oss ut av en oppgave som få elsker, ville være fint, er det knapt en vitenskapelig ledestjerne, eller høyt på en liste over prioriteringer for computer-vision-forskning.

Riktignok ligger verdien av oppgaven i det faktum at det AI-systemer må lære for å bli dyktige i dette ville grunnlegge dem for langt mer alvorlige rutiner som er like eller enda mer utfordrende, i landbruk, industri, tjenestesektoren og andre sfærer.

I denne sammenhengen undersøker LEGO-Puzzles-prosjektet og datasettet hvordan godt Vision Language Models (VLMs) håndterer multi-steg romlige resonneringer over en rekke arkitekturer, ettersom monteringsoppgaver avhenger ikke bare av å pare sammen riktige objekter på riktig tidspunkt – en prosess kjent som mating – men også av å følge instruksjoner som kan være langt mer abstrakte enn den rå visuelle scenen som er tilgjengelig for modellen på et gitt tidspunkt:

Utfordrende spørsmål fra LEGO-Puzzles-prosjektet. Kilde

Det siste prosjektet som tar opp utfordringen med møbelmontering, utnytter en mer nåværende og kapabel gruppe av AI-modeller, inkludert Google Gemini 2.5/3.1 og OpenAI’s GPT-5 – men fortsatt ikke klarer å oppnå en seier for AI i oppgaven, med bare beskjedne forbedringer over baseline-chansen, og ytelse ‘langt under menneskelige nivåer’.

Forfatterne slår fast:

‘Våre eksperimenter avslører at state-of-the-art LVLMs sliter betydelig med fin-granulert spatio-temporalt resonnering, og understreker deres begrensninger i å effektivt utnytte temporalt informasjon fra videoer, begrensede sporingsmuligheter og forståelse av romlige interaksjoner som fysisk kontakt.’

Problemene som håndteres i denne forskningsretningen er bare notionelt relatert til praktisk robotikk på dette stadiet, selv om ytterligere utfordringer uten tvil venter når de teoretiske problemene endelig utvikler seg til inkorporert AI.

Den nye artikkelen heter Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly, og kommer fra åtte forfattere over Cornell University, Cornell Tech, MBZUAI og UC Berkeley. Artikkelen følges av et prosjektsted.

Metode

Forfatterne av det nye arbeidet understreker vanskelighetene AI-hjelpere har med å forstå monteringsprosessen gjennom observasjon, for eksempel via den type YouTube-liknende instruksjonsvideo som mange mennesker søker til for å dra nytte av fellesskapskunnskap:

Noen av spørsmålene som flat-pack-monteringsoppgaven provoserer, sammen med de fire essensielle ferdighetene som er nødvendige for å overvinne utfordringene. Kilde

De kuraterte et datasett filtrert fra det tidligere nevnte IKEA-Manuals-at-Work (IMaW) datasettet, som inneholder videoer av mennesker som monterer IKEA-møbler. Det reviderte benchmarket klipper opprinnelige videoer for å fjerne tekstbaserte instruksjonskort, med separate nøkkel-ramme- og full-video-varianter, og legger til manuelt annoterte visuelle hint med segmenterte møbledeler, for å støtte multiple-choice resonneringsoppgaver.

Benchmarket dreier seg om fire spørsmålstyper: MATE, bestemmelse av om to deler er koblet i den endelige monteringen; TRACK, krever at modellene gjenvinner korrekt korrespondanse mellom sammenblandede del-IDs over segmenterte rammer ved hjelp av videoen selv; TOrd, evaluering av om modellene kan slutte seg til korrekt rekkefølge av koblingshendelser; og TLoc, testing av om modellene kan identifisere hendelser som skjer umiddelbart før eller etter tilstanden som vises i den visuelle hinten, og krever temporalt lokalisering og resonnering om nærliggende hendelser.

Eksempler fra det nye benchmarket, som illustrerer de fire kjerneoppgavene designet for å teste spatio-temporalt resonnering i møbelmonteringsvideoer: Temporalt Lokalisering; Temporalt Orden; Sporing; og Mating. Hver oppgave kombinerer monteringsvideo med en eller flere segmenterte visuelle hint og et multiple-choice resonneringsspørsmål.

Malene som vises i skjemaet ovenfor ble avledet fra disse fire spørsmålsmodellene.

Forfatterne bemerker også at de la til fin-granulerte del-monteringsannotasjoner til hver av de opprinnelige IMaW-videoene, som spesifiserer hvilke deler kobles til hvilke andre deler – detaljer som manglet i den opprinnelige samlingen.

Unndragelse

Spørsmålene, påpeker artikkelen, måtte være manuelt kuratert, ettersom auto-genererte spørsmål ofte gir AI mulighet til å ignorere videoen og henvise til sin egen trent forståelse – en scenario som enhver vanlig bruker av LLM/VLM vil kjenne igjen, ettersom optimalisering og andre mystiske bedriftsprioriteter ofte får frontmodellene til å ignorere innsendt informasjon, som PDF-er eller bilder, og henvise til sin egen forståelse i stedet*:

‘[Vi] fant at auto-generering ofte produserte spørsmål som kunne besvares ved å ignorere videoen og utnytte kortveier. For eksempel auto-genererte mating spørsmål om deler allerede plassert for kobling, eller inkluderte distraktor-alternativer med tydelig forskjellige former eller farger, og muliggjorde lett [eliminering]. For å løse dette, kuraterte vi alle spørsmål manuelt ved hjelp av faste maler.

‘Annotatorer fikk tilgang til hele monteringsvideoen, segmenterte rammer for visuelle hint, spørsmålsmalene og detaljerte retningslinjer for å unngå kortveier basert på statiske hint fra den visuelle hinten.’

Det ferdige benchmarket består av 602 multiple-choice-spørsmål over 50 varierende møbelmonteringsvideoer.

Data og tester

Modellene som ble evaluert for testrunden var de ovennevnte ChatGPT og Gemini-variantene, samt Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; og Video-Refer.

GenS ble brukt til å velge spørsmåls-relevante rammer i lange videoer for den grunnleggende Gemini 2.5 Pro-modellen, og de fleste modellene ble testet i en one-shot kontekst under grådig dekoding (ikke støttet i GPT-5, imidlertid).

Tre prompt-formater ble utviklet for benchmarket: den blandede-media prompten leverte den visuelle hinten som et eget bilde ved siden av monteringsvideoen; den collage prompten innlemmet den visuelle hinten direkte i hver video-ramme som en del av et grid-layout; og den konkat prompten forhastet den visuelle hinten til starten av videoen.

Both trimmed og nøkkel-ramme video-varianter ble testet over disse formatene, for å måle hvor sterkt prompt-struktur og temporalt kompresjon kunne påvirke modell-ytelse.

Chansetilfellene som ble vurdert for testene inkluderte også ‘frekvens-chans’, hvor den mest vanlige valget (i stedet for et virkelig tilfeldig valg) ble valgt.

Menneskelig faktor

Menneskelig ytelse ble evaluert ved hjelp av deltakere fra datavitenskapsprogrammer, fra bachelor- til doktorgradsnivå. Hver deltaker fikk vist en monteringsvideo, og den tilhørende visuelle hinten og multiple-choice-spørsmålet, samt oppgave-instruksjonen, før de valgte et svar.

Tre svar ble samlet inn per spørsmål og avgjort gjennom flertallsvalg, mens en separat crowdsourcet studie også ble gjennomført på en tilfeldig utvalgt undergruppe av benchmarket.

Nøyaktighet ble brukt som målestokk for forsøkene:

Chansetilfeller
Modell	Rang	Micro Avg.	TOrd	TLoc	Track	Mate
Menneskelig ytelse	–	94.18	93.54	93.20	93.77	97.70
Tilfeldig chans	–	26.41	25.00	25.00	25.49	33.33
Frekvens-chans	–	26.74	27.74	30.10	26.46	36.78
Proprietære modeller
GPT-5	1	37.71	40.65	53.40	25.68	49.43
Gemini 2.5 Pro	2	33.72	40.65	44.66	23.35	39.08
Gemini 3.1 Pro	3	32.89	34.84	43.69	21.79	49.43
Gemini 2.5 Flash	4	31.06	31.61	41.75	23.35	40.23
Gemini 2.5 Pro + GenS	5	25.58	33.55	32.04	13.23	40.23
Åpne modeller
Video-LLaVA-7B	26	23.75	21.29	35.92	10.89	51.72
InternVL3-14B	5	37.71	42.58	21.36	37.74	48.28
InternVL3-38B	12	36.05	42.58	37.86	25.68	52.87
InternVL3-78B	1	41.03	43.87	39.81	42.02	34.48
Qwen2.5-VL-7B	22	30.23	27.10	18.45	33.07	41.38
Qwen2.5-VL-32B	13	35.88	34.84	29.13	33.07	54.02
Qwen2.5-VL-72B	2	40.37	41.29	30.10	45.14	36.78
Qwen3-VL-4B	11	36.54	34.19	33.01	32.68	56.32
Qwen3-VL-4B-Think	9	37.21	31.61	25.24	37.74	59.77
Qwen3-VL-8B	15	33.72	36.13	30.10	33.85	33.33
Qwen3-VL-8B-Think	17	31.73	34.19	33.01	25.29	44.83
Qwen3-VL-32B	6	37.71	38.71	46.60	31.91	42.53
Qwen3-VL-32B-Think	3	40.03	38.71	22.33	45.53	47.13
Qwen3-VL-30B-A3B	10	36.71	30.32	22.33	42.02	49.43
Qwen3-VL-235B-A22B	8	37.21	37.42	25.24	39.69	43.68
LLaVA-NeXT-Vid-7B	25	25.08	33.55	24.27	16.73	35.63
LLaVA-NeXT-Vid-34B	21	30.40	30.32	24.27	32.68	31.03
LlaVA-OneVision-7B	16	32.89	26.45	30.10	34.24	43.68
LlaVA-OneVision-72B	4	38.37	35.48	25.24	38.91	57.47
LLaVA-Video-7B	19	30.73	30.97	24.27	25.68	52.87
LLaVA-Video-72B	7	37.54	36.77	27.18	35.80	56.32
Perception-LM-1B	24	27.74	28.39	26.21	25.29	35.63
Perception-LM-3B	18	31.40	28.39	32.04	29.96	40.23
Perception-LM-8B	14	35.38	26.45	26.21	44.75	34.48
VideoRefer	23	28.57	32.90	30.10	17.51	51.72
ArrowRL-7B	20	30.56	30.97	24.27	29.18	41.38

Ytelsesresultater på FLAT-PACK BENCH, sammenlignende proprietære og åpne multimodale modeller over Temporalt Orden (TOrd), Temporalt Lokalisering (TLoc), Sporing og Mating-oppgaver, med menneskelig ytelse som forblir langt foran alle testede systemer, til tross for beskjedne gevinster blant større frontmodeller.

Som vist i de innledende testene (bilde over), scoret mennesker >90% i alle kategorier av spørsmål, med 80% enighet, noe som, hevder artikkelen, antyder at proposisjonene er godt formulert og ubestridte.

GPT-5 og Gemini 2.5/3.1 Pro slitet på datasettet, og oppnådde bare beskjedne forbedringer over chansetilfeller, og forble langt under menneskelig ytelse. Bruk av GenS til å velge spørsmåls-relevante rammer forbedret ikke Gemini 2.5 Pro’s resultater, noe som førte til at forfatterne konkluderte med at proprietære LVLMer sliter med oppgaven om spatio-temporalt forståelse som kreves av benchmarket.

Blant åpne systemer kom de sterkeste resultatene fra InternVL3- og Qwen-familiene, selv om ytelsen varierte skarpt over kategorien; og spesialiserte systemer, inkludert PerceptionLM og VideoRefer, slitet også på benchmarkets komplekse monteringsoppgaver, med menneskelige deltakere som forble signifikant foran i hver modellkategori.

Forskerne testet også to chain-of-thought prompt-strategier mot artikkelen standard prompt-oppssett. Zero-shot Chain-of-Thought prompting ba modellene om å forklare sine svar trinnvis, mens Self-consistency with Chain-of-Thought genererte fem kandidat-svar før de valgte et endelig svar gjennom flertallsvalg. Imidlertid forbedret ingen av disse tilnærmingene resultater på Flat Pack Bench-datasettet, med begge tilnærmingene som scoret under benchmarkets standard prompt-konfigurasjon.

Kjennetegn

For å teste om LVLMer faktisk lærte fra monteringsvideoene, eller bare utnyttet statiske visuelle hint, skapte forskerne en bilde-eksklusiv versjon av benchmarket, som utelot videoen helt, og beholdt bare spørsmålsteksten og visuelle hint.

Menneskelig ytelse kollapset med over 50% under disse betingelsene, noe som viste at oppgavene faktisk krever temporalt forståelse av monteringsprosessen. Modellene, imidlertid, degraderes langt mindre alvorlig, med noen oppgaver som forble stabile eller til og med forbedret uten video-inndata.

Dette antyder, foreslår artikkelen, at mange LVLMer ikke bruker den temporale informasjonen i videoene overhodet, men i stedet baserer seg på bilde-baserte kortveier og sunne fornuft-anteringer for å slutte seg til plausibele svar*:

Ytelse av LVLM på den bilde-eksklusive versjonen av Flat-Pack Bench, sammenlignet med den standard video-og-bilde-oppssettet, med ekstra resultater etter å ha blandet del-IDs for å teste om modellene utnyttet etikett-rekkefølge-kortveier i stedet for temporalt video-forståelse.

‘[Bildet over] viser ytelsen av LVLM på denne bilde-eksklusive versjonen, og endringen i deres ytelse fra den fullstendige evalueringen, samt menneskelig ytelse.

‘Det skarpe fallet i menneskelig ytelse (>50%) viser at spørsmålene faktisk krever videoer for å besvares.

‘Vi observerer også at den samlede ytelsen av modellen faller betydelig (8.80%), men hovedsakelig på grunn av TRACK-underoppgaven. Nøyaktighet på andre oppgaver forblir den samme eller forbedres, noe som indikerer at LVLM bruker ikke videoen effektivt, mens mennesker bruker videoen for å besvare.’

Artikkelen foreslår at den største hindringen ikke bare er enkel temporalt sekvensering alene, men feil i objekt-grunnlegging og spatio-temporalt resonnering: modellene slitet ofte med å holde spor av visuelt like møbledeler over bevegelse, kamera-skift og scene-endringer, selv når de ser ut til å identifisere den bredere monteringsprosessen korrekt.

Ytterligere eksperimenter involverte å sette en verktøy-utstyrt agentic AI løs på oppgaven, og denne ‘utførte dårlig’ ifølge forfatterne – selv om den var i stand til å korrekt besvare ytterligere 11.48% av spørsmålene som ble missede av de andre tilnærmingene.

Konklusjon

Å beholde varige internaliseringer av konsepter og objekter er sentralt både for den menneskelige erfaringen av vekst og perseptuell utvikling, og i enkelt, ofte nye oppgaver som denne utviklingen har forberedt oss på.

Computer Vision-forskning har allerede en pågående kamp for å gjenoppnå og gjenkjenne objekter og mennesker som forlater og gjeninntrenger rammen. Disse problemene er betydelig forsterket med behovet for å konstant endre syn og holdning – som sannsynligvis vil skje i en YouTube-instruksjonsvideo om flatpakkmøbelmontering. En kan forestille seg hvor mye mer jarring POV-endringer av en egosentrisk video kan ytterligere forvirre AI’s forsøk på møbelmontering.

* Forfatterens opprinnelige formatering, endret av meg når det er nødvendig for å beholde impulsen under sitat-formatering/

Først publisert mandag, 25. mai 2026. Endret onsdag 27. mai 2026 for å korrigere denne dato-attribusjonen (!).