Andersons hoek
AI is aanzienlijk slechter dan mensen in het assembleren van meubels

ChatGPT en Google Gemini kunnen nog steeds niet betrouwbaar IKEA-assemblagevideo’s begrijpen, met veel andere prominente AI-systemen die onderdelen verwarren, verbindingen missen en nauwelijks de video zelf gebruiken om te begrijpen wat er gebeurt.
Het hardnekkige culturele meme rond de moeilijkheid van het assembleren van IKEA-stijl platte meubels maakt het onderwerp een aantrekkelijk doelwit voor computer-vision onderzoek — niet in de laatste plaats omdat de lange sequenties van acties, object-tracking en ruimtelijke redenering die hierbij betrokken zijn, robotmanipulatiesystemen ver zullen brengen voorbij de vereenvoudigde vormen en gecontroleerde omgevingen waar ze aan gewend zijn.
Daarom is het werk aan AI-gepowered robotassemblage-routines voor platte meubels een kleine maar respectabele tak in de literatuur geworden, met uitstapjes zoals de IKEA-meubelassemblageomgeving van de USC uit 2019, een van de eerste benchmark-datasets en onderzoekscontexten die specifiek gericht zijn op meubelassemblage:
Klik om af te spelen Voorbeelden van robotassemblage-oefening, van het projectsite voor de 2019 IKEA-meubelassemblageomgeving-initiatief. Bron
In 2024 was de Stanford/J.P. Morgan-samenwerking IKEA-handleidingen op het werk het eerste dat aanzienlijk onderzocht wat de mogelijkheden van AI zijn om deze ogenschijnlijk alledaagse (maar vaak frustrerende) procedure uit te voeren, op basis van een nieuw dataset van afbeeldingen uit instructiehandleidingen en gebruikmakend van instructievideo’s:

Datasetmethode en -details van de 2024 IKEA-handleidingen op het werk-initiatief. Bron
De auteurs van het paper uit 2024 — dat DGCNN, CNOS, SAM-6D, MegaPose, MiDaS, SAM2 Hiera-L, Cutie-base, en GPT-4o gebruikte — concludeerden dat de taak ‘aanzienlijke uitdagingen oplevert bij het begrijpen van instructievideo’s, waaronder het extraheren van onderdeelsegmentaties en -posities, het construeren van hoogwaardige assemblageplannen en het detecteren van sleutelassemblage-stappen in video’s’.
Wax On, Wax Off
Het moet duidelijk zijn dat, hoewel het leuk zou zijn om AI te laten automatiseren wat we niet leuk vinden, het niet echt een wetenschappelijke leidraad is, of hoog op de prioriteitenlijst van de Computer Vision-onderzoekssector.
Rather, de waarde van de taak ligt in het feit dat wat AI-systemen moeten leren om hierin vaardig te worden hen zal gronden voor veel serieuzere routines die even uitdagend zijn, in landbouw, industrie, de dienstensector en diverse andere sferen.
In deze richting onderzoekt het LEGO-Puzzles project en dataset hoe goed Vision Language Models (VLM’s) multi-stap ruimtelijke redenering over een reeks architectuur kunnen hanteren, aangezien assemblagetaken niet alleen afhankelijk zijn van het koppelen van de juiste objecten samen op het juiste moment — een proces dat bekend staat als mating — maar ook van het volgen van instructies die verder gaan dan de raw visuele scène die op een bepaald moment beschikbaar is voor het model:

Uitdagende vragen van het LEGO-Puzzles project. Bron
Het nieuwste project dat de uitdaging van meubelassemblage aanpakt, maakt gebruik van een meer actuele en capabele groep AI-modellen, waaronder Google Gemini 2.5/3.1 en OpenAI’s GPT-5 — maar slaagt er nog steeds niet in om een overwinning voor AI in de taak te behalen, met slechts bescheiden verbeteringen ten opzichte van de baseline-kans, en prestaties ‘ver onder het niveau van de mens’.
De auteurs stellen:
‘Onze experimenten laten zien dat state-of-the-art LVLM’s aanzienlijk worstelen met fijne ruimtelijke redenering, waardoor ze hun beperkingen in het effectief benutten van temporele informatie uit video’s, beperkte trackingmogelijkheden en het begrijpen van ruimtelijke interacties zoals fysiek contact, laten zien.’
De problemen die in deze tak van onderzoek worden aangepakt, zijn slechts in theorie gerelateerd aan praktische robotica op dit moment, hoewel aanvullende uitdagingen ongetwijfeld wachten wanneer de theoretische kwesties uiteindelijk evolueren naar geïncorporeerde AI.
Het nieuwe paper heeft als titel Flat-Pack Bench: Evaluating Spatio-Temporele Begrip in Grote Vision-Language Modellen door Meubelassemblage, en komt van acht auteurs uit Cornell University, Cornell Tech, MBZUAI en UC Berkeley. Het paper wordt vergezeld van een projectsite.
Methode
De auteurs van het nieuwe werk benadrukken de moeilijkheid die AI-assistenten hebben om het assemblageproces te begrijpen door observatie, bijvoorbeeld via het soort YouTube-stijl instructievideo dat veel mensen raadplegen om te profiteren van communitykennis:

Enkele van de vragen die de flat-pack assemblagetaken oproepen, samen met de vier essentiële vaardigheden die nodig zijn om de uitdagingen te overwinnen. Bron
Zij curateerden een dataset gefilterd uit de eerder genoemde IKEA-handleidingen op het werk (IMaW) dataset, die in-the-wild-video’s van mensen die IKEA-meubels assembleren bevat. De herziene benchmark knipt de oorspronkelijke video’s om tekst-only instructiekaarten te verwijderen, met afzonderlijke key-frame en full-video varianten, en voegt ook handmatig geannoteerde visuele prompts met gesegmenteerde meubelonderdelen toe, om multiple-choice redeneertaken te ondersteunen.
De benchmark draait om vier vraagtypen: MATE, het bepalen of twee onderdelen in de eindassemblage zijn verbonden; TRACK, waarbij modellen de juiste overeenkomst tussen geschudde onderdeel-IDs over gesegmenteerde frames moeten herstellen met behulp van de video zelf; TOrd, die modellen beoordeelt op hun vermogen om de juiste volgorde van verbindingsevents af te leiden; en TLoc, die modellen test op hun vermogen om events te identificeren die onmiddellijk voor of na de toestand in de visuele prompt plaatsvinden, waardoor temporele localisatie en redenering over nabije events vereist zijn.

Voorbeelden uit de nieuwe benchmark, die de vier kern taaktypen illustreren die zijn ontworpen om spatio-temporele redenering in meubelassemblagevideo’s te testen: Temporele Localisatie; Temporele Volgorde; Tracking; en Mating. Elke taak combineert assemblagevideo’s met een of meer gesegmenteerde visuele prompts en een multiple-choice redeneervraag.
De sjablonen die in de schema-afbeelding hierboven worden getoond, zijn afgeleid van deze vier vraagmodellen.
De auteurs merken ook op dat ze fijne assemblage-annotaties voor elk van de oorspronkelijke IMaW-video’s hebben toegevoegd, waarin wordt gespecificeerd welke onderdelen met welke andere onderdelen zijn verbonden — details die ontbreken in de oorspronkelijke collectie.
Ontwijking
De vragen, zo stelt het paper, moesten handmatig worden gecureerd, omdat auto-gegenereerde vragen AI de mogelijkheid geven om de video te negeren en naar hun eigen getrainde begrip te verwijzen — een scenario dat elke reguliere gebruiker van LLM’s/VLM’s waarschijnlijk zal herkennen, aangezien optimalisatie en andere mysterieuze corporate prioriteiten vaak ertoe leiden dat frontier-modellen ingevoerde informatie, zoals PDF’s of afbeeldingen, negeren en zich baseren op hun eigen begrip:
‘[We] ontdekten dat auto-generatie vaak vragen produceerde die konden worden beantwoord door de video te negeren en shortcuts te exploiteren. Als voorbeeld auto-gegenereerde mating vragen over onderdelen die al zijn gepositioneerd voor verbinding, of inclusief afleidings-opties met duidelijk verschillende vormen of kleuren, waardoor gemakkelijke [eliminatie] mogelijk is. Om dit aan te pakken, hebben we alle vragen handmatig gecureerd met vaste sjablonen.
‘Annotators kregen de volledige assemblagevideo, gesegmenteerde frames voor visuele prompts, de vraag-sjablonen en gedetailleerde richtlijnen voor het vermijden van shortcuts op basis van statische cues van de visuele prompt.’
De voltooide benchmark bestaat uit 602 multiple-choice vragen over 50 verschillende meubelassemblagevideo’s.
Gegevens en Tests
Modellen die zijn geëvalueerd voor de testronde waren de eerder genoemde ChatGPT en Gemini-varianten, evenals Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; en Video-Refer.
GenS werd gebruikt om vraag-relevante frames in lange video’s te selecteren voor de basis Gemini 2.5 Pro-model, en de meeste modellen werden getest in een one-shot context onder greedy decoding (niet ondersteund in GPT-5, echter).
Drie promptformaten werden ontwikkeld voor de benchmark: de mixed-media prompt leverde de visuele prompt als een afzonderlijke afbeelding naast de assemblagevideo; de collage prompt embedde de visuele prompt rechtstreeks in elke video-frame als onderdeel van een grid-layout; en de concat prompt voegde de visuele prompts toe aan het begin van de video.
Beide getrimde en key-frame video-varianten werden getest over deze formaten, om te meten hoe sterk promptstructuur en temporele compressie modelprestaties zouden kunnen beïnvloeden.
De kans-baselines die voor de tests werden overwogen, omvatten ook ‘frequentie-kans’, waarbij de meest voorkomende optie (in plaats van een echt willekeurige optie) wordt gekozen.
Menselijke Factor
Menselijke prestaties werden geëvalueerd met deelnemers uit computerwetenschapsprogramma’s, variërend van undergraduate tot doctoraal niveau. Elke deelnemer werd getoond een assemblagevideo, evenals de bijbehorende visuele prompt en multiple-choice vraag, evenals de taakinstructie, voordat ze een antwoord kozen.
Drie reacties werden verzameld per vraag en opgelost door middel van meerderheidsstemming, terwijl een afzonderlijke crowdsourced-studie ook werd uitgevoerd op een willekeurig geselecteerde subset van de benchmark.
Accuratesse werd gebruikt als de meting voor de proeven:
| Model | Rank | Micro Avg. | TOrd | TLoc | Track | Mate |
|---|---|---|---|---|---|---|
| Menselijke Prestatie | – | 94.18 | 93.54 | 93.20 | 93.77 | 97.70 |
| Kans-baselines | ||||||
| Willekeurige Kans | – | 26.41 | 25.00 | 25.00 | 25.49 | 33.33 |
| Frequentie Kans | – | 26.74 | 27.74 | 30.10 | 26.46 | 36.78 |
| Proprietary Modellen | ||||||
| GPT-5 | 1 | 37.71 | 40.65 | 53.40 | 25.68 | 49.43 |
| Gemini 2.5 Pro | 2 | 33.72 | 40.65 | 44.66 | 23.35 | 39.08 |
| Gemini 3.1 Pro | 3 | 32.89 | 34.84 | 43.69 | 21.79 | 49.43 |
| Gemini 2.5 Flash | 4 | 31.06 | 31.61 | 41.75 | 23.35 | 40.23 |
| Gemini 2.5 Pro + GenS | 5 | 25.58 | 33.55 | 32.04 | 13.23 | 40.23 |
| Open Modellen | ||||||
| Video-LLaVA-7B | 26 | 23.75 | 21.29 | 35.92 | 10.89 | 51.72 |
| InternVL3-14B | 5 | 37.71 | 42.58 | 21.36 | 37.74 | 48.28 |
| InternVL3-38B | 12 | 36.05 | 42.58 | 37.86 | 25.68 | 52.87 |
| InternVL3-78B | 1 | 41.03 | 43.87 | 39.81 | 42.02 | 34.48 |
| Qwen2.5-VL-7B | 22 | 30.23 | 27.10 | 18.45 | 33.07 | 41.38 |
| Qwen2.5-VL-32B | 13 | 35.88 | 34.84 | 29.13 | 33.07 | 54.02 |
| Qwen2.5-VL-72B | 2 | 40.37 | 41.29 | 30.10 | 45.14 | 36.78 |
| Qwen3-VL-4B | 11 | 36.54 | 34.19 | 33.01 | 32.68 | 56.32 |
| Qwen3-VL-4B-Think | 9 | 37.21 | 31.61 | 25.24 | 37.74 | 59.77 |
| Qwen3-VL-8B | 15 | 33.72 | 36.13 | 30.10 | 33.85 | 33.33 |
| Qwen3-VL-8B-Think | 17 | 31.73 | 34.19 | 33.01 | 25.29 | 44.83 |
| Qwen3-VL-32B | 6 | 37.71 | 38.71 | 46.60 | 31.91 | 42.53 |
| Qwen3-VL-32B-Think | 3 | 40.03 | 38.71 | 22.33 | 45.53 | 47.13 |
| Qwen3-VL-30B-A3B | 10 | 36.71 | 30.32 | 22.33 | 42.02 | 49.43 |
| Qwen3-VL-235B-A22B | 8 | 37.21 | 37.42 | 25.24 | 39.69 | 43.68 |
| LLaVA-NeXT-Vid-7B | 25 | 25.08 | 33.55 | 24.27 | 16.73 | 35.63 |
| LLaVA-NeXT-Vid-34B | 21 | 30.40 | 30.32 | 24.27 | 32.68 | 31.03 |
| LlaVA-OneVision-7B | 16 | 32.89 | 26.45 | 30.10 | 34.24 | 43.68 |
| LlaVA-OneVision-72B | 4 | 38.37 | 35.48 | 25.24 | 38.91 | 57.47 |
| LLaVA-Video-7B | 19 | 30.73 | 30.97 | 24.27 | 25.68 | 52.87 |
| LLaVA-Video-72B | 7 | 37.54 | 36.77 | 27.18 | 35.80 | 56.32 |
| Perception-LM-1B | 24 | 27.74 | 28.39 | 26.21 | 25.29 | 35.63 |
| Perception-LM-3B | 18 | 31.40 | 28.39 | 32.04 | 29.96 | 40.23 |
| Perception-LM-8B | 14 | 35.38 | 26.45 | 26.21 | 44.75 | 34.48 |
| VideoRefer | 23 | 28.57 | 32.90 | 30.10 | 17.51 | 51.72 |
| ArrowRL-7B | 20 | 30.56 | 30.97 | 24.27 | 29.18 | 41.38 |
Prestatie-resultaten op FLAT-PACK BENCH, waarin propriëtaire en open multimodale modellen worden vergeleken over Temporele Volgorde (TOrd), Temporele Localisatie (TLoc), Tracking en Mating taken, met menselijke prestaties die ver boven alle geteste systemen blijven, ondanks bescheiden winst onder grotere frontier-modellen.
Uit de initiële tests (afbeelding hierboven) blijkt dat mensen in alle categorieën van vragen een score van >90% behaalden, met 80% unanimiteit, wat, zo stelt het paper, aangeeft dat de proposities goed zijn geformuleerd en ondubbelzinnig zijn.
GPT-5 en Gemini 2.5/3.1 Pro worstelden met de dataset, met slechts bescheiden verbeteringen ten opzichte van de kans-baseline, en bleven ver onder de menselijke prestaties. Het gebruik van GenS om vraag-relevante frames te selecteren voor het basis Gemini 2.5 Pro-model verbeterde de resultaten niet, waardoor de auteurs concludeerden dat propriëtaire LVLM’s worstelen met de taak van spatio-temporele begrip die door de benchmark wordt vereist.
Onder de open systemen waren de sterkste resultaten afkomstig van de InternVL3- en Qwen-families, hoewel de prestaties in deze categorie scherp varieerden, met verschillende modellen die nauwelijks beter presteerden dan de kans; en gespecialiseerde systemen, waaronder PerceptionLM en VideoRefer, worstelden ook met de complexe assemblagetaken van de benchmark, met menselijke deelnemers die significant voorop bleven in elke modelcategorie.
De onderzoekers testten ook twee chain-of-thought prompting-strategieën tegen de standaard prompting-opstelling van het paper. Zero-shot Chain-of-Thought prompting vroeg modellen om hun antwoorden stap voor stap uit te leggen, terwijl Self-consistency with Chain-of-Thought vijf kandidaat-antwoorden gegenereerde voordat een definitief antwoord werd geselecteerd door middel van meerderheidsstemming. Echter, beide benaderingen verbeterden de resultaten op de Flat Pack Bench-dataset niet, met beide benaderingen die onder de standaard prompting-configuratie van de benchmark scoorden.
Cheat Code
Om te testen of LVLM’s daadwerkelijk van de assemblagevideo’s leerden, of slechts statische visuele cues uitbuitten, creëerden de onderzoekers een image-only versie van de benchmark, die de video geheel weglaat, met alleen de vraagtekst en visuele prompts over:
Menselijke prestaties daalden met meer dan 50% onder deze omstandigheden, wat aangeeft dat de taken echt temporele begrip van het assemblageproces vereisen. De modellen daalden echter veel minder ernstig, met sommige taken die stabiel bleven of zelfs verbeterden zonder video-input.
Dit geeft, zo stelt het paper, aan dat veel LVLM’s de temporele informatie in de video’s geen enkele betekenis geven, maar in plaats daarvan afhankelijk zijn van image-gebaseerde shortcuts en alledaagse veronderstellingen om plausibele antwoorden af te leiden:

Prestatie van de LVLM op de image-only versie van Flat-Pack Bench, vergeleken met de standaard video-plus-image opstelling, met aanvullende resultaten na het schudden van onderdeel-IDs om te testen of modellen label-order shortcuts uitbuiten in plaats van temporele video-begrip.
‘[De afbeelding hierboven] toont de prestatie van de LVLM op deze image-only versie, en de verandering in hun prestatie van de volledige evaluatie, evenals menselijke prestatie.
‘De scherpe daling in menselijke prestatie (>50%) toont aan dat de vragen echt video’s vereisen om te beantwoorden.
‘We observeren ook dat de algehele prestatie van het model aanzienlijk daalt (8.80%), maar voornamelijk vanwege de TRACK-subtaak. De nauwkeurigheid op andere taken blijft hetzelfde of verbetert, wat aangeeft dat de LVLM de video niet effectief gebruikt, terwijl mensen de video gebruiken om te antwoorden.’
Het diepere onderzoek van het paper suggereert dat de belangrijkste belemmering niet alleen temporele sequencing is, maar falen in object-gronding en spatio-temporele redenering: modellen worstelden vaak met het bijhouden van visueel vergelijkbare meubelonderdelen over beweging, camera-shifts en scène-wijzigingen, zelfs wanneer ze de bredere assemblage-proces correct leken te identificeren.
Verdere experimenten betrokken het loslaten van een tool-uitgeruste agente AI op de taak, en deze ‘presteerde slecht’ volgens de auteurs — hoewel het in staat was om correct 11,48% meer vragen te beantwoorden die door de andere benaderingen werden gemist.
Conclusie
Het behouden van persistente internalisaties van concepten en objecten is centraal voor zowel de menselijke ervaring van groei en perceptuele ontwikkeling als in individuele, vaak nieuwe taken waarvoor die ontwikkeling ons heeft voorbereid.
Computer Vision-onderzoek heeft al een aanhoudende strijd om objecten en mensen die het frame verlaten en weer binnenkomen te herkennen en opnieuw te herkennen. Deze problemen worden aanzienlijk vergroot met de noodzaak om constant het zicht en de houding te veranderen — zoals waarschijnlijk het geval is in een YouTube-instructievideo over platte meubelassemblage. Men kan zich voorstellen hoezeer de nog meer verontrustende POV-wijzigingen van een egocentrische video AI’s pogingen tot meubelassemblage verder zouden verwarren.
* De auteurs’ originele opmaak, gewijzigd door mij waar nodig om de impact te behouden onder quote-opmaak/
Eerst gepubliceerd op maandag 25 mei 2026. Gewijzigd op woensdag 27 mei 2026 om deze datum-attributie te corrigeren (!).












