Andersons Blickwinkel
KI ist erheblich schlechter als Menschen beim Zusammenbauen von Möbeln

ChatGPT und Google Gemini können IKEA-Montagevideos immer noch nicht zuverlässig verstehen, und viele andere bekannte KI-Systeme verwechseln Teile, verpassen Verbindungen und nutzen das Video selbst kaum, um zu verstehen, was passiert.
Das anhaltende kulturelle Meme um die Schwierigkeit beim Zusammenbauen von IKEA-ähnlichen Möbeln im Flachpack-Format macht das Thema zu einem attraktiven Ziel für die Forschung im Bereich Computer-Vision – nicht zuletzt, weil die langen Sequenzen von Aktionen, Objekt-Verfolgung und räumliches Denken, die dabei involviert sind, tendenziell Roboter-Manipulationssysteme weit über die vereinfachten Formen und kontrollierten Umgebungen hinausführen, an die sie gewöhnt sind.
Daher ist die Arbeit an KI-gesteuerten robotischen Montageroutinen für Möbel im Flachpack-Format zu einem kleinen, aber respektablen Zweig in der Literatur geworden, mit Beispielen wie der 2019er IKEA-Möbel-Montage-Umgebung von der Universität Südkaliforniens, einer der ersten Benchmark-Datensätze und Forschungskontexte, die speziell auf Möbelmontage abzielen:
Klicken Sie, um abzuspielen Beispiele für robotische Montage-Praxis, von der Projekt-Website für die 2019er IKEA-Möbel-Montage-Umgebung-Initiative. Quelle
Im Jahr 2024 war die Zusammenarbeit zwischen Stanford und J.P. Morgan, IKEA-Anleitungen bei der Arbeit, die erste, die die Fähigkeit von KI-Systemen, diese scheinbar alltägliche (aber oft frustrierende) Prozedur auszuführen, erheblich untersuchte, basierend auf einem neuen Datensatz von Bildern aus Anleitungen und unter Verwendung von Anleitungsvideos:

Datensatz-Methode und -Details aus der 2024er IKEA-Manuals-at-Work-Initiative. Quelle
Die Autoren des 2024er Artikels – die DGCNN, CNOS, SAM-6D, MegaPose, MiDaS, SAM2 Hiera-L, Cutie-base und GPT-4o nutzten – kamen zu dem Schluss, dass die Aufgabe ‘erhebliche Herausforderungen bei der Verankerung von Anleitungsvideos, einschließlich der Extraktion von Teilsegmentierungen und -posen, der Konstruktion von hochrangigen Montageplänen und der Erkennung von Schlüsselmontageschritten in Videos’ birgt.
Wachs auf, Wachs ab
Es muss offensichtlich sein, dass es, während es schön wäre, wenn KI uns aus einer Aufgabe heraushalten könnte, die wenige schätzen, dies weder ein wissenschaftlicher Leitstern noch hoch in der Prioritätenliste des Computer-Vision-Forschungsbereichs ist.
Rather, der Wert der Aufgabe liegt darin, dass das, was KI-Systeme lernen müssen, um in dieser Aufgabe effizient zu werden, sie auf weit ernsterere Routinen vorbereiten würde, die gleichermaßen oder sogar noch herausfordernder sind, in der Landwirtschaft, der Industrie, dem Dienstleistungssektor und diversen anderen Bereichen.
In diesem Zusammenhang untersucht das LEGO-Puzzles-Projekt und -Datensatz, wie gut Vision-Language-Modelle (VLMs) mit mehrstufigem räumlichem Denken in einer Reihe von Architekturen umgehen, da Montageaufgaben nicht nur davon abhängen, die richtigen Objekte zur richtigen Zeit zusammenzufügen – ein Prozess, der als mating bekannt ist – sondern auch von der Befolgung von Anweisungen, die weit abstrakter sein können als die rohe visuelle Szene, die dem Modell zu jedem gegebenen Zeitpunkt zur Verfügung steht:

Herausfordernde Fragen aus dem LEGO-Puzzles-Projekt. Quelle
Das neueste Projekt, das die Herausforderung der Möbelmontage in Angriff nimmt, nutzt eine aktuellere und leistungsfähigere Generation von KI-Modellen, einschließlich Google Gemini 2.5/3.1 und OpenAI’s GPT-5 – aber erreicht immer noch keinen Sieg für KI in der Aufgabe, mit nur bescheidenen Verbesserungen gegenüber der Basis-Chance und einer Leistung, die ‘weit unter dem menschlichen Niveau’ liegt.
Die Autoren stellen fest:
‘Unsere Experimente zeigen, dass state-of-the-art-LVLMs erhebliche Schwierigkeiten bei der feinkörnigen spatio-temporalen Argumentation haben, was ihre Grenzen bei der effektiven Nutzung von temporalen Informationen aus Videos, begrenzter Verfolgungsfähigkeit und Verständnis von räumlichen Interaktionen wie physischem Kontakt hervorhebt.’
Die Probleme, die in dieser Forschungsrichtung angegangen werden, sind nur nominell mit praktischer Robotik in diesem Stadium verbunden, obwohl zusätzliche Herausforderungen sicherlich auf sie zukommen, wenn die theoretischen Fragen schließlich in verkörperte KI umgesetzt werden.
Das neue Papier trägt den Titel Flat-Pack-Bank: Bewertung der spatio-temporalen Verständnis in großen Vision-Language-Modellen durch Möbelmontage und stammt von acht Autoren aus Cornell University, Cornell Tech, MBZUAI und UC Berkeley. Das Papier wird von einer Projekt-Website begleitet.
Methode
Die Autoren der neuen Arbeit betonen die Schwierigkeit, die KI-Assistenten haben, den Montageprozess durch Beobachtung zu verstehen, zum Beispiel durch die Art von YouTube-ähnlichen Anleitungsvideos, auf die viele Menschen zurückgreifen, um von der Gemeinschaftswissen zu profitieren:

Einige der Fragen, die die Flat-Pack-Montage-Aufgabe aufwirft, zusammen mit den vier wesentlichen Fähigkeiten, die notwendig sind, um die Herausforderungen zu meistern. Quelle
Sie kuratierten einen Datensatz, der aus dem früher erwähnten IKEA-Manuals-at-Work-(IMaW)-Datensatz gefiltert wurde, der Videos von Menschen enthält, die IKEA-Möbel montieren. Der überarbeitete Benchmark schneidet die ursprünglichen Videos, um Text-anweisungskarten zu entfernen, mit getrennten Keyframe- und Vollvideo-Varianten, und fügt auch manuell annotierte visuelle Hinweise mit segmentierten Möbelteilen hinzu, um Multiple-Choice-Argumentationsaufgaben zu unterstützen.
Der Benchmark dreht sich um vier Fragearten: MATE, die Bestimmung, ob zwei Teile in der endgültigen Montage verbunden sind; TRACK, die Erfordernis, dass Modelle die korrekte Entsprechung zwischen vertauschten Teil-IDs über segmentierte Frames mithilfe des Videos selbst wiederherstellen; TOrd, die Bewertung, ob Modelle die korrekte Reihenfolge von Verbindungsevents ableiten können; und TLoc, die Überprüfung, ob Modelle Ereignisse identifizieren können, die unmittelbar vor oder nach dem Zustand auftreten, der im visuellen Hinweis gezeigt wird, was temporale Lokalisierung und Argumentation über nahegelegene Ereignisse erfordert.

Beispiele aus dem neuen Benchmark, die die vier Kern-Aufgabentypen veranschaulichen, die zur Bewertung der spatio-temporalen Argumentation in Möbelmontage-Videos konzipiert wurden: Temporale Lokalisierung; Temporale Ordnung; Verfolgung; und Mating. Jede Aufgabe kombiniert Montage-Video-Footage mit einem oder mehreren segmentierten visuellen Hinweisen und einer Multiple-Choice-Argumentationsfrage.
Die im Schema-Bild oben gezeigten Vorlagen wurden aus diesen vier Frage-Modellen abgeleitet.
Die Autoren weisen auch darauf hin, dass sie feinkörnige Teil-Montage-Annotierungen zu jedem der ursprünglichen IMaW-Videos hinzugefügt haben, die angeben, welche Teile mit welchen anderen Teilen verbunden sind – Details, die im ursprünglichen Datensatz fehlten.
Vermeidung
Die Fragen, so betont das Papier, mussten manuell kuratiert werden, da auto-generierte Fragen oft der KI die Möglichkeit geben, das Video zu ignorieren und auf ihr eigenes trainiertes Verständnis zurückzugreifen – ein Szenario, das jeder regelmäßige Benutzer von LLMs/VLMs erkennen wird, da Optimierung und andere mysteriöse Unternehmensprioritäten oft dazu führen, dass frontier-Modelle eingereichte Informationen wie PDFs oder Bilder ignorieren und auf ihr eigenes Verständnis zurückgreifen:
‘[Wir] fanden heraus, dass Auto-Generierung häufig Fragen produzierte, die durch Ignorieren des Videos und Ausnutzen von Abkürzungen beantwortet werden konnten. Beispielsweise auto-generierte Mating-Fragen über Teile, die bereits für die Verbindung positioniert waren, oder Ablenkungsoptionen mit deutlich unterschiedlichen Formen oder Farben, was eine einfache [Eliminierung] ermöglichte. Um dies zu vermeiden, kuratierten wir alle Fragen manuell unter Verwendung von festen Vorlagen.
‘Annotatoren erhielten das vollständige Montage-Video, segmentierte Frames für visuelle Hinweise, die Frage-Vorlagen und detaillierte Anweisungen zur Vermeidung von Abkürzungen auf der Grundlage von statischen Hinweisen aus dem visuellen Hinweis.’
Der fertige Benchmark umfasst 602 Multiple-Choice-Fragen über 50 verschiedene Möbelmontage-Videos.
Daten und Tests
Modelle, die für die Testrunde ausgewertet wurden, waren die oben genannten ChatGPT und Gemini-Varianten sowie Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; und Video-Refer.
GenS wurde verwendet, um fragenrelevante Frames in langen Videos für das Basis-Gemini-2.5-Pro-Modell auszuwählen, und die meisten Modelle wurden in einem One-Shot-Kontext unter gierigem Decoding (nicht unterstützt in GPT-5) getestet.
Drei Prompt-Formate wurden für den Benchmark entwickelt: das mixed-media-Prompt lieferte den visuellen Hinweis als separates Bild neben dem Montage-Video; das collage-Prompt integrierte den visuellen Hinweis direkt in jeden Video-Frame als Teil eines Raster-Layouts; und das concat-Prompt fügte die visuellen Hinweise dem Anfang des Videos vor.
Sowohl geschnittene als auch Keyframe-Video-Varianten wurden über diese Formate hinweg getestet, um zu messen, wie stark Prompt-Struktur und temporale Kompression die Modellleistung beeinflussen könnten.
Die Zufallsbaselines, die für die Tests berücksichtigt wurden, umfassten auch ‘Häufigkeits-Zufall’, bei dem die häufigste Option (anstatt einer wirklich zufälligen Option) gewählt wird.
Menschlicher Faktor
Die menschliche Leistung wurde unter Verwendung von Teilnehmern aus Computer-Science-Programmen bewertet, die von undergraduate- bis doktoralem Niveau reichten. Jeder Teilnehmer wurde ein Montage-Video, den zugehörigen visuellen Hinweis und Multiple-Choice-Frage sowie die Aufgabenanweisung gezeigt, bevor er eine Antwort wählte.
Drei Antworten wurden pro Frage gesammelt und durch Mehrheitsentscheidung aufgelöst, während auch eine separate crowd-gesourcete Studie auf einer zufällig ausgewählten Teilmenge des Benchmarks durchgeführt wurde.
Genauigkeit wurde als Metrik für die Versuche verwendet:
| Modell | Rank | Micro Avg. | TOrd | TLoc | Track | Mate |
|---|---|---|---|---|---|---|
| Menschliche Leistung | – | 94.18 | 93.54 | 93.20 | 93.77 | 97.70 |
| Zufallsbaselines | ||||||
| Zufälliger Zufall | – | 26.41 | 25.00 | 25.00 | 25.49 | 33.33 |
| Häufigkeits-Zufall | – | 26.74 | 27.74 | 30.10 | 26.46 | 36.78 |
| Proprietary-Modelle | ||||||
| GPT-5 | 1 | 37.71 | 40.65 | 53.40 | 25.68 | 49.43 |
| Gemini 2.5 Pro | 2 | 33.72 | 40.65 | 44.66 | 23.35 | 39.08 |
| Gemini 3.1 Pro | 3 | 32.89 | 34.84 | 43.69 | 21.79 | 49.43 |
| Gemini 2.5 Flash | 4 | 31.06 | 31.61 | 41.75 | 23.35 | 40.23 |
| Gemini 2.5 Pro + GenS | 5 | 25.58 | 33.55 | 32.04 | 13.23 | 40.23 |
| Offene Modelle | ||||||
| Video-LLaVA-7B | 26 | 23.75 | 21.29 | 35.92 | 10.89 | 51.72 |
| InternVL3-14B | 5 | 37.71 | 42.58 | 21.36 | 37.74 | 48.28 |
| InternVL3-38B | 12 | 36.05 | 42.58 | 37.86 | 25.68 | 52.87 |
| InternVL3-78B | 1 | 41.03 | 43.87 | 39.81 | 42.02 | 34.48 |
| Qwen2.5-VL-7B | 22 | 30.23 | 27.10 | 18.45 | 33.07 | 41.38 |
| Qwen2.5-VL-32B | 13 | 35.88 | 34.84 | 29.13 | 33.07 | 54.02 |
| Qwen2.5-VL-72B | 2 | 40.37 | 41.29 | 30.10 | 45.14 | 36.78 |
| Qwen3-VL-4B | 11 | 36.54 | 34.19 | 33.01 | 32.68 | 56.32 |
| Qwen3-VL-4B-Think | 9 | 37.21 | 31.61 | 25.24 | 37.74 | 59.77 |
| Qwen3-VL-8B | 15 | 33.72 | 36.13 | 30.10 | 33.85 | 33.33 |
| Qwen3-VL-8B-Think | 17 | 31.73 | 34.19 | 33.01 | 25.29 | 44.83 |
| Qwen3-VL-32B | 6 | 37.71 | 38.71 | 46.60 | 31.91 | 42.53 |
| Qwen3-VL-32B-Think | 3 | 40.03 | 38.71 | 22.33 | 45.53 | 47.13 |
| Qwen3-VL-30B-A3B | 10 | 36.71 | 30.32 | 22.33 | 42.02 | 49.43 |
| Qwen3-VL-235B-A22B | 8 | 37.21 | 37.42 | 25.24 | 39.69 | 43.68 |
| LLaVA-NeXT-Vid-7B | 25 | 25.08 | 33.55 | 24.27 | 16.73 | 35.63 |
| LLaVA-NeXT-Vid-34B | 21 | 30.40 | 30.32 | 24.27 | 32.68 | 31.03 |
| LlaVA-OneVision-7B | 16 | 32.89 | 26.45 | 30.10 | 34.24 | 43.68 |
| LlaVA-OneVision-72B | 4 | 38.37 | 35.48 | 25.24 | 38.91 | 57.47 |
| LLaVA-Video-7B | 19 | 30.73 | 30.97 | 24.27 | 25.68 | 52.87 |
| LLaVA-Video-72B | 7 | 37.54 | 36.77 | 27.18 | 35.80 | 56.32 |
| Perception-LM-1B | 24 | 27.74 | 28.39 | 26.21 | 25.29 | 35.63 |
| Perception-LM-3B | 18 | 31.40 | 28.39 | 32.04 | 29.96 | 40.23 |
| Perception-LM-8B | 14 | 35.38 | 26.45 | 26.21 | 44.75 | 34.48 |
| VideoRefer | 23 | 28.57 | 32.90 | 30.10 | 17.51 | 51.72 |
| ArrowRL-7B | 20 | 30.56 | 30.97 | 24.27 | 29.18 | 41.38 |
Leistungs-Ergebnisse auf FLAT-PACK BENCH, die proprietäre und offene multimodale Modelle über Temporale Ordnung (TOrd), Temporale Lokalisierung (TLoc), Verfolgung und Mating-Aufgaben vergleichen, wobei die menschliche Leistung immer noch weit vor allen getesteten Systemen liegt, trotz bescheidener Gewinne unter den größeren frontier-Modellen.
Wie in den anfänglichen Tests (Bild oben) zu sehen ist, erzielten Menschen in allen Kategorien von Fragen >90% und 80% Einigkeit, was, so behauptet das Papier, darauf hindeutet, dass die Propositionen gut formuliert und unmissverständlich sind.
GPT-5 und Gemini 2.5/3.1 Pro kämpften auf dem Datensatz, erzielten nur bescheidene Verbesserungen gegenüber der Zufalls-Baseline und blieben weit unter der menschlichen Leistung. Die Verwendung von GenS, um fragenrelevante Frames auszuwählen, verbesserte die Ergebnisse von Gemini 2.5 Pro nicht, was die Autoren zu dem Schluss führte, dass proprietäre LVLMs mit der Aufgabe der spatio-temporalen Verständnis, die der Benchmark erfordert, zu kämpfen haben.
Unter den offenen Systemen kamen die stärksten Ergebnisse aus den InternVL3- und Qwen-Familien, obwohl die Leistung in dieser Kategorie stark variierte; und spezialisierte Systeme, einschließlich PerceptionLM und VideoRefer, kämpften ebenfalls auf dem Benchmarks komplexen Montage-Aufgaben, wobei menschliche Teilnehmer in jeder Modell-Kategorie deutlich in Führung blieben.
Die Forscher testeten auch zwei Chain-of-Thought-Prompting-Strategien gegen die Standard-Prompting-Einrichtung des Papiers. Zero-Shot-Chain-of-Thought-Prompting forderte Modelle auf, ihre Antworten schrittweise zu erklären, während Selbstkonsistenz mit Chain-of-Thought fünf Kandidaten-Antworten generierte, bevor eine endgültige Antwort durch Mehrheitsentscheidung ausgewählt wurde. Allerdings verbesserten beide Ansätze die Ergebnisse auf dem Flat Pack Bench-Datensatz nicht, mit beiden Ansätzen, die unter der Standard-Prompting-Konfiguration des Benchmarks lagen.
Cheat Code
Um zu testen, ob LVLMs tatsächlich aus den Montage-Videos lernen oder nur statische visuelle Hinweise ausnutzen, erstellten die Forscher eine Bild-only-Version des Benchmarks, die das Video vollständig wegließ und nur den Frage-Text und visuelle Hinweise beibehielt.
Die menschliche Leistung brach unter diesen Bedingungen um mehr als 50% ein, was zeigt, dass die Aufgaben tatsächlich temporales Verständnis des Montageprozesses erfordern. Die Modelle hingegen verschlechterten sich nicht so stark, mit einigen Aufgaben, die stabil blieben oder sogar verbessert wurden, ohne Video-Eingabe.
Dies deutet darauf hin, so schlägt das Papier vor, dass viele LVLMs die temporalen Informationen in den Videos überhaupt nicht sinnvoll nutzen, sondern stattdessen auf bildbasierte Abkürzungen und Alltagsannahmen zurückgreifen, um plausible Antworten abzuleiten*:

Leistung der LVLM auf der Bild-only-Version von Flat-Pack Bench, verglichen mit der Standard-Video-Plus-Bild-Konfiguration, mit zusätzlichen Ergebnissen nach dem Shuffeln von Teil-IDs, um zu testen, ob Modelle Label-Reihenfolge-Abkürzungen anstelle von temporaler Video-Verständnis ausnutzen.
‘[Das Bild oben] zeigt die Leistung der LVLM auf dieser Bild-only-Version und die Änderung ihrer Leistung im Vergleich zur vollständigen Bewertung, zusammen mit der menschlichen Leistung.
‘Der starke Rückgang der menschlichen Leistung (>50%) zeigt, dass die Fragen tatsächlich Videos erfordern, um beantwortet zu werden.
‘Wir beobachten auch, dass die Gesamtleistung des Modells stark abfällt (8,80%), aber hauptsächlich aufgrund der TRACK-Teilaufgabe. Die Genauigkeit bei anderen Aufgaben bleibt gleich oder verbessert sich, was darauf hindeutet, dass die LVLM das Video nicht effektiv nutzt, während Menschen das Video verwenden, um zu antworten.’
Die tiefere Analyse des Papiers legt nahe, dass das Haupt-Hindernis nicht nur die einfache temporale Sequenzierung allein ist, sondern Versagen bei der Objekt-Verankerung und spatio-temporaler Argumentation: Modelle kämpften oft darum, visuell ähnliche Möbelteile über Bewegung, Kamera-Wechsel und Szenen-Wechsel zu verfolgen, selbst wenn sie den breiteren Montage-Prozess korrekt identifizierten.
Weitere Experimente beinhalteten die Freigabe eines tool-laden Agentic-AI auf die Aufgabe, und diese ‘führte schlecht’ aus, wie die Autoren feststellten – obwohl sie in der Lage war, zusätzlich 11,48% der Fragen richtig zu beantworten, die von den anderen Ansätzen verpasst wurden.
Schlussfolgerung
Das Beibehalten von persistenten Internalisierungen von Konzepten und Objekten ist zentral für die menschliche Erfahrung von Wachstum und perzeptueller Entwicklung und in individuellen, oft neuen Aufgaben, für die diese Entwicklung sie vorbereitet hat.
Computer-Vision-Forschung hat bereits eine laufende Herausforderung, Objekte und Menschen, die das Bild verlassen und wieder betreten, wiederzuerlangen und erneut zu erkennen. Diese Probleme werden erheblich verstärkt durch die Notwendigkeit, ständig die Sicht und Haltung zu ändern – wie es in einem YouTube-Anleitungsvideo über die Montage von Möbeln im Flachpack-Format der Fall sein kann. Man kann sich die Auswirkungen vorstellen, die die noch schockierenderen POV-Wechsel eines egozentrischen Videos auf die Versuche von KI, Möbel zu montieren, haben könnten.
* Die ursprüngliche Formatierung der Autoren, geändert von mir, um den Einfluss unter Quote-Formatierung beizubehalten/
Erstveröffentlicht am Montag, dem 25. Mai 2026. Geändert am Mittwoch, dem 27. Mai 2026, um diese Datumsangabe zu korrigieren (!).












