Ângulo de Anderson

A Inteligência Artificial É Significativamente Pior do que os Humanos na Montagem de Móveis

mm
AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

O ChatGPT e o Google Gemini ainda não conseguem entender de forma confiável os vídeos de montagem da IKEA, com muitos outros sistemas de IA proeminentes confundindo peças, perdendo conexões e mal utilizando o vídeo em si para descobrir o que está acontecendo.

 

A duradoura meme cultural em torno da dificuldade de montar móveis do estilo da IKEA torna o assunto um alvo atraente para a pesquisa de visão computacional — não menos porque as longas sequências de ações, rastreamento de objetos e raciocínio espacial envolvidos tenderão a impulsionar os sistemas de manipulação robótica muito além das formas simplificadas e ambientes controlados aos quais eles estão acostumados.

Portanto, o trabalho sobre rotinas de montagem de móveis automatizadas por IA para móveis de embalagem plana se tornou um ramo pequeno, mas respeitável, na literatura, com saídas como o Ambiente de Montagem de Móveis da IKEA da USC em 2019, entre os primeiros conjuntos de dados e contextos de pesquisa específicamente direcionados à montagem de móveis:

Clique para reproduzir Exemplos de prática de montagem robótica, do site do projeto da iniciativa Ambiente de Montagem de Móveis da IKEA de 2019. Fonte

Em 2024, a colaboração entre a Stanford e o J.P. Morgan Manuais da IKEA no Trabalho foi a primeira a investigar significativamente a capacidade da IA de realizar esse procedimento aparentemente mundano (se muitas vezes frustrante), com base em um conjunto de dados novo de imagens de manuais de instruções e utilizando vídeos instrutivos:

Método e detalhes do conjunto de dados da iniciativa Manuais da IKEA no Trabalho de 2024. Fonte - https://arxiv.org/abs/2411.11409

Método e detalhes do conjunto de dados da iniciativa Manuais da IKEA no Trabalho de 2024. Fonte

Os autores do artigo de 2024 — que utilizou DGCNN, CNOS, SAM-6D, MegaPose, MiDaS, SAM2 Hiera-L, Cutie-base, e GPT-4o — concluíram que a tarefa apresentou ‘desafios significativos na fundamentação de vídeos de montagem instrutiva, incluindo a extração de segmentações de peças e poses, a construção de planos de montagem de alto nível e a detecção de etapas de montagem-chave em vídeos’.

Wax On, Wax Off

Deve ser óbvio que, embora seja bom automatizar uma tarefa que poucas pessoas apreciam, não é um farol científico, ou alto em uma lista de prioridades para o setor de pesquisa de Visão Computacional.

Em vez disso, o valor da tarefa reside no fato de que o que os sistemas de IA precisam aprender para se tornarem proficientes nisso os fundamentaria para rotinas muito mais sérias que são igualmente ou ainda mais desafiadoras, na agricultura, indústria, setor de serviços e diversas outras esferas.

Nesse sentido, o projeto LEGO-Puzzles e conjunto de dados examina como os Modelos de Linguagem de Visão (VLMs) lidam com o raciocínio espacial de múltiplos passos em uma variedade de arquiteturas, uma vez que as tarefas de montagem dependem não apenas de emparelhar os objetos corretos juntos no momento correto — um processo conhecido como emparelhamento — mas também de seguir instruções que podem ser muito mais abstratas do que a cena visual bruta disponível ao modelo a qualquer passo:

Perguntas desafiadoras do projeto LEGO-Puzzles. Fonte - https://tangkexian.github.io/LEGO-Puzzles/

Perguntas desafiadoras do projeto LEGO-Puzzles. Fonte

O projeto mais recente a abordar o desafio da montagem de móveis explora uma safra mais atual e capaz de modelos de IA, incluindo o Google Gemini 2.5/3.1 e o OpenAI GPT-5 — mas ainda não consegue obter uma vitória para a IA na tarefa, com apenas melhorias modestas em relação à chance basal, e desempenho ‘muito abaixo dos níveis humanos’.

Os autores afirmam:

‘Nossos experimentos revelam que os LVLMs de ponta lutam significativamente com o raciocínio espacial-temporal de granularidade fina, destacando suas limitações na utilização eficaz da informação temporal dos vídeos, capacidade de rastreamento limitada e compreensão de interações espaciais como contato físico.’

Os problemas abordados nessa linha de pesquisa são apenas nominalmente relacionados à robótica prática nesse estágio, embora desafios adicionais certamente sejam uma perspectiva quando os problemas teóricos finalmente evoluem para IA incorporada.

O novo artigo é intitulado Banco de Montagem de Móveis Plana: Avaliando a Compreensão Espacial-Temporal em Grandes Modelos de Visão-Linguagem por meio da Montagem de Móveis, e vem de oito autores de Cornell University, Cornell Tech, MBZUAI e UC Berkeley. O artigo é acompanhado por um site do projeto.

Método

Os autores do novo trabalho enfatizam a dificuldade que os assistentes de IA têm em entender o processo de montagem por meio da observação, por exemplo, por meio do tipo de vídeo instrutivo do YouTube que muitas pessoas usam para se beneficiar do conhecimento da comunidade:

Algumas das perguntas que a tarefa de montagem de móveis plena provoca, juntamente com as quatro habilidades essenciais necessárias para superar os desafios. Fonte - https://arxiv.org/pdf/2605.21625

Algumas das perguntas que a tarefa de montagem de móveis plena provoca, juntamente com as quatro habilidades essenciais necessárias para superar os desafios. Fonte

Eles curaram um conjunto de dados filtrado do conjunto de dados anteriormente mencionado IKEA-Manuals-at-Work (IMaW) conjunto de dados, que apresenta vídeos in-the-wild de pessoas montando móveis da IKEA. O benchmark revisado corta os vídeos originais para remover cartões de instrução de texto, com variantes de chave-quadro e vídeo completo fornecidas separadamente, e também adiciona prompts visuais anotados manualmente com peças de móveis segmentadas, para apoiar tarefas de raciocínio de múltipla escolha.

O benchmark gira em torno de quatro tipos de perguntas: EMPARALHAR, determinando se duas peças estão conectadas na montagem final; RASTREAR, exigindo que os modelos recuperem a correspondência correta entre IDs de peças embaralhadas em quadros segmentados usando o vídeo em si; TORD, avaliando se os modelos podem inferir a ordem correta de eventos de conexão; e TLOC, testando se os modelos podem identificar eventos ocorrendo imediatamente antes ou depois do estado mostrado no prompt visual, exigindo localização temporal e raciocínio sobre eventos próximos.

Exemplos do novo benchmark, ilustrando os quatro tipos de tarefas centrais projetados para testar o raciocínio espacial-temporal em vídeos de montagem de móveis: Localização Temporal; Ordem Temporal; Rastreamento; e Emparelhamento. Cada tarefa combina footage de montagem de vídeo com um ou mais prompts visuais segmentados e uma pergunta de raciocínio de múltipla escolha.

Exemplos do novo benchmark, ilustrando os quatro tipos de tarefas centrais projetados para testar o raciocínio espacial-temporal em vídeos de montagem de móveis: Localização Temporal; Ordem Temporal; Rastreamento; e Emparelhamento. Cada tarefa combina footage de montagem de vídeo com um ou mais prompts visuais segmentados e uma pergunta de raciocínio de múltipla escolha.

Os modelos mostrados na imagem do esquema acima foram derivados desses quatro modelos de pergunta.

Os autores também observam que adicionaram anotações de montagem de peças de granularidade fina a cada um dos vídeos IMaW originais, especificando quais peças se conectam a quais outras peças — detalhes ausentes na coleção original.

Evasão

As perguntas, o artigo observa, precisavam ser curadas manualmente, pois perguntas auto-geradas frequentemente dão à IA a oportunidade de ignorar o vídeo e se referir à sua própria compreensão treinada — um cenário que qualquer usuário regular de LLMs/VLMs provavelmente reconhecerá, pois otimização e outras prioridades corporativas misteriosas frequentemente causam modelos de ponta a ignorar informações submetidas, como PDFs ou imagens, e confiar em sua própria compreensão em vez disso*:

‘[Nós] descobrimos que a geração automática frequentemente produziu perguntas que poderiam ser respondidas ignorando o vídeo e explorando atalhos. Por exemplo, perguntas de emparelhamento auto-geradas sobre peças já posicionadas para conexão, ou incluíram opções de distração com formas ou cores claramente distintas, permitindo fácil [eliminação]. Para resolver isso, curamos todas as perguntas manualmente usando modelos de pergunta fixos.

‘Os anotadores receberam o vídeo de montagem completo, quadros segmentados para prompts visuais, os modelos de pergunta e diretrizes detalhadas para evitar atalhos com base em pistas estáticas do prompt visual.’

O benchmark concluído compreende 602 perguntas de múltipla escolha em 50 vídeos de montagem de móveis variados.

Dados e Testes

Os modelos avaliados para a rodada de testes foram os mencionados anteriormente ChatGPT e variantes Gemini, bem como Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; e Video-Refer.

GenS foi usado para escolher quadros relevantes para perguntas em vídeos longos para o modelo Gemini 2.5 Pro base, e a maioria dos modelos foi testada em um contexto de um tiro sob decodificação gananciosa (não suportada no GPT-5, no entanto).

Três formatos de prompt foram projetados para o benchmark: o prompt midia mista forneceu o prompt visual como uma imagem separada ao lado do vídeo de montagem; o prompt colagem incorporou o prompt visual diretamente em cada quadro do vídeo como parte de uma estrutura de grade; e o prompt concat prefixou os prompts visuais ao início do vídeo.

Variantes de vídeo cortadas e de chave-quadro foram testadas em todos os formatos, a fim de medir como a estrutura do prompt e a compressão temporal poderiam afetar o desempenho do modelo.

As linhas de base de chance consideradas para os testes também incluíram ‘chance de frequência’, onde a opção mais comum (em vez de uma opção realmente aleatória) é escolhida.

Human Factor

O desempenho humano foi avaliado usando participantes retirados de programas de ciência da computação, variando de nível de graduação a nível de doutorado. Cada participante foi apresentado a um vídeo de montagem, e o prompt visual e pergunta de múltipla escolha associados, bem como as instruções da tarefa, antes de escolher uma resposta.

Três respostas foram coletadas por pergunta e resolvidas por votação de maioria, enquanto um estudo de crowdsourcing separado também foi realizado em um subconjunto aleatório do benchmark.

A precisão foi usada como a métrica para os testes:

Modelo Rank Média Micro TOrd TLoc Rastreamento Emparelhamento
Desempenho Humano 94.18 93.54 93.20 93.77 97.70
Linhas de Base de Chance
Chance Aleatória 26.41 25.00 25.00 25.49 33.33
Chance de Frequência 26.74 27.74 30.10 26.46 36.78
Modelos Proprietários
GPT-5 1 37.71 40.65 53.40 25.68 49.43
Gemini 2.5 Pro 2 33.72 40.65 44.66 23.35 39.08
Gemini 3.1 Pro 3 32.89 34.84 43.69 21.79 49.43
Gemini 2.5 Flash 4 31.06 31.61 41.75 23.35 40.23
Gemini 2.5 Pro + GenS 5 25.58 33.55 32.04 13.23 40.23
Modelos Abertos
Video-LLaVA-7B 26 23.75 21.29 35.92 10.89 51.72
InternVL3-14B 5 37.71 42.58 21.36 37.74 48.28
InternVL3-38B 12 36.05 42.58 37.86 25.68 52.87
InternVL3-78B 1 41.03 43.87 39.81 42.02 34.48
Qwen2.5-VL-7B 22 30.23 27.10 18.45 33.07 41.38
Qwen2.5-VL-32B 13 35.88 34.84 29.13 33.07 54.02
Qwen2.5-VL-72B 2 40.37 41.29 30.10 45.14 36.78
Qwen3-VL-4B 11 36.54 34.19 33.01 32.68 56.32
Qwen3-VL-4B-Think 9 37.21 31.61 25.24 37.74 59.77
Qwen3-VL-8B 15 33.72 36.13 30.10 33.85 33.33
Qwen3-VL-8B-Think 17 31.73 34.19 33.01 25.29 44.83
Qwen3-VL-32B 6 37.71 38.71 46.60 31.91 42.53
Qwen3-VL-32B-Think 3 40.03 38.71 22.33 45.53 47.13
Qwen3-VL-30B-A3B 10 36.71 30.32 22.33 42.02 49.43
Qwen3-VL-235B-A22B 8 37.21 37.42 25.24 39.69 43.68
LLaVA-NeXT-Vid-7B 25 25.08 33.55 24.27 16.73 35.63
LLaVA-NeXT-Vid-34B 21 30.40 30.32 24.27 32.68 31.03
LlaVA-OneVision-7B 16 32.89 26.45 30.10 34.24 43.68
LlaVA-OneVision-72B 4 38.37 35.48 25.24 38.91 57.47
LLaVA-Video-7B 19 30.73 30.97 24.27 25.68 52.87
LLaVA-Video-72B 7 37.54 36.77 27.18 35.80 56.32
Perception-LM-1B 24 27.74 28.39 26.21 25.29 35.63
Perception-LM-3B 18 31.40 28.39 32.04 29.96 40.23
Perception-LM-8B 14 35.38 26.45 26.21 44.75 34.48
VideoRefer 23 28.57 32.90 30.10 17.51 51.72
ArrowRL-7B 20 30.56 30.97 24.27 29.18 41.38

Resultados de desempenho no FLAT-PACK BENCH, comparando modelos multimodais proprietários e abertos em tarefas de Ordem Temporal (TOrd), Localização Temporal (TLoc), Rastreamento e Emparelhamento, com desempenho humano permanecendo muito à frente de todos os sistemas testados, apesar de ganhos modestos entre os modelos de ponta maiores.

Como visto nos testes iniciais (imagem acima), os humanos pontuaram >90% em todas as categorias de perguntas, com 80% de unanimidade, sugerindo, afirma o artigo, que as proposições estão bem formuladas e inequívocas.

O GPT-5 e o Gemini 2.5/3.1 Pro lutaram no conjunto de dados, alcançando apenas melhorias modestas em relação à linha de base de chance, e permaneceram muito abaixo do desempenho humano. Usar o GenS para selecionar quadros relevantes para perguntas não melhorou os resultados do Gemini 2.5 Pro, levando os autores a concluir que os LVLMs proprietários lutam com a tarefa de compreensão espacial-temporal exigida pelo benchmark.

Entre os sistemas abertos, os resultados mais fortes vieram das famílias InternVL3 e Qwen, embora o desempenho em toda a categoria tenha variado fortemente, com vários modelos mal superando a chance; e sistemas especializados, incluindo PerceptionLM e VideoRefer, também lutaram no benchmark de tarefas de montagem complexas, com os participantes humanos permanecendo significativamente à frente em cada categoria de modelo.

Os pesquisadores também testaram duas estratégias de prompting de cadeia de pensamento contra a configuração de prompting padrão do artigo. Zero-shot Chain-of-Thought prompting pediu aos modelos que explicassem suas respostas passo a passo, enquanto Autoconsistência com Chain-of-Thought gerou cinco respostas candidatas antes de selecionar uma resposta final por votação de maioria. No entanto, nenhuma delas melhorou os resultados no conjunto de dados Flat Pack Bench, com ambas as abordagens pontuando abaixo da configuração de prompting padrão do benchmark.

Cheat Code

Para testar se os LVLMs estavam realmente aprendendo com os vídeos de montagem, ou apenas explorando atalhos visuais estáticos, os pesquisadores criaram uma versão de imagem apenas do benchmark, que omitiu o vídeo inteiramente, restando apenas o texto da pergunta e os prompts visuais.

O desempenho humano colapsou em mais de 50% sob essas condições, mostrando que as tarefas realmente exigiam compreensão temporal do processo de montagem. Os modelos, no entanto, degradaram-se muito menos severamente, com algumas tarefas permanecendo estáveis ou até melhorando sem entrada de vídeo.

Isso indica, sugere o artigo, que muitos LVLMs não estavam usando significativamente as informações temporais nos vídeos de forma alguma, em vez disso, confiando em atalhos baseados em imagens e suposições de senso comum para inferir respostas plausíveis*:

Desempenho do LVLM na versão de imagem apenas do Flat-Pack Bench, comparado ao setup de vídeo mais imagem padrão, com resultados adicionais após embaralhar IDs de peças para testar se os modelos estavam explorando atalhos de ordem de rótulo em vez de compreensão de vídeo temporal.

Desempenho do LVLM na versão de imagem apenas do Flat-Pack Bench, comparado ao setup de vídeo mais imagem padrão, com resultados adicionais após embaralhar IDs de peças para testar se os modelos estavam explorando atalhos de ordem de rótulo em vez de compreensão de vídeo temporal.

‘[A imagem acima] mostra o desempenho do LVLM nessa versão de imagem apenas, e a mudança em seu desempenho a partir da avaliação completa, juntamente com o desempenho humano.

‘A queda acentuada no desempenho humano (>50%) mostra que as perguntas realmente exigem vídeos para serem respondidas.

‘Também observamos que o desempenho geral do modelo cai severamente (8,80%), mas principalmente devido à tarefa de RASTREAMENTO. A precisão em outras tarefas permanece a mesma ou melhora, indicando que o LVLM não usa o vídeo de forma eficaz, enquanto os humanos usam o vídeo para responder.’

A análise mais profunda do artigo sugere que o principal obstáculo não é apenas a sequência temporal simples, mas falhas na fundamentação de objetos e raciocínio espacial-temporal: os modelos frequentemente lutaram para manter o rastreamento de peças de móveis visualmente semelhantes em movimento, mudanças de câmera e mudanças de cena, mesmo quando pareciam identificar o processo de montagem mais amplo corretamente.

Experimentos adicionais envolveram soltar um agente de IA equipado com ferramentas na tarefa, e isso ‘se saiu mal’ de acordo com os autores — embora tenha conseguido responder corretamente a mais 11,48% das perguntas perdidas pelas outras abordagens.

Conclusão

Manter internalizações persistentes de conceitos e objetos é central tanto para a experiência humana de crescimento e desenvolvimento perceptual quanto para tarefas individuais, frequentemente novas, para as quais esse desenvolvimento os preparou.

A pesquisa de Visão Computacional já tem uma luta contínua para reacquirir e re-reconhecer objetos e pessoas que saem e reentram no quadro. Esses problemas são significativamente magnificados com a necessidade de constantemente alterar visão e postura — como provavelmente ocorrerá em um vídeo instrutivo do YouTube sobre montagem de móveis de embalagem plana. É possível imaginar a extensão com que as mudanças de POV ainda mais perturbadoras de um vídeo egocêntrico poderiam confundir ainda mais as tentativas de IA de montagem de móveis.

 

* Os autores preservaram o formato original, alterado por mim conforme necessário para manter o impacto sob formatação de citação/

Publicado pela primeira vez na segunda-feira, 25 de maio de 2026. Alterado na quarta-feira, 27 de maio de 2026, para corrigir essa atribuição de data (!).

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.