Anderson 视角

人工智能在组装家具方面远远不如人类

mm
AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

ChatGPT 和 Google Gemini 等模型仍然无法可靠地理解 IKEA 组装视频,许多其他著名的 AI 系统会混淆零件、遗漏连接,并且几乎不使用视频本身来弄清楚发生了什么。

 

围绕组装 IKEA 风格的平板家具的难度的持久的文化迷因使得这个主题成为计算机视觉研究的有吸引力的目标——尤其是因为其中涉及的长序列的动作、对象跟踪和空间推理往往会将机器人操作系统推向它们习惯的简化形状和受控环境的极限。

因此,AI 驱动的机器人组装程序对于平板家具的研究已经成为文献中一个小但受尊敬的分支,其中包括 2019 年的 USC 的 IKEA 家具组装环境,这是专门针对家具组装的第一个基准数据集和研究背景之一。

点击播放 项目网站上的机器人组装练习示例,来自 2019 年 IKEA 家具组装环境计划。 来源

2024 年,斯坦福/摩根大通合作的 IKEA 手册在工作中 是第一个显著探索 AI 能力执行此类看似平凡(但常常令人沮丧)的程序的研究,基于来自说明书的图像数据集,并使用说明视频。

来自 2024 年 IKEA 手册在工作中的数据集方法和详细信息。 来源 - https://arxiv.org/abs/2411.11409

来自 2024 年 IKEA 手册在工作中的数据集方法和详细信息。 来源

2024 年论文的作者——利用 DGCNNCNOSSAM-6DMegaPoseMiDaSSAM2 Hiera-LCutie-baseGPT-4o——得出结论,该任务带来了“在理解指令视频方面的重大挑战,包括提取零件分割和姿势、构建高级组装计划和检测视频中的关键组装步骤”。

涂上,擦掉

必须很明显,虽然让 AI 自动完成我们不太喜欢的任务很好,但这并不是科学的指南针,也不是计算机视觉研究部门的优先事项。

相反,这项任务的价值在于,AI 系统需要学习的东西,以便在这方面变得熟练,这将使他们为更严肃的例行程序做好准备,这些程序同样具有挑战性,在农业、工业、服务行业和其他领域。

在这一方面,LEGO-Puzzles 项目和数据集 检查了视觉语言模型(VLMs)如何处理多步骤空间推理,跨越各种架构,因为组装任务不仅取决于将正确的对象在正确的时刻配对在一起——一个称为 配对 的过程——还取决于遵循可能比模型在任何给定步骤可用的原始视觉场景更抽象的指令。

来自 LEGO-Puzzles 项目的具有挑战性的问题。 来源 - https://tangkexian.github.io/LEGO-Puzzles/

来自 LEGO-Puzzles 项目的具有挑战性的问题。 来源

最新的项目采用更当前、更有能力的 AI 模型,包括 Google Gemini 2.5/3.1 和 OpenAI 的 GPT-5,但仍然无法获得 AI 在该任务中的胜利,只有基线机会的微小改进,性能“远低于人类水平”。

作者指出:

‘我们的实验表明,目前最先进的 LVLMs 在细致的时空推理方面存在显著困难,突出了它们在有效利用视频的时间信息、有限的跟踪能力和对空间交互作用(如物理接触)的理解方面的局限性。’

目前正在解决的这些问题与实际机器人仅在理论上相关,尽管当这些理论问题最终演变成具身 AI 时,可能会出现更多挑战。

新论文题为 平板家具台:通过家具组装评估大型视觉语言模型的时空理解,来自康奈尔大学、康奈尔科技、MBZUAI 和加州大学伯克利分校的八位作者。该论文附有一个 项目网站

方法

新工作的作者强调了 AI 助手在观察过程中理解组装过程的困难,例如通过 YouTube 风格的说明视频,这是许多人为了利用社区知识而使用的。

平板家具组装任务引发的一些问题,以及克服挑战所需的四项基本技能。 来源 - https://arxiv.org/pdf/2605.21625

平板家具组装任务引发的一些问题,以及克服挑战所需的四项基本技能。 来源

他们从早期提到的 IKEA-Manuals-at-Work(IMaW)数据集中筛选了一个数据集,该数据集包含人们组装 IKEA 家具的野外视频。修订后的基准数据集从原始视频中删除了仅包含文本的说明卡,并提供了单独的关键帧和完整视频变体,以及手动注释的视觉提示,具有分割的家具零件,以支持多选推理任务。

基准数据集围绕四种类型的问题:配对,确定两个零件是否在最终组装中连接;跟踪,要求模型使用视频本身恢复跨分割帧的乱序零件 ID 之间的正确对应关系;时间排序,评估模型是否可以推断连接事件的正确顺序;以及 时间定位,测试模型是否可以识别在视觉提示显示的状态之前或之后发生的事件,需要时间定位和对附近事件的推理。

新基准数据集的示例,展示了为测试家具组装视频中的时空推理而设计的四种核心任务类型:时间定位;时间排序;跟踪;和配对。每个任务都将组装视频与一个或多个分割标记的视觉提示和多选推理问题相结合。

新基准数据集的示例,展示了为测试家具组装视频中的时空推理而设计的四种核心任务类型:时间定位;时间排序;跟踪;和配对。每个任务都将组装视频与一个或多个分割标记的视觉提示和多选推理问题相结合。

上述图表中的模板是从这四种问题模型中推导出来的。

作者还指出,他们向原始 IMaW 视频中的每一个添加了细致的零件组装注释,指定了哪些零件连接到哪些其他零件——这是原始集合中缺失的细节。

规避

论文指出,问题需要手动策划,因为自动生成的问题通常会给 AI 提供机会来忽略视频并利用其自身的训练理解——这是任何经常使用 LLMs/VLMs 的常规用户都可能认识到的情景,因为优化和其他神秘的企业优先事项经常导致前沿模型忽略提交的信息,例如 PDF 或图像,并依赖于其自身的理解。

‘我们发现自动生成的问题经常会产生可以通过忽略视频和利用捷径来回答的问题。例如,自动生成的 配对 问题关于已经为连接而定位的零件,或者包含具有明显不同的形状或颜色的干扰选项,使得排除变得容易。为了解决这个问题,我们使用固定模板手动策划了所有问题。’

‘注释器被提供了完整的组装视频、分割标记的帧用于视觉提示、问题模板和详细的指南,以避免基于视觉提示的静态提示的捷径。’

完成的基准数据集包含 50 个不同家具组装视频中的 602 个多选题。

数据和测试

用于测试的模型包括上述的 ChatGPT 和 Gemini 变体,以及 Video-LLaVALLaVA-NeXT-VidLLaVA-OneVisionLLaVA-VideoQwen 2.5/Qwen 3-VLInternVL3ArrowRLPerceptionLM;和 Video-Refer

GenS 用于选择长视频中与问题相关的帧,用于基准 Gemini 2.5 Pro 模型,大多数模型都在 一-shot 上下文中进行了测试,使用 贪婪解码(在 GPT-5 中不受支持).

为基准数据集设计了三种提示格式:混合媒体 提示将视觉提示作为单独的图像与组装视频一起提供;拼贴 提示将视觉提示直接嵌入到每个视频帧中作为网格布局的一部分;以及 连接 提示将视觉提示添加到视频的开始处。

在这些格式中,测试了修剪和关键帧视频变体,以衡量提示结构和时间压缩如何影响模型性能。

考虑的基准机会包括“频率机会”,其中选择最常见的选项(而不是真正的随机选项)。

人类因素

人类的表现是使用来自计算机科学项目的参与者评估的,范围从本科到博士水平。每个参与者都会看到一个组装视频、相关的视觉提示和多选题,以及任务说明,然后选择一个答案。

每个问题收集了三个响应,并通过多数投票解决,同时还进行了一项针对基准数据集的随机采样子集的众包研究。

准确性 用作试验的指标:

模型 排名 微观平均值 时间排序 时间定位 跟踪 配对
人类表现 94.18 93.54 93.20 93.77 97.70
机会基准
随机机会 26.41 25.00 25.00 25.49 33.33
频率机会 26.74 27.74 30.10 26.46 36.78
专有模型
GPT-5 1 37.71 40.65 53.40 25.68 49.43
Gemini 2.5 Pro 2 33.72 40.65 44.66 23.35 39.08
Gemini 3.1 Pro 3 32.89 34.84 43.69 21.79 49.43
Gemini 2.5 Flash 4 31.06 31.61 41.75 23.35 40.23
Gemini 2.5 Pro + GenS 5 25.58 33.55 32.04 13.23 40.23
开源模型
Video-LLaVA-7B 26 23.75 21.29 35.92 10.89 51.72
InternVL3-14B 5 37.71 42.58 21.36 37.74 48.28
InternVL3-38B 12 36.05 42.58 37.86 25.68 52.87
InternVL3-78B 1 41.03 43.87 39.81 42.02 34.48
Qwen2.5-VL-7B 22 30.23 27.10 18.45 33.07 41.38
Qwen2.5-VL-32B 13 35.88 34.84 29.13 33.07 54.02
Qwen2.5-VL-72B 2 40.37 41.29 30.10 45.14 36.78
Qwen3-VL-4B 11 36.54 34.19 33.01 32.68 56.32
Qwen3-VL-4B-Think 9 37.21 31.61 25.24 37.74 59.77
Qwen3-VL-8B 15 33.72 36.13 30.10 33.85 33.33
Qwen3-VL-8B-Think 17 31.73 34.19 33.01 25.29 44.83
Qwen3-VL-32B 6 37.71 38.71 46.60 31.91 42.53
Qwen3-VL-32B-Think 3 40.03 38.71 22.33 45.53 47.13
Qwen3-VL-30B-A3B 10 36.71 30.32 22.33 42.02 49.43
Qwen3-VL-235B-A22B 8 37.21 37.42 25.24 39.69 43.68
LLaVA-NeXT-Vid-7B 25 25.08 33.55 24.27 16.73 35.63
LLaVA-NeXT-Vid-34B 21 30.40 30.32 24.27 32.68 31.03
LlaVA-OneVision-7B 16 32.89 26.45 30.10 34.24 43.68
LlaVA-OneVision-72B 4 38.37 35.48 25.24 38.91 57.47
LLaVA-Video-7B 19 30.73 30.97 24.27 25.68 52.87
LLaVA-Video-72B 7 37.54 36.77 27.18 35.80 56.32
Perception-LM-1B 24 27.74 28.39 26.21 25.29 35.63
Perception-LM-3B 18 31.40 28.39 32.04 29.96 40.23
Perception-LM-8B 14 35.38 26.45 26.21 44.75 34.48
VideoRefer 23 28.57 32.90 30.10 17.51 51.72
ArrowRL-7B 20 30.56 30.97 24.27 29.18 41.38

如上图所示,人类在所有类别中得分超过 90%,一致性超过 80%,表明问题是明确的和无歧义的。

GPT-5 和 Gemini 2.5/3.1 Pro 在数据集上表现不佳,仅比基线机会取得了微小的改进,且远低于人类的表现。使用 GenS 选择与问题相关的帧并没有改善 Gemini 2.5 Pro 的结果,导致作者得出结论,专有 LVLMs 在基准测试中所需的时空理解方面存在困难。

在开源系统中,InternVL3 和 Qwen 系列取得了最强的结果,尽管性能在整个类别中有很大差异,几种模型的表现仅略高于机会;专用系统,包括 PerceptionLM 和 VideoRefer,也在基准测试的复杂组装任务中表现不佳,人类参与者在每个模型类别中都明显领先。

研究人员还测试了两种 链式思维 提示策略,以对抗论文的标准提示设置。 零次链式思维 提示要求模型逐步解释其答案,而 自我一致性链式思维 生成五个候选响应,然后通过多数投票选择最终答案。然而,这两种方法都没有改善在 Flat Pack Bench 数据集上的结果,两种方法都低于基准测试的默认提示配置。

作弊码

为了测试 LVLMs 是否真正从组装视频中学习,还是只是利用静态视觉提示的捷径,研究人员创建了基准测试的一个图像版本,该版本省略了视频,仅保留问题文本和视觉提示。

人类的表现在这些条件下下降了超过 50%,表明任务确实需要对组装过程的时间理解。然而,模型的表现下降得不那么严重,一些任务在没有视频输入的情况下保持稳定,甚至表现得更好。

这表明,论文认为,许多 LVLMs 并没有真正地利用视频中的时间信息,而是依赖于图像捷径和常识假设来推断合理的答案。

LVLM 在仅图像版本的 Flat-Pack Bench 上的表现,与标准的视频加图像设置进行比较,并在随机零件 ID 时添加了额外的结果,以测试模型是否利用标签顺序捷径而不是时间视频理解。

LVLM 在仅图像版本的 Flat-Pack Bench 上的表现,与标准的视频加图像设置进行比较,并在随机零件 ID 时添加了额外的结果,以测试模型是否利用标签顺序捷径而不是时间视频理解。

‘上图显示了 LVLM 在此仅图像版本上的表现,以及其在完整评估中的表现变化,以及人类的表现。 ‘

‘人类表现的明显下降(>50%)表明问题确实需要视频来回答。 ‘

‘我们还观察到模型的整体表现下降明显(8.80%),但主要是由于跟踪子任务。其他任务的准确率保持不变或提高,表明 LVLM 没有有效地使用视频,而人类则使用视频来回答。’

论文的更深入分析表明,主要障碍不仅仅是简单的时间顺序,而是对象接地和时空推理的失败:模型经常难以跟踪在运动、摄像机转换和场景变化中相似的家具零件,即使它们似乎已经正确识别了更广泛的组装过程。

进一步的实验涉及将一个具有工具的代理 AI 投入该任务中,根据作者的说法,这种方法“表现不佳”——尽管它能够正确回答其他方法错过的额外 11.48% 的问题。

结论

保留对概念和对象的持续内化对于人类的成长和感知发展以及为我们做好准备的个人、通常是新颖的任务至关重要。

计算机视觉研究已经在重新获取和重新识别离开和重新进入帧的对象和人方面面临着持续的困难。这些问题在需要不断改变视觉和姿势的情况下会大大增加——这可能会在关于平板家具组装的 YouTube 指导视频中发生。可以想象,更加令人震惊的 POV 变化的自我中心视频可能会进一步使 AI 的家具组装尝试更加混乱。 *

作者的原始格式,由我根据需要修改,以在引用格式设置下保持影响力。

首次发布于 2026 年 5 月 25 日星期一。2026 年 5 月 27 日星期三修改,以更正此日期归属!

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai