机器人
机器学习模型理解物体关系

麻省理工学院(MIT)的研究人员开发了一种新的机器学习(ML)模型,该模型可以理解场景中物体之间的潜在关系。该模型一次代表个体关系,然后将这些表示组合起来描述整个场景。
通过这种新方法,ML模型可以从文本描述中生成更准确的图像,即使场景中有多个项目以不同关系排列。
这一新发展很重要,因为许多深度学习模型无法理解个体物体之间的复杂关系。
该团队的模型可以在工业机器人必须执行多步操作任务的情况下使用,例如堆叠物品或组装家电。它还有助于实现机器最终能够像人类一样从环境中学习和交互。
Yilun Du是计算机科学和人工智能实验室(CSAIL)的博士生,也是论文的共同首席作者。Du与CSAIL的博士生Shuang Li和伊利诺伊大学厄巴纳-香槟分校的研究生Nan Liu共同领导了这项研究。该研究还包括认知科学和计算机科学的Newton Paul E. Newton职业发展教授Joshua B. Tenenbaum和电气工程和计算机科学的Delta Electronics教授Antonio Torralba。Tenenbaum和Torralba都是CSAIL的成员。
新框架
“当我看一张桌子时,我无法说某个物体位于XYZ位置。我们的脑袋不这样工作。当我们理解一个场景时,我们真正理解的是物体之间的关系。我们认为,通过构建一个可以理解物体之间关系的系统,我们可以使用该系统更有效地操纵和改变我们的环境,” Du说。
新框架可以根据物体及其关系的文本描述生成场景图像。
系统可以将这些句子分解成描述每个个体关系的更小的部分。每个部分都单独建模,然后通过生成场景图像的优化过程将它们组合起来。
当句子被分解成更短的部分时,系统可以以不同的方式重新组合它们,从而使其能够适应以前从未遇到的场景描述。
“其他系统会整体地接受所有关系并从描述中生成图像。然而,这种方法在我们有超出分布的描述(例如,具有更多关系的描述)时会失败,因为这些模型无法适应生成包含更多关系的图像。然而,随着我们将这些单独的、较小的模型组合在一起,我们可以建模更多的关系并适应新的组合,” Du说。
系统还可以反向执行此过程。如果它被输入一张图像,它可以找到与场景中物体之间的关系相匹配的文本描述。
评估模型
研究人员要求人类评估生成的图像是否与原始场景描述相匹配。当描述包含三个关系时(这是最复杂的类型),91%的参与者表示新的模型比其他深度学习方法更好。
“我们发现的一个有趣事情是,对于我们的模型,我们可以将句子从一个关系描述增加到两个、三个,甚至四个描述,我们的方法仍然能够生成正确描述这些描述的图像,而其他方法则失败,” Du说。
该模型还展示了令人印象深刻的能力,可以处理以前未遇到的描述。
“这很有前途,因为这更接近于人类的工作方式。人类可能只看到几个例子,但我们可以从这些例子中提取有用的信息并将它们组合起来创建无限的组合。我们的模型具有这种属性,使其能够从更少的数据中学习并推广到更复杂的场景或图像生成,” Li说。
该团队现在将测试该模型在更复杂的真实世界图像上,并探索如何最终将该模型集成到机器人系统中。












