人工智能

多模态学习在 AI 开发者中变得越来越突出

Published November 24, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Venture Beat (VB) 将其每周报告的一部分专门用于介绍多模态学习在人工智能开发中的优势。他们的灵感来自报告由 ABI Research 撰写的关于这个话题的报告。

关键概念在于“数据集是 AI 系统的基本构建块”，而没有数据集，“模型无法学习关系以告知其预测。” ABI 报告预测“虽然 2019 年 AI 设备的总安装基数将从 2.69 亿增长到 2024 年的 4.47 亿，但相比之下，短期内只有很少一部分将是可互操作的。”

这可能代表着大量时间、能量和资源的浪费，“而不是将流经它们的数十亿字节到千兆字节的数据合并到一个单一的 AI 模型或框架中，它们将独立和异构地工作以理解它们接收到的数据。”

为了克服这一点，ABI 提出了多模态学习，一种可以将来自各种传感器和输入的数据整合到一个系统中的方法。多模态学习可以携带互补信息或趋势，这些信息或趋势通常只有在它们全部被纳入学习过程中时才会变得明显。

VB 提出了一个可行的例子，即考虑图像和文本字幕。“如果不同单词与相似的图像配对，这些单词很可能被用来描述相同的东西或物体。相反，如果一些单词出现在不同的图像旁边，这意味着这些图像代表相同的物体。因此，应该有可能让 AI 模型从文本描述中预测图像对象，事实上，一批学术文献已经证明这是可能的。”

尽管可能存在优势，ABI 指出，即使像 IBM、Microsoft、Amazon 和 Google 这样的科技巨头仍然主要专注于单模态系统。其中一个原因是这种转变所带来的挑战。

尽管如此，ABI 研究人员预计“设备的总出货量将从 2017 年的 394 万增长到 2023 年的 5.1412 亿，推动这一增长的因素包括机器人、消费者、医疗保健和媒体及娱乐领域的采用。”他们提到了已经实施多模态学习的公司，如 Waymo，它使用这种方法来构建“超级自觉的自动驾驶车辆”，以及 Intel Labs，Intel 的工程团队在那里“研究传感器数据在现实环境中的收集技术。”

Intel Labs 首席工程师 Omesh Tickoo 告诉 VB，“我们使用技术来确定上下文，例如一天中的时间，我们构建了一个系统，可以告诉你何时传感器的数据不是最高质量的。给定这个置信值，它会在不同间隔内权衡不同的传感器，并选择合适的组合来给我们我们要寻找的答案。”

VB 指出，单模态学习将在图像识别和自然语言处理等应用中保持其主导地位，在这些领域它非常有效。同时，它预测“随着电子设备变得更便宜、计算能力更具可扩展性，多模态学习可能只会变得更加突出。”

Related Topics:ABI intel labs Multimodal

Ljubinko Zivkovic

前外交官和联合国翻译，目前自由撰稿人/作家/研究员，专注于现代技术、人工智能和现代文化。

Unite.AI

多模态学习在 AI 开发者中变得越来越突出

You may like