人工智能
见、思、解释:视觉语言模型在人工智能中的崛起

大约十年前,人工智能在图像识别和语言理解之间存在着明显的分裂。视觉模型可以识别物体,但无法描述它们,而语言模型可以生成文本,但无法“看到”。今天,这种分裂正在迅速消失。 视觉语言模型(VLMs) 现在结合了视觉和语言技能,允许它们解释图像并以几乎人类化的方式解释它们。 使它们真正引人注目的的是它们的步骤式推理过程,即 链式思维,它帮助这些模型成为各个行业(如医疗保健和教育)中的强大而实用的工具。 在本文中,我们将探讨 VLMs 的工作原理、为什么它们的推理很重要以及它们如何改变从医学到自动驾驶汽车等领域。
理解视觉语言模型
视觉语言模型,或 VLMs,是一种可以同时理解图像和文本的人工智能。与只能处理文本或图像的旧式 AI 系统不同,VLMs 将这两种技能结合在一起。这使得它们非常多才多艺。它们可以查看一张图片并描述发生了什么,回答有关视频的问题,甚至可以根据书面描述创建图像。
例如,如果你要求 VLM 描述一张狗在公园里奔跑的照片。VLM 不仅仅说“那里有一只狗”,它可以告诉你,“狗正在追逐一个球,附近有一棵大橡树”。它正在查看图像并以一种有意义的方式将其与文字联系起来。这种将视觉和语言理解结合起来的能力创造了各种可能性,从帮助你在线搜索照片到协助更复杂的任务,如医疗成像。
在其核心,VLMs 通过结合两个关键部分来工作:一个分析图像的视觉系统和一个处理文本的语言系统。视觉部分捕捉细节,如形状和颜色,而语言部分将这些细节转换为句子。VLMs是在包含数十亿个图像-文本对的巨大数据集上训练的,这使得它们能够发展出强大的理解和高精度。
什么是 VLMs 中的链式思维推理
链式思维推理,或 CoT,是一种使 AI 按照步骤思考的方法,类似于我们如何通过将问题分解来解决它。在 VLMs 中,这意味着当你问它有关图像的问题时,AI 不仅提供答案,还解释了它如何得出这个答案,逐步解释每个逻辑步骤。
假设你向 VLM 显示一张带有蜡烛的生日蛋糕的图片,并问道,“这个人多大了?”没有 CoT,它可能只是猜一个数字。有了 CoT,它会这样思考:“好吧,我看到一张蛋糕和蜡烛。蜡烛通常显示某人的年龄。让我们数一下,有 10 根。所以,这个人可能 10 岁。”你可以按照它的推理过程,它使答案更加可靠。
同样,当向 VLM 显示一个交通场景并问道,“现在是否安全过马路?”时,VLM 可能会这样推理:“行人信号是红色,所以现在不应该过马路。附近有一辆车正在转弯,并且正在移动,而不是停着。这意味着现在不安全。”通过逐步说明,AI 显示它在图像中关注什么以及为什么做出这样的决定。
为什么 VLMs 中的链式思维很重要
将 CoT 推理集成到 VLMs 中带来了几个关键优势。
首先,它使 AI 更容易被信任。当它解释其步骤时,你会清楚地了解它如何得出答案。在医疗保健等领域,这一点至关重要。例如,当查看 MRI 扫描时,VLM 可能会说:“我看到大脑左侧有一个阴影。那个区域控制着言语,这个病人正在经历说话困难,所以它可能是一个肿瘤。”医生可以遵循这种逻辑,并对 AI 的输入感到自信。
第二,它帮助 AI 处理复杂问题。通过将问题分解为步骤,它可以处理需要更多时间思考的问题。例如,计算蜡烛的数量很简单,但判断繁忙街道上的安全性需要多个步骤,包括检查信号灯、发现汽车和判断速度。CoT 使 AI 能够通过将问题分解为多个步骤来处理这种复杂性。
最后,它使 AI 更加适应性。当它逐步推理时,它可以将所学知识应用于新情况。如果它以前从未见过某种类型的蛋糕,它仍然可以弄清楚蜡烛和年龄的联系,因为它正在思考这个问题,而不是仅仅依赖于记忆的模式。
链式思维和 VLMs 如何重新定义行业
CoT 和 VLMs 的结合正在各个领域产生重大影响:
- 医疗保健: 在医学中,VLMs 如 Google 的 Med-PaLM 2 使用 CoT 将复杂的医疗问题分解为较小的诊断步骤。例如,当给出一张胸部 X 光片和症状如咳嗽和头痛时,AI 可能会这样思考:“这些症状可能是感冒、过敏或更严重的疾病。没有肿大的淋巴结,所以不太可能是严重的感染。肺部似乎很清晰,所以可能不是肺炎。普通感冒最合适。”它会逐步考虑各种选项并得出答案,为医生提供清晰的解释来工作。
- 自动驾驶汽车: 对于自动驾驶汽车,CoT增强的VLMs提高了安全性和决策能力。例如,自动驾驶汽车可以逐步分析交通场景:检查行人信号,识别移动车辆,并决定是否安全通过。像 Wayve 的 LINGO-1 这样的系统会生成自然语言评论来解释诸如为自行车减速等操作。这有助于工程师和乘客了解车辆的推理过程。逐步逻辑还可以通过将视觉输入与背景知识相结合来更好地处理异常道路条件。
- 地理空间分析: Google 的 Gemini 模型 将 CoT 推理应用于地图和卫星图像等空间数据。例如,它可以通过集成卫星图像、天气预报和人口数据来评估飓风损害,然后生成清晰的可视化和复杂问题的答案。这种能力通过为决策者提供及时、有用的见解(无需技术专业知识)来加快灾难响应速度。
- 机器人技术: 在机器人技术中,CoT 和 VLMs 的集成使机器人能够更好地规划和执行多步骤任务。例如,当机器人被要求拾取一个物体时,CoT 启用的 VLM 允许它识别杯子,确定最佳抓取点,规划一个无碰撞的路径,并执行移动,同时“解释”它的每一步过程。像 RT-2 这样的项目展示了 CoT 如何使机器人更好地适应新任务并以清晰的推理响应复杂命令。
- 教育: 在学习中,AI 教师如 Khanmigo 使用 CoT 来更好地教学。对于一个数学问题,它可能会指导学生:“首先,写下方程。接下来,通过从两边减去 5 来分离变量。现在,除以 2。”它不会直接给出答案,而是指导学生完成这个过程,帮助学生一步一步地理解概念。
结论
视觉语言模型(VLMs)使人工智能能够使用类似人类的、逐步推理来解释和说明视觉数据,通过链式思维(CoT)过程。这一方法提高了各个行业(如医疗保健、自动驾驶汽车、地理空间分析、机器人技术和教育)中的可信度、适应性和问题解决能力。通过改变人工智能处理复杂任务和支持决策的方式,VLMs 正在为可靠和实用的智能技术设定新的标准。












