人工智能
观察、思考、解释:人工智能中视觉语言模型的兴起

大约十年前,人工智能被划分为图像识别和语言理解两大领域。视觉模型可以识别物体,但无法描述它们;语言模型可以生成文本,但无法“看见”。如今,这种划分正在迅速消失。 视觉语言模型 (VLM) 现在,它们能够结合视觉和语言技能,解读图像,并以近乎人类的方式进行解释。真正让它们如此卓越的是它们循序渐进的推理过程,也就是所谓的 思想链这有助于将这些模型转化为医疗保健和教育等行业强大且实用的工具。在本文中,我们将探讨 VLM 的工作原理、其推理的重要性,以及它们如何改变从医学到自动驾驶汽车等领域。
理解视觉语言模型
视觉语言模型(VLM)是一种能够同时理解图像和文本的人工智能。与只能处理文本或图像的旧式人工智能系统不同,VLM 将这两种技能融为一体。这使得它们用途极其广泛。它们可以查看图片并描述正在发生的事情,回答关于视频的问题,甚至可以根据书面描述创建图像。
例如,如果你让视觉语言模型 (VLM) 描述一张公园里奔跑的狗狗的照片。VLM 不会只是说“有一只狗”,而是会告诉你“这只狗正在一棵大橡树附近追球”。它能够识别图像,并将其与文字以一种合理的方式联系起来。这种结合视觉和语言理解的能力创造了各种可能性,从帮助你在线搜索照片到协助完成医学成像等更复杂的任务。
VLM 的核心工作原理是将两个关键部分结合起来:一个用于分析图像的视觉系统,以及一个用于处理文本的语言系统。视觉部分负责捕捉形状和颜色等细节,而语言部分则负责将这些细节转化为句子。VLM 经过包含数十亿个图文对的海量数据集的训练,积累了丰富的经验,从而拥有强大的理解力和极高的准确率。
思维链推理在 VLM 中意味着什么
思维链推理(CoT)是一种让人工智能逐步思考的方法,就像我们解决问题时分解问题一样。在 VLM 中,这意味着当你询问人工智能关于图像的问题时,它不仅会给出答案,还会解释它是如何得出答案的,并解释过程中的每个逻辑步骤。
假设你给 VLM 展示一张插着蜡烛的生日蛋糕图片,然后问:“这个人多大了?”如果没有 CoT,它可能只会猜一个数字。有了 CoT,它会仔细思考:“好吧,我看到一个插着蜡烛的蛋糕。蜡烛通常代表一个人的年龄。我们数一数,一共有 10 根。所以,这个人大概 10 岁。” 你可以跟随推理的展开,这使得答案更加可信。
同样,当向 VLM 展示一个交通场景并询问“现在过马路安全吗?”时,VLM 可能会推理:“人行横道灯是红色的,所以你不应该过马路。附近还有一辆车在转弯,而且它在行驶,而不是停着。这意味着现在不安全。” 通过这些步骤,AI 可以准确地向你展示它在图像中关注的重点,以及它做出这一决定的原因。
为什么思路链在 VLM 中如此重要
CoT 推理与 VLM 的集成带来了几个关键优势。
首先,它让人工智能更容易被信任。当它解释其步骤时,你就能清楚地了解它是如何得出答案的。这在医疗保健等领域非常重要。例如,在查看核磁共振扫描图时,视觉语言模型(VLM)可能会说:“我看到大脑左侧有一个阴影。这个区域控制语言,病人说话有困难,所以这可能是肿瘤。”医生可以理解这种逻辑,并对人工智能的输入充满信心。
其次,它可以帮助人工智能解决复杂问题。通过分解问题,人工智能可以处理那些需要更多步骤才能解决的问题,而不仅仅是快速浏览。例如,数蜡烛很简单,但在繁忙的街道上确保安全则需要多个步骤,包括检查交通信号灯、识别车辆、判断车速。CoT 通过将复杂问题分解为多个步骤,使人工智能能够处理这些复杂问题。
最后,它使人工智能更具适应性。当它逐步推理时,它可以将所学知识应用于新情况。即使它以前从未见过某种蛋糕,它仍然可以找出蜡烛和年龄之间的联系,因为它会仔细思考,而不是仅仅依靠记忆中的模式。
思维链和 VLM 如何重新定义行业
CoT 和 VLM 的结合正在对不同领域产生重大影响:
- 卫生保健: 在医学领域,VLM 类似于 Google 的 Med-PaLM 2 使用CoT将复杂的医疗问题分解成更小的诊断步骤。例如,当医生给出胸部X光检查结果并出现咳嗽、头痛等症状时,AI可能会思考:“这些症状可能是感冒、过敏或其他更严重的疾病。没有淋巴结肿大,所以不太可能是严重感染。肺部看起来清晰,所以可能不是肺炎。普通感冒最符合诊断标准。” 它会逐一检查所有选项,最终确定答案,为医生提供清晰的解释。
- 自动驾驶汽车: 对于自动驾驶汽车而言,CoT 增强型 VLM 可以提升安全性和决策能力。例如,自动驾驶汽车可以逐步分析交通场景:检查行人信号、识别移动车辆,并判断是否可以安全行驶。诸如 Wayve 的 LINGO-1 生成自然语言注释,解释诸如为骑行者减速之类的行为。这有助于工程师和乘客理解车辆的推理过程。逐步逻辑还能通过将视觉输入与情境知识相结合,更好地应对异常路况。
- 地理空间分析: 谷歌的 双子座模型适用 CoT 推理适用于地图和卫星图像等空间数据。例如,它可以通过整合卫星图像、天气预报和人口统计数据来评估飓风造成的损失,然后生成清晰的可视化结果并解答复杂的问题。此功能无需任何技术专业知识,即可为决策者提供及时、实用的洞察,从而加快灾难响应速度。
- 机器人技术: 在机器人技术领域,CoT 与 VLM 的集成使机器人能够更好地规划和执行多步骤任务。例如,当机器人执行拾取物体的任务时,启用 CoT 的 VLM 能够识别杯子,确定最佳抓取点,规划无碰撞路径并执行动作,同时“解释”其流程的每个步骤。以下项目 RT-2 展示 CoT 如何使机器人更好地适应新任务并以清晰的推理响应复杂的命令。
- Education: 在学习方面,AI导师喜欢 汗友 使用 CoT 来更好地教学。对于一道数学题,它可能会引导学生:“首先,写下等式。接下来,从两边减去 5 得到变量。现在,除以 2。” 它不会直接给出答案,而是引导学生逐步理解整个过程,帮助学生理解概念。
底线
视觉语言模型 (VLM) 使 AI 能够通过思维链 (CoT) 流程,以类似人类的逐步推理方式解读和说明视觉数据。这种方法能够提升医疗保健、自动驾驶汽车、地理空间分析、机器人技术和教育等行业的信任度、适应性和问题解决能力。通过改变 AI 处理复杂任务和支持决策的方式,VLM 正在为可靠实用的智能技术树立全新标杆。












