人工智能

多模态 AI 演进：ChatGPT 获得视觉能力与 GPT-4V(ision)

发布于 2023年10月9日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

在使 AI 更加像人类的持续努力中，OpenAI 的 GPT 模型不断推动着边界。GPT-4 现在能够接受文本和图像的提示。

多模态生成 AI 表示模型能够产生多种输出，如文本、图像或音频，基于输入。这些模型经过特定数据的训练，学习潜在模式以生成类似的新数据，丰富 AI 应用。

最近，在这个领域的一个显著进步是 DALL-E 3 与 ChatGPT 的集成，这是 OpenAI 文本到图像技术的一个重大升级。这种结合允许更流畅的交互，ChatGPT 帮助创建精确的提示用于 DALL-E 3，将用户的想法转化为生动的 AI 生成艺术。因此，虽然用户可以直接与 DALL-E 3 交互，但拥有 ChatGPT 的参与使得创建 AI 艺术的过程更加用户友好。

查看更多关于 DALL-E 3 和其与 ChatGPT 集成的信息这里。这种合作不仅展示了多模态 AI 的进步，也使得 AI 艺术创作变得轻松。

Google 的 Health 则在今年六月推出了 Med-PaLM M，这是一个多模态生成模型，擅长编码和解释多样化的生物医学数据。这种成就是通过对 PaLM-E 进行微调来实现的，PaLM-E 是一个语言模型，利用一个开源基准 MultiMedBench 来适应医疗领域。这个基准包括超过 100 万个样本，跨越 7 种生物医学数据类型和 14 项任务，如医疗问答和放射学报告生成。

各个行业正在采用创新多模态 AI 工具来推动业务扩张、简化运营和提高客户参与度。语音、视频和文本 AI 能力的进步正在推动多模态 AI 的增长。

企业正在寻找能够改变业务模式和流程的多模态 AI 应用，开辟数据工具到新兴 AI 应用的整个生成 AI 生态系统中的增长途径。

在 GPT-4 发布后的几个月里，一些用户观察到其响应质量随时间的推移而下降，这是一个值得注意的开发者和 OpenAI 论坛上的问题。最初被 OpenAI 驳斥，但后来的研究确认了这个问题，揭示了 GPT-4 的准确率从 97.6% 下降到 2.4% 之间，从三月到六月，表明答案质量随着模型更新而下降。

Open AI 的 ChatGPT 现在又引起了人们的关注。它现在拥有一个视觉功能 GPT-4V，允许用户让 GPT-4 分析由用户提供的图像。这是最新的功能，已经开放给用户。

将图像分析添加到像 GPT-4 这样的大型语言模型（LLM）中被一些人视为 AI 研究和开发的一个巨大步骤。这种多模态 LLM 开启了新的可能性，超越文本，提供新的接口和解决新的任务，创造新的用户体验。

GPT-4V 的训练于 2022 年完成，早期访问于 2023 年三月推出。GPT-4V 中的视觉功能由 GPT-4 技术提供支持。训练过程保持不变，最初，模型被训练来预测文本中的下一个词，使用来自互联网等多个来源的大型文本和图像数据集。

后来，它通过一种名为强化学习从人类反馈（RLHF）的方法进行了微调，以生成人类喜欢的输出。