人工智能

大型多模态模型的揭幕：2024年语言模型的格局

Published January 8, 2024

Updated April 27, 2026

Dr. Tehseen Zia

当我们体验世界时，我们的感官（视觉、声音、气味）提供了多样化的信息，我们使用不同的沟通方式，如面部表情和手势来表达自己。这些感官和沟通方式被称为模态，代表了我们感知和沟通的不同方式。从人类的这种能力中汲取灵感，大型多模态模型（LMM），一种生成式和多模态AI的结合，正在被开发以了解和使用不同的类型，如文本、图像和音频来创建内容。在本文中，我们深入探讨这个新兴领域，探索什么是LMMs（大型多模态模型），如何构建它们，现有的例子，面临的挑战和潜在的应用。

2024年生成式AI的演进：从大型语言模型到大型多模态模型

在其最新的报告中，麦肯锡将2023年指定为生成式AI的突破年，这导致了该领域的许多进步。我们已经见证了大型语言模型（LLMs）的显著崛起，它们能够理解和生成类似人类的语言。此外，图像生成模型已经显著演进，展示了它们从文本提示中创建视觉的能力。然而，尽管在单个模态（如文本、图像或音频）上取得了显著进步，生成式AI在生成过程中无缝地结合这些模态时遇到了挑战。由于世界本质上是多模态的，AI处理多模态信息的能力对于与人类的有意义的互动和在现实世界场景中的成功运作至关重要。
因此，许多AI研究人员预计LMMs将成为2024年AI研究和开发的下一个前沿领域。这一不断演进的前沿领域专注于增强生成式AI处理和产生多样化输出的能力，涵盖文本、图像、音频、视频和其他模态。需要强调的是，并非所有多模态系统都符合LMMs的标准。像Midjourney和Stable Diffusion这样的模型，尽管是多模态的，但不属于LMM类别，主要是因为它们缺乏LLMs的存在，而LLMs是LMMs的基本组成部分。换句话说，我们可以将LMMs描述为LLMs的扩展，赋予它们处理各种模态的能力。

LMMs如何工作？

虽然研究人员已经探索了各种构建LMMs的方法，但它们通常涉及三个基本组件和操作。首先，使用编码器为每个数据模态生成特定于该模态的数据表示（称为嵌入）。其次，使用不同的机制将来自不同模态的嵌入对齐到统一的多模态嵌入空间中。第三，对于生成模型，使用LLM生成文本响应。由于输入可能包括文本、图像、视频和音频，研究人员正在努力找到新的方法，使语言模型在给出响应时考虑不同的模态。

2023年LMMs的发展

以下是我简要概述了2023年开发的一些著名LMMs。

LLaVA是一个开源的LMM，由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学联合开发。该模型旨在提供一个开源版本的多模态GPT4。利用Meta的Llama LLM，它结合了CLIP视觉编码器以实现强大的视觉理解。LLaVA的医疗保健版本，称为LLaVA-Med，可以回答与生物医学图像相关的查询。
ImageBind是一个由Meta开发的开源模型，模拟人类感知将多模态数据关联起来的能力。该模型集成了六种模态——文本、图像/视频、音频、3D测量、温度数据和运动数据——并学习了这些不同数据类型之间的统一表示。ImageBind可以将照片中的物体与声音、3D形状、温度和运动等属性关联起来。该模型可以用于生成文本或声音的场景。
SeamlessM4T是一个由Meta设计的多模态模型，旨在促进多语言社区之间的沟通。SeamlessM4T在翻译和转录任务中表现出色，支持语音到语音、语音到文本、文本到语音和文本到文本的翻译。该模型使用非自回归文本到单位解码器来执行这些翻译。增强版SeamlessM4T v2构成了像SeamlessExpressive和SeamlessStreaming这样的模型的基础，强调了在语言间保持表达的重要性，并提供了最小延迟的翻译。
GPT4，由OpenAI推出，是其前身GPT3.5的进步。尽管详细的架构细节尚未完全披露，但GPT4因其将文本、视觉和音频模型无缝集成而受到赞誉。该模型可以从书面和图形输入中生成文本。它在各种任务中表现出色，包括图像中的幽默描述、文本摘要和对包含图表的考试问题的响应。GPT4还因其能够有效处理广泛的输入数据格式而受到认可。
Gemini，由Google DeepMind创建，通过能够在不依赖单模态组件的情况下无缝地处理各种任务而脱颖而出。该模型轻松地处理文本和多种音频-视觉输入，展示了其生成文本和图像输出的能力。

大型多模态模型的挑战

整合更多数据模态：大多数现有的LMMs仅操作文本和图像。然而，LMMs需要超越文本和图像，容纳视频、音乐和3D等模态。
多样化数据集的可用性：开发和训练多模态生成式AI模型的关键挑战之一是需要大型且多样化的数据集，包括多个模态。例如，要训练一个模型来同时生成文本和图像，数据集需要包含相关的文本和图像输入。
生成多模态输出：LMMs可以处理多模态输入，但生成多样化的输出（如将文本与图形或动画结合）仍然是一个挑战。
遵循指令：LMMs面临着掌握对话和遵循指令任务的挑战，超越简单的完成。
多模态推理：虽然当前的LMMs擅长将一种模态转换为另一种模态，但将多模态数据无缝集成用于复杂推理任务（如根据语音指令解决书面文字问题）仍然是一个具有挑战性的任务。
压缩LMMs：LMMs的资源密集型性质构成了一个重大障碍，使其不适合于计算资源有限的边缘设备。压缩LMMs以提高效率并使其适合部署在资源受限的设备上是一个至关重要的研究领域。

潜在用例

教育：LMMs有潜力通过生成多样化和吸引人的学习材料（结合文本、图像和音频）来改变教育。LMMs提供对作业的全面反馈，促进协作学习平台，并通过交互式模拟和现实世界示例增强技能发展。
医疗保健：与仅针对单一模态的传统AI诊断系统相比，LMMs通过整合多个模态来改善医疗诊断。它们还支持医疗保健提供者和患者之间跨语言的沟通，作为医院内各种AI应用的集中存储库。
艺术和音乐生成：LMMs可以通过结合不同的模态来创建独特且富有表现力的输出而在艺术和音乐创作中表现出色。例如，一个艺术LMM可以将视觉和听觉元素结合起来，提供沉浸式体验。同样，一个音乐LMM可以将乐器和声乐元素整合在一起，产生动态且富有表现力的组合。
个性化推荐：LMMs可以分析用户在不同模态上的偏好，以提供个性化的内容消费推荐，例如电影、音乐、文章或产品。

天气预报和环境监测：LMMs可以分析各种模态的数据，例如卫星图像、气象条件和历史模式，以提高天气预报和环境监测的准确性。

结论

大型多模态模型（LMMs）的发展标志着生成式AI的一个重大突破，承诺在各个领域带来进步。随着这些模型无缝地集成不同的模态，如文本、图像和音频，其开发为医疗保健、教育、艺术和个性化推荐等领域的变革性应用打开了大门。然而，挑战，如适应更多的数据模态和压缩资源密集型的模型，凸显了实现LMMs全部潜力的持续研究工作的必要性。