Refresh

This website www.unite.ai/zh-CN/%E5%A4%A7%E5%9E%8B%E5%A4%9A%E6%A8%A1%E6%80%81%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%8F%91%E5%B8%83%E5%B0%86%E5%A1%91%E9%80%A0-2024-%E5%B9%B4%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%A0%BC%E5%B1%80/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

关注我们.

人工智能

大型多模态模型的揭幕:塑造 2024 年语言模型的格局

mm
更新 on

当我们体验世界时,我们的感官(视觉、声音、气味)提供了各种各样的信息,并且我们使用不同的交流方法来表达自己,例如面部表情和手势。这些感官和沟通方式统称为模态,代表了我们感知和沟通的不同方式。从人类的这种能力中汲取灵感, 大型多模态模型 (LMM),生成和的组合 多模态人工智能正在开发中,以使用文本、图像和音频等不同类型来理解和创建内容。在本文中,我们深入研究这个新兴领域,探讨什么是 LMM(大型多模态模型)、它们的构建方式、现有示例、它们面临的挑战以及潜在应用。

2024 年生成式 AI 的演变:从大型语言模型到大型多模态模型

在其最新报告中, 麦肯锡指定 2023 年 作为突破年 生成式人工智能,导致该领域取得许多进展。我们目睹了患病率的显着上升 大型语言模型 (LLM) 擅长理解和生成类人语言。此外, 图像生成模型 显着进化,展示了他们根据文本提示创建视觉效果的能力。然而,尽管文本、图像或音频等个体模式取得了重大进展,但生成人工智能在生成过程中无缝组合这些模式方面遇到了挑战。由于世界本质上是多模态的,因此人工智能处理多模态信息至关重要。这对于与人类进行有意义的接触以及在现实世界场景中成功运行至关重要。

因此,许多人工智能研究人员预计 LMM 的崛起将成为 2024 年人工智能研究和开发的下一个前沿领域。这一不断发展的前沿领域侧重于增强生成式人工智能处理和生成各种输出的能力,涵盖文本、图像、音频、视频和其他方式。必须强调的是,并非所有多式联运系统都符合 LMM 的条件。模型喜欢 中途稳定扩散尽管是多模式的,但不属于 LMM 类别,主要是因为它们缺乏 LLM,而 LLM 是 LMM 的基本组成部分。换句话说,我们可以将 LMM 描述为 LLM 的扩展,为它们提供熟练处理各种模式的能力。

LMM 如何运作?

虽然研究人员已经探索 各种方法 为了构建 LMM,它们通常涉及三个基本组件和操作。首先,为每种数据模态采用编码器来生成特定于该模态的数据表示(称为嵌入)。其次,使用不同的机制将不同模态的嵌入对齐到统一的多模态嵌入空间中。第三,对于生成模型,法学硕士用于生成文本响应。由于输入可能由文本、图像、视频和音频组成,研究人员正在研究新的方法,使语言模型在给出响应时考虑不同的模式。

2023年LMM的发展

下面,我简要概述了 2023 年开发的一些著名的 LMM。

  • 拉瓦 是一个开源 LMM,由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学联合开发。该模型旨在提供多式联运的开源版本 GPT4. 杠杆作用 Meta 的 Llama LLM,它包含了 CLIP 视觉编码器用于强大的视觉理解。 LLaVa 的专注于医疗保健的变体,称为 LLaVA医学,可以回答与生物医学图像相关的询问。
  • 图片绑定 是由 Meta 制作的开源模型,模拟人类感知关联多模态数据的能力。该模型集成了六种模式——文本、图像/视频、音频、3D 测量、温度数据和运动数据——学习跨这些不同数据类型的统一表示。 ImageBind 可以将照片中的对象与声音、3D 形状、温度和运动等属性连接起来。例如,该模型可用于从文本或声音生成场景。
  • 无缝M4T 是 Meta 设计的多模式模型,旨在促进多语言社区之间的沟通。 SeamlessM4T 擅长翻译和转录任务,支持语音到语音、语音到文本、文本到语音和文本到文本翻译。该模型采用非自回归文本到单元解码器来执行这些翻译。加强版, 无缝M4T v2,构成了诸如 无缝表达无缝流媒体,强调跨语言保留表达并以最小的延迟提供翻译。
  • GPT4由 OpenAI 推出,是其前身的进步, GPT3.5。尽管详细的架构细节尚未完全公开,但 GPT4 因其纯文本、纯视觉和纯音频模型的平滑集成而受到好评。该模型可以从书面和图形输入生成文本。它在各种任务中表现出色,包括图像中的幽默描述、屏幕截图中的文本摘要以及熟练地回答带有图表的考试问题。 GPT4 还因其有效处理各种输入数据格式的适应性而受到认可。
  • 双子座由 Google DeepMind 创建,其独特之处在于本质上是多模态的,允许跨各种任务无缝交互,而无需依赖于将单模态组件拼接在一起。该模型可以轻松管理文本和各种视听输入,展示其生成文本和图像格式输出的能力。

大型多式联运模型的挑战

  • 纳入更多数据模式: 大多数现有的 LMM 都使用文本和图像进行操作。然而,LMM 需要超越文本和图像,适应视频、音乐和 3D 等模式。
  • 多样化的数据集可用性: 开发和训练多模态生成人工智能模型的关键挑战之一是需要包含多种模态的大型且多样化的数据集。例如,要训练模型一起生成文本和图像,数据集需要包含彼此相关的文本和图像输入。
  • 生成多模式输出: 虽然 LMM 可以处理多模式输入,但生成不同的输出(例如将文本与图形或动画相结合)仍然是一个挑战。
  • 以下说明: LMM 面临着掌握对话和遵循指令任务的挑战,而不仅仅是完成任务。
  • 多模态推理: 虽然当前的 LMM 擅长将一种模态转换为另一种模态,但针对复杂推理任务(例如基于听觉指令解决书面文字问题)的多模态数据的无缝集成仍然是一项具有挑战性的工作。
  • 压缩 LMM: LMM 的资源密集型特性构成了重大障碍,使得它们对于计算资源有限的边缘设备来说不切实际。压缩 LMM 以提高效率并使其适合在资源受限的设备上部署是正在进行的研究的一个关键领域。

潜在用例

  • Education: LMM 有潜力通过生成结合文本、图像和音频的多样化且引人入胜的学习材料来改变教育。 LMM 提供关于作业的全面反馈,推广协作学习平台,并通过交互式模拟和真实示例增强技能发展。
  • 医疗保健:与针对单一模式的传统人工智能诊断系统相比,LMM 通过集成多种模式来改进医疗诊断。它们还支持医疗保健提供者和患者之间跨越语言障碍的沟通,充当医院内各种人工智能应用程序的集中存储库。
  • 艺术和音乐一代: LMM 可以通过结合不同的方式来实现独特且富有表现力的输出,从而在艺术和音乐创作方面表现出色。例如,艺术 LMM 可以融合视觉和听觉元素,提供身临其境的体验。同样,音乐 LMM 可以整合乐器和声乐元素,从而产生动态且富有表现力的作品。
  • 个性化推荐: LMM 可以分析各种模式的用户偏好,为内容消费提供个性化推荐,例如电影、音乐、文章或产品。
  • 天气预报和环境监测: LMM 可以分析各种形式的数据,例如卫星图像、大气条件和历史模式,以提高天气预报和环境监测的准确性。

底线

大型多模态模型(LMM)的发展标志着生成人工智能的重大突破,有望在各个领域取得进步。由于这些模型无缝集成了不同的模式,例如文本、图像和音频,它们的发展为医疗保健、教育、艺术和个性化推荐领域的变革性应用打开了大门。然而,挑战(包括容纳更多数据模式和压缩资源密集型模型)强调了充分实现 LMM 潜力所需的持续研究工作。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。