人工智能

生成式 AI：CHATGPT、Dall-E、Midjourney 等背后的理念

更新 on 2023 年 8 月 8 日

艺术、交流以及我们感知现实的世界正在迅速发生变化。如果我们回顾人类创新的历史，我们可能会认为轮子的发明或电的发现是巨大的飞跃。今天，一场新的革命正在发生——弥合人类创造力和机器计算之间的鸿沟。这就是生成式人工智能。

生成模型模糊了人类和机器之间的界限。随着采用 Transformer 模块的 GPT-4 等模型的出现，我们离自然且上下文丰富的语言生成又近了一步。这些进步推动了文档创建、聊天机器人对话系统，甚至合成音乐创作中的应用。

最近大型科技公司的决策凸显了其重要性。微软已经停止使用 Cortana 应用程序本月优先考虑较新的生成式人工智能创新，例如 Bing Chat。苹果还投入了很大一部分资金 22.6亿美元的研发预算正如首席执行官蒂姆·库克所指出的，生成式人工智能。

模型的新时代：生成模型与模型模型歧视性的

生成式人工智能的故事不仅涉及其应用，而且从根本上讲涉及其内部运作。在人工智能生态系统中，存在两种模型：判别模型和生成模型。

判别模型是大多数人在日常生活中遇到的情况。这些算法获取输入数据（例如文本或图像），并将其与目标输出（例如单词翻译或医学诊断）配对。它们与绘图和预测有关。

另一方面，生成模型是创造者。他们不只是解释或预测；它们从数字向量生成新的、复杂的输出，而这些数字通常甚至与现实世界的值无关。

生成模型背后的技术

生成模型的存在归功于深层神经网络，这是一种旨在模仿人类大脑功能的复杂结构。通过捕获和处理数据的多方面变化，这些网络成为众多生成模型的支柱。

这些生成模型是如何实现的？通常，它们是用深度神经网络构建的，经过优化以捕获数据的多方面变化。一个典型的例子是生成性对抗网络（GAN），其中两个神经网络（生成器和判别器）以独特的师生关系相互竞争和学习。从绘画到风格转移，从音乐创作到游戏玩法，这些模型正在以以前难以想象的方式演变和扩展。

这并不止于 GAN。变体自动编码器（VAE）是生成模型领域的另一个关键参与者。 VAE 因其能够根据看似随机的数字创建逼真的图像而脱颖而出。如何？通过潜在向量处理这些数字催生了反映人类美学复杂性的艺术。

生成式 AI 类型：文本到文本、文本到图像

变形金刚和法学硕士

论文“注意就是您所需要的Google Brain 的文章标志着我们思考文本建模方式的转变。 Transformer 模型没有采用循环神经网络 (RNN) 或卷积神经网络 (CNN) 等复杂的顺序架构，而是引入了注意力的概念，这本质上意味着根据上下文关注输入文本的不同部分。这样做的主要好处之一是易于并行化。与顺序处理文本的 RNN 不同，这使得它们更难扩展，而 Transformer 可以同时处理部分文本，从而使大型数据集上的训练更快、更高效。

: 变压器模型架构

在长文本中，并非您读到的每个单词或句子都具有相同的重要性。有些部分需要根据上下文给予更多关注。这种根据相关性转移注意力的能力正是注意力机制所模仿的。

要理解这一点，请想象一句话：“联合人工智能发布人工智能和机器人新闻。” 现在，预测下一个单词需要了解之前上下文中最重要的内容。术语“机器人”可能表明下一个词可能与机器人领域的特定进展或事件相关，而“发布”可能表明以下上下文可能深入研究最近的出版物或文章。

: 自我关注插图

Transformers 中的注意力机制就是为了实现这种选择性关注而设计的。他们评估输入文本不同部分的重要性，并决定在生成响应时“看”哪里。这与 RNN 等旧架构不同，后者试图将所有输入文本的本质塞入单个“状态”或“记忆”中。

注意力的运作可以比作键值检索系统。在尝试预测句子中的下一个单词时，每个前面的单词都会提供一个表明其潜在相关性的“键”，并且根据这些键与当前上下文（或查询）的匹配程度，它们为该单词贡献一个“值”或权重。预言。

这些先进的人工智能深度学习模型已无缝集成到各种应用程序中，从谷歌的 BERT 搜索引擎增强功能到 GitHub 的 Copilot，后者利用大型语言模型 (LLM) 的功能将简单的代码片段转换为功能齐全的源代码。

GPT-4、Bard 和 LLaMA 等大型语言模型 (LLM) 是巨大的结构，旨在破译和生成人类语言、代码等。它们的巨大规模（从数十亿到数万亿个参数）是其定义特征之一。这些法学硕士获得了大量的文本数据，使他们能够掌握人类语言的复杂性。这些模型的一个显着特征是它们能够“少拍“ 学习。与需要大量特定训练数据的传统模型不同，法学硕士可以从非常有限的示例（或“镜头”）中进行概括

截至 2023 年中后期的大型语言模型 (LLM) 状况

型号名称	开发商	参数	可用性和访问	显着特点和备注
GPT-4	OpenAI	1.5万亿	非开源，仅 API 访问	在各种任务上都有令人印象深刻的表现，可以处理图像和文本，最大输入长度 32,768 个令牌
GPT-3	OpenAI	175十亿	非开源，仅 API 访问	展示了少样本和零样本学习能力。以自然语言执行文本完成。
布卢姆	大科学	176十亿	可下载模型，提供托管 API	通过全球合作开发的多语言法学硕士。支持13种编程语言。
拉曼达	谷歌	173十亿	不开源，没有 API 或下载	经过对话训练可以学会谈论几乎任何事情
MT-NLG	英伟达/微软	530十亿	通过应用程序访问 API	利用基于 Transformer 的 Megatron 架构来执行各种 NLP 任务。
骆驼	元人工智能	7B 至 65B）	可通过应用程序下载	旨在通过为研究人员、政府和学术界人士提供机会来实现人工智能的民主化。

法学硕士如何使用？

法学硕士可以通过多种方式使用，包括：

直接利用：只需使用预先训练的法学硕士进行文本生成或处理。例如，使用 GPT-4 编写博客文章，无需任何额外的微调。
微调：针对特定任务调整预先训练的法学硕士，这种方法称为迁移学习。一个例子是定制 T5 来生成特定行业文档的摘要。
信息检索：使用 LLM（例如 BERT 或 GPT）作为大型架构的一部分来开发可以获取信息和对信息进行分类的系统。

: ChatGPT 微调架构

多头注意力：当你可以拥有多个头时，为什么要一个？

然而，依赖单一的注意力机制可能会受到限制。文本中的不同单词或序列可以具有不同类型的相关性或关联。这就是多头注意力的用武之地。多头注意力不是一组注意力权重，而是采用多组注意力权重，使模型能够捕获输入文本中更丰富的关系。每个注意力“头”可以关注输入的不同部分或方面，它们的组合知识用于最终预测。

ChatGPT：最流行的生成式人工智能工具

自 2018 年 GPT 诞生以来，该模型基本上建立在 12 层、12 个注意力头和 120 亿个参数的基础上，主要在名为 BookCorpus 的数据集上进行训练。这是一个令人印象深刻的开始，让我们得以一睹语言模型的未来。

GPT-2 于 2019 年推出，其层数和注意力头增加了四倍。值得注意的是，其参数数量猛增至 1.5 亿。这个增强版本的训练源自 WebText，这是一个包含来自各种 Reddit 链接的 40GB 文本的数据集。

3 年 2020 月推出的 GPT-96 有 96 层、175 个注意力头和 3 亿个海量参数。 GPT-570 的与众不同之处在于其多样化的训练数据，包括 CommonCrawl、WebText、英语维基百科、书籍语料库和其他来源，总计 XNUMX GB。

ChatGPT 错综复杂的运作方式仍然是一个严格保守的秘密。然而，众所周知，“根据人类反馈进行强化学习”（RLHF）的过程至关重要。该技术源自早期的 ChatGPT 项目，有助于完善 GPT-3.5 模型，使其与书面指令更加一致。

ChatGPT 的培训包括三层方法：

监督微调：涉及策划人工编写的对话输入和输出，以完善底层 GPT-3.5 模型。
奖励建模：人类根据质量对各种模型输出进行排名，帮助训练一个奖励模型，该模型根据对话的上下文对每个输出进行评分。
强化学习：对话上下文作为基础模型提出响应的背景。该响应通过奖励模型进行评估，并使用名为近端策略优化 (PPO) 的算法来优化该过程。

对于那些刚刚接触 ChatGPT 的人来说，可以找到全面的入门指南此处。如果您希望更深入地研究 ChatGPT 的提示工程，我们还有一个高级指南，介绍最新和最先进的提示技术，可在“ChatGPT 和高级提示工程：推动 AI 发展“。

扩散和多模态模型

虽然 VAE 和 GAN 等模型通过单次生成输出，因此锁定了它们生成的任何内容，但扩散模型引入了“迭代细化'。通过这种方法，他们回过头来，修正之前步骤中的错误，并逐渐产生更完美的结果。

扩散模型的核心是“腐败”和“细化”。在训练阶段，典型的图像会因添加不同级别的噪声而逐渐损坏。然后将这个嘈杂的版本输入模型，模型尝试对其进行“去噪”或“去破坏”。通过多轮这样的过程，模型变得擅长恢复，理解微妙和显着的像差。

: 中途生成的图像

训练后生成新图像的过程很有趣。从完全随机的输入开始，使用模型的预测不断完善。目的是用最少的步骤获得原始图像。控制腐败程度是通过“噪音时间表”来完成的，这是一种控制在不同阶段应用多少噪音的机制。调度程序，如“扩散器“，根据既定算法决定了这些噪声再现的性质。

许多扩散模型的一个重要架构支柱是网络-专为需要输出反映输入空间维度的任务而定制的卷积神经网络。它是下采样和上采样层的混合体，错综复杂地连接起来以保留高分辨率数据，这对于图像相关的输出至关重要。

深入研究生成模型领域，OpenAI 达尔-E 2 成为文本和视觉人工智能功能融合的光辉典范。它采用三层结构：

DALL-E 2 展示了三重架构：

文本编码器：它将文本提示转换为潜在空间中的概念嵌入。该模型并非从零开始。它依赖于 OpenAI 的对比语言-图像预训练（CLIP）数据集作为其基础。 CLIP 通过使用自然语言学习视觉概念，充当视觉和文本数据之间的桥梁。通过一种称为对比学习的机制，它可以识别图像并将其与其相应的文本描述进行匹配。
先验：从编码器导出的文本嵌入随后被转换为图像嵌入。 DALL-E 2 测试了该任务的自回归和扩散方法，后者展示了优异的结果。自回归模型（如 Transformers 和 PixelCNN 中所示）按序列生成输出。另一方面，扩散模型（如 DALL-E 2 中使用的模型）借助文本嵌入将随机噪声转换为预测图像嵌入。
解码器：该过程的高潮，这部分根据文本提示和前一阶段的图像嵌入生成最终的视觉输出。 DALL.E 2 的解码器的架构归功于另一个模型，滑行，它还可以根据文本提示生成逼真的图像。

: DALL-E模型的简化架构

Python 用户感兴趣浪链应该查看我们的详细教程，涵盖从基础知识到高级技术的所有内容。

生成式人工智能的应用

文本域

从文本开始，生成式人工智能已经被诸如 ChatGPT。这些实体在很大程度上依赖于自然语言处理（NLP）和大型语言模型（LLM），能够执行从代码生成和语言翻译到摘要和情感分析等任务。例如，ChatGPT 已得到广泛采用，成为数百万人的主要工具。对话式人工智能平台进一步增强了这一点，这些平台以 GPT-4 等法学硕士为基础，棕榈及布卢姆，可以轻松生成文本、协助编程，甚至提供数学推理。

从商业角度来看，这些模型变得非常有价值。企业将它们用于多种运营，包括风险管理、库存优化和预测需求。一些著名的例子包括 Bing AI、Google 的 BARD 和 ChatGPT API。

艺术

图像世界因生成式人工智能而发生了巨大的转变，特别是自 2 年推出 DALL-E 2022 以来。这项技术可以根据文本提示生成图像，具有艺术和专业意义。例如，midjourney 利用这项技术来生成令人印象深刻的逼真图像。最近的这篇文章揭开中途的神秘面纱在详细的指南中，阐明了该平台及其即时的工程复杂性。此外，Alpaca AI 和 Photoroom AI 等平台利用生成式 AI 来实现高级图像编辑功能，例如背景去除、对象删除，甚至面部恢复。

视频制作

视频制作虽然在生成人工智能领域仍处于初级阶段，但正在展示有希望的进步。像 Imagen Video、Meta Make A Video 和 Runway Gen-2 这样的平台正在突破可能的界限，即使真正真实的输出仍然在地平线上。这些模型为创建数字人类视频提供了巨大的实用性，其中 Synthesia 和 SuperCreator 等应用程序处于领先地位。值得注意的是，Tavus AI 通过为个人观众提供个性化视频来提供独特的销售主张，这对企业来说是一个福音。

代码创建

编码是我们数字世界不可或缺的一个方面，它也受到了生成式人工智能的影响。尽管 ChatGPT 是一种受欢迎的工具，但出于编码目的还开发了其他几种人工智能应用程序。这些平台（例如 GitHub Copilot、Alphacode 和 CodeComplete）充当编码助手，甚至可以根据文本提示生成代码。有趣的是这些工具的适应性。 Codex 是 GitHub Copilot 背后的驱动力，可以根据个人的编码风格进行定制，凸显了生成式 AI 的个性化潜力。