人工智能

生成式 AI：CHATGPT、DALL-E、Midjourney 等的背后理念

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

艺术、通信和我们对现实的认知的世界正在迅速转变。如果我们回顾人类创新史，我们可能会认为轮子的发明或电力的发现是里程碑式的进步。今天，一场新革命正在发生——弥合人类创造力和机器计算之间的鸿沟。这就是生成式 AI。

生成模型已经模糊了人类和机器之间的界限。随着像 GPT-4 这样的模型的出现，它采用了变换器模块，我们更接近于自然和上下文丰富的语言生成。这些进步推动了文档创建、聊天机器人对话系统，甚至合成音乐创作等应用的发展。

最近的大科技公司决定凸显了其重要性。微软已经在本月停止了其 Cortana 应用，以专注于像 Bing Chat 这样的新一代 AI 创新。苹果也将其 226 亿美元的研发预算中的一大部分投入到了生成式 AI 中，如 CEO Tim Cook 所示。

新时代的模型：生成式与判别式

生成式 AI 的故事不仅仅是关于其应用，而是关于其内部工作原理。在人工智能生态系统中，存在两种模型：判别式和生成式。

判别式模型是人们在日常生活中最常遇到的算法。这些算法取输入数据，例如文本或图像，并将其与目标输出配对，例如单词翻译或医疗诊断。它们是关于映射和预测的。

生成模型，另一方面，是创造者。它们不仅仅是解释或预测；它们从数字向量中生成新的、复杂的输出，这些向量通常与现实世界的值无关。

生成模型背后的技术

生成模型归功于深度神经网络，这些复杂的结构旨在模仿人类大脑的功能。通过捕获和处理数据中的多面变异，这些网络成为许多生成模型的骨干。

这些生成模型是如何诞生的？通常，它们是使用深度神经网络构建的，优化以捕获数据中的多面变异。一个典型的例子是生成对抗网络（GAN），其中两个神经网络，生成器和判别器，竞争和相互学习，形成一种独特的师生关系。从绘画到风格转换，从音乐创作到游戏，这些模型正在以以前无法想象的方式演变和扩展。

这不仅仅局限于 GAN。变分自编码器（VAE）是生成模型领域的另一个关键参与者。VAE 以其能够从看似随机的数字中创建逼真图像而著称。如何做到这一点？通过将这些数字处理为潜在向量，从而产生反映人类美学复杂性的艺术作品。

生成式 AI 类型：文本到文本，文本到图像

变换器和大型语言模型（LLM）

Google Brain 的论文《注意力就是你需要的》标志着我们思考文本建模方式的转变。与其使用复杂的顺序架构，如循环神经网络（RNN）或卷积神经网络（CNN），变换器模型引入了注意力的概念，这基本上意味着根据上下文关注输入文本的不同部分。这种方法的一个主要优势是其易于并行化。与 RNN 不同，RNN 按顺序处理文本，使其更难扩展，变换器可以同时处理文本的不同部分，使训练在大型数据集上更快、更高效。

: 变换器模型架构

在长文本中，并不是每个单词或句子都具有相同的重要性。一些部分根据上下文需要更多的关注。这就是注意力机制模仿的能力。

为了理解这一点，考虑一个句子：“Unite AI 发布 AI 和机器人新闻。”现在，预测下一个单词需要了解上下文中什么最重要。术语“机器人”可能表明下一个单词可能与机器人领域的特定进展或事件有关，而“发布”可能表明后续上下文可能涉及最近的出版物或文章。

: 自注意力演示

变换器中的注意力机制旨在实现这种选择性关注。它们衡量输入文本的不同部分的重要性，并决定在生成响应时“看哪里”。这与旧的架构（如 RNN）不同，RNN 尽力将所有输入文本的精髓压缩成一个“状态”或“记忆”。

注意力的工作原理可以比喻为一个关键值检索系统。在尝试预测句子中的下一个单词时，每个前面的单词提供一个“关键字”，表明其潜在的相关性，并根据这些关键字与当前上下文（或查询）匹配的程度，为预测贡献一个“值”或权重。

这些先进的 AI 深度学习模型已经无缝地集成到各种应用中，从 Google 的搜索引擎增强（使用 BERT）到 GitHub 的 Copilot，它利用大型语言模型（LLM）的能力将简单的代码片段转换为完全功能性的源代码。

大型语言模型（LLM）如 GPT-4、Bard 和 LLaMA，是为解码和生成人类语言、代码等而设计的巨大构造。它们的庞大规模，从数十亿到数万亿的参数，是其定义特征之一。这些 LLM 被大量的文本数据喂养，使它们能够掌握人类语言的细微差别。这些模型的一个显著特征是它们的“少样本”学习能力。与传统模型不同，传统模型需要大量特定的训练数据，LLM 可以从非常有限的示例（或“样本”）中泛化。

大型语言模型（LLM）的状态（截至 2023 年中期）

模型名称	开发者	参数	可用性和访问	显著特征和备注
GPT-4	OpenAI	1.5 万亿	不开源，仅 API 访问	在各种任务上表现出色，可以处理图像和文本，最大输入长度为 32,768 个标记
GPT-3	OpenAI	175 亿	不开源，仅 API 访问	展示了少样本和零样本学习能力。执行自然语言文本完成。
BLOOM	BigScience	176 亿	可下载模型，托管 API 可用	多语言 LLM，由全球合作开发。支持 13 种编程语言。
LaMDA	Google	173 亿	不开源，无 API 或下载	在对话中训练，能够学习讨论几乎任何话题。
MT-NLG	Nvidia/Microsoft	530 亿	通过申请获得 API 访问	利用变换器基于的 Megatron 架构执行各种 NLP 任务。
LLaMA	Meta AI	7B 至 65B)	通过申请下载	旨在通过为研究人员、政府和学术界提供访问权限来民主化 AI。

如何使用 LLM

LLM 可以以多种方式使用，包括：

直接利用：简单地使用预训练的 LLM 进行文本生成或处理。例如，使用 GPT-4 编写博客文章，而无需任何额外的微调。
微调：将预训练的 LLM 适应特定任务，这是一种称为迁移学习的方法。例如，自定义 T5 以生成特定行业文档的摘要。
信息检索：使用 LLM（如 BERT 或 GPT）作为更大架构的一部分，开发可以检索和分类信息的系统。

: 聊天机器人微调架构

多头注意力：为什么只有一头，而不是多头？

然而，依赖单一注意力机制可能是有限的。文本中的不同单词或序列可以具有不同的相关性或关联。这就是多头注意力发挥作用的地方。与其使用一套注意力权重，多头注意力采用多套注意力权重，允许模型捕获输入文本中更丰富的关系。每个注意力“头”都可以关注输入的不同部分，它们的综合知识用于最终预测。

聊天机器人：最受欢迎的生成式 AI 工具

从 GPT 的诞生开始，模型基本上是建立在 12 层、12 个注意力头和 1.2 亿参数的基础上，主要训练在 BookCorpus 数据集上。这是一个令人印象深刻的开始，展现了语言模型的未来。

GPT-2 于 2019 年推出，拥有 4 倍的层数和注意力头。值得注意的是，其参数数量激增至 15 亿。这个增强版本的训练数据来自 WebText，一個包含 40GB 文本的数据集，来源于各种 Reddit 链接。

GPT-3 于 2020 年 5 月推出，拥有 96 层、96 个注意力头和 1750 亿个参数。GPT-3 与众不同的是其多样化的训练数据，包括 CommonCrawl、WebText、英文维基百科、书籍语料库和其他来源，总计 570 GB。

聊天机器人的工作原理仍然是一个严密保守的秘密。然而，一个称为“强化学习从人类反馈”（RLHF）的过程被认为是至关重要的。起源于早期的聊天机器人项目，这种技术在完善 GPT-3.5 模型以使其更符合书面指令方面发挥了重要作用。

聊天机器人的训练包括三个阶段：

监督微调：涉及策划人类撰写的对话输入和输出，以完善底层的 GPT-3.5 模型。
奖励建模：人类对各种模型输出进行排名，根据质量帮助训练一个奖励模型，该模型根据对话的上下文评分每个输出。
强化学习：对话的上下文为底层模型提供了一个背景，在这个背景下，模型提出一个响应。然后使用一个名为近端策略优化（PPO）的算法优化这个过程。

对于刚刚开始使用聊天机器人的用户，一个综合的入门指南可以在这里找到。如果您想更深入地了解聊天机器人中的提示工程，我们还有一份高级指南，介绍了最新的和最先进的提示技术，位于 ‘聊天机器人和高级提示工程：驱动 AI 演化‘。

扩散和多模态模型

虽然像 VAE 和 GAN 这样的模型通过单次传递生成其输出，因此被锁定在它们产生的内容中，扩散模型引入了“迭代细化”的概念。通过这种方法，它们反复循环，完善前几步的错误，并逐渐产生更精致的结果。

扩散模型的核心是“腐蚀”和“精化”的艺术。在它们的训练阶段，一个典型的图像逐渐被腐蚀，通过添加不同级别的噪声。然后将这个噪声版本输入模型，模型尝试“去噪”或“去腐蚀”它。通过多次迭代，模型变得擅长于恢复，理解细微和显著的异常。

: Midjourney 生成的图像

生成新图像的过程很有趣。从完全随机化的输入开始，它不断被模型的预测所完善。目标是用最少的步骤获得完美的图像。通过“噪声时间表”控制噪声水平，这是一种控制不同阶段噪声水平的机制。如在“扩散器”库中看到的那样，调度器根据已建立的算法，根据噪声版本的性质来控制。

扩散模型的基本架构骨干是 U-Net，一种专为需要输出与输入具有相同空间维度的任务而设计的卷积神经网络。它是下采样和上采样层的混合，复杂地连接以保留高分辨率数据，对于图像相关的输出至关重要。

深入生成模型的领域，OpenAI 的 DALL-E 2 成为将文本和视觉 AI 能力的融合的典范。它采用三层结构：

DALL-E 2 展示了三层架构：

文本编码器：它将文本提示转换为潜在空间中的概念嵌入。该模型并非从零开始。它依赖于 OpenAI 的对比语言-图像预训练（CLIP）数据集作为其基础。CLIP 通过学习使用自然语言的视觉概念，作为视觉和文本数据之间的桥梁。通过一种称为对比学习的机制，它识别和匹配图像及其对应的文本描述。
先验：从编码器得出的文本嵌入然后转换为图像嵌入。DALL-E 2 测试了自动回归和扩散方法用于此任务，后者表现出更好的结果。自动回归模型，如变换器和 PixelCNN，按序列生成输出。另一方面，DALL-E 2 中使用的扩散模型，将随机噪声转换为具有文本嵌入帮助的预测图像嵌入。
解码器：这是过程的高潮，这部分根据文本提示和先验阶段的图像嵌入生成最终的视觉输出。DALL-E 2 的解码器归功于另一个模型 GLIDE，它也可以从文本提示生成逼真的图像。

: 简化的 DALL-E 模型架构

对 Python 用户感兴趣的 Langchain 应该查看我们关于从基础到高级技术的详细教程。

生成式 AI 的应用

文本领域

从文本开始，生成式 AI 已经通过聊天机器人如 ChatGPT 进行了根本性的改变。这些实体依赖于自然语言处理（NLP）和大型语言模型（LLM），能够执行从代码生成和语言翻译到摘要和情感分析的任务。ChatGPT 已经被广泛采用，成为数百万人的必备工具。这得到了基于 LLM 的对话式 AI 平台的补充，例如 GPT-4、PaLM 和 BLOOM，它们轻松地生成文本、协助编程，甚至提供数学推理。

从商业角度来看，这些模型变得无价。企业将它们用于各种运营，包括风险管理、库存优化和需求预测。一些值得注意的例子包括 Bing AI、Google 的 BARD 和 ChatGPT API。

艺术

图像的世界自 2022 年 DALL-E 2 的推出以来经历了戏剧性的转变。这种可以从文本提示生成图像的技术具有艺术和专业意义。例如，Midjourney 利用了这项技术，生产出令人印象深刻的逼真图像。这篇最近的帖子揭开了 Midjourney 的神秘面纱，提供了一个详细的指南，阐明了该平台及其提示工程的复杂性。此外，像 Alpaca AI 和 Photoroom AI 这样的平台利用生成式 AI 进行高级图像编辑功能，例如背景去除、对象删除，甚至面部恢复。

视频制作

视频制作虽然仍处于生成式 AI 的初期阶段，但正在展示出有希望的进步。像 Imagen Video、Meta Make A Video 和 Runway Gen-2 这样的平台正在突破可能性的界限，即使真正逼真的输出仍然在未来。这些模型为创建数字人视频提供了实质性的用途，像 Synthesia 和 SuperCreator 这样的应用程序正在引领潮流。值得注意的是，Tavus AI 提供了一个独特的销售主张，通过为个人受众定制视频，这对企业来说是一个福音。

代码创建

编码，这是我们数字世界的必备方面，并没有被生成式 AI 所忽视。虽然 ChatGPT 是一个首选工具，但已经开发了几种其他 AI 应用程序，用于编码目的。这些平台，例如 GitHub Copilot、Alphacode 和 CodeComplete，作为编码助手，甚至可以从文本提示生成代码。值得注意的是，这些工具的适应性。Codex，GitHub Copilot 的驱动力，可以根据个人的编码风格进行定制，凸显了生成式 AI 的个性化潜力。

结论

融合人类创造力和机器计算，生成式 AI 已经演变成一个无价的工具，ChatGPT 和 DALL-E 2 等平台正在拓展可能性的边界。从创作文本内容到雕刻视觉杰作，其应用广泛而多样。

与任何技术一样，伦理影响至关重要。虽然生成式 AI 提出无限的创造力，但以负责任的方式使用它至关重要，意识到潜在的偏见和数据操纵的力量。

随着工具如 ChatGPT 变得更加便捷，现在是时候去尝试和实验了。无论您是艺术家、编码员还是科技爱好者，生成式 AI 的领域都充满了等待被探索的可能性。革命不在地平线上；它就在这里。所以，深入探索！

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI