人工智能
生成式 AI:CHATGPT、DALL-E、Midjourney 等的理念

艺术、沟通和我们对现实的认知的世界正在迅速转变。如果我们回顾人类创新史,我们可能会认为轮子的发明或电力的发现是巨大的飞跃。今天,一场新的革命正在发生——弥合人类创造力和机器计算之间的鸿沟。这就是生成式 AI。
生成式模型已经模糊了人类和机器之间的界限。随着像 GPT-4 这样的模型的出现,它采用了变换器模块,我们已经更接近于自然和上下文丰富的语言生成。这些进步已经推动了文档创建、聊天机器人对话系统,甚至合成音乐创作等应用的发展。
最近的大型科技公司的决定凸显了其重要性。微软已经决定在本月停止其 Cortana 应用程序,以专注于更先进的生成式 AI 创新,如 Bing Chat。苹果也将其 226 亿美元的研发预算中的一大部分投入到生成式 AI 中,如 CEO 蒂姆·库克所示。
新的模型时代:生成式与判别式
生成式 AI 的故事不仅仅是关于其应用,而是关于其内部工作原理。在人工智能生态系统中,存在两种模型:判别式和生成式。
判别式模型是我们在日常生活中遇到的大多数算法。这些算法接受输入数据,例如文本或图像,并将其与目标输出配对,例如单词翻译或医疗诊断。它们是关于映射和预测的。
生成式模型,另一方面,是创造者。它们不仅仅是解释或预测;它们从不相关于实际值的数字向量中生成新的、复杂的输出。
生成式模型背后的技术
生成式模型归功于深度神经网络,这些复杂的结构旨在模仿人类大脑的功能。通过捕获和处理数据中的多面变异,这些网络成为许多生成式模型的骨干。
这些生成式模型是如何诞生的?通常,它们是使用深度神经网络构建的,优化以捕获数据中的多面变异。一个典型的例子是生成式对抗网络(GAN),其中两个神经网络,生成器和判别器,竞争和相互学习,形成一种独特的师生关系。从绘画到风格转换,从音乐创作到游戏, 这些模型正在以以前无法想象的方式进化和扩展。
这并不止于 GAN。变分自编码器(VAE)是生成式模型领域的另一个关键参与者。VAE 以其能够从看似随机的数字中创建逼真图像而著称。如何做到这一点?通过将这些数字处理为潜在向量,从而产生反映人类美学复杂性的艺术作品。
生成式 AI 类型:文本到文本,文本到图像
变换器和大型语言模型(LLM)
谷歌大脑的论文“注意力就是一切”标志着我们思考文本建模方式的转变。与复杂的顺序架构(如循环神经网络(RNN)或卷积神经网络(CNN))不同,变换器模型引入了注意力概念,这本质上意味着根据上下文关注输入文本的不同部分。这种方法的一个主要好处是其易于并行化。与 RNN 不同,RNN 按顺序处理文本,使其难以扩展,变换器可以同时处理文本的不同部分,使训练更快、更高效。

- 变换器模型架构
在长文本中,并不是每个单词或句子都具有相同的重要性。有些部分根据上下文需要更多的关注。这就是注意力机制模仿的能力。
为了理解这一点,考虑一个句子:“Unite AI 发布 AI 和机器人新闻。”预测下一个单词需要了解上下文中最重要的内容。术语“机器人”可能表明下一个单词与机器人领域的特定进展或事件有关,而“发布”可能表明下一个上下文可能涉及最近的出版物或文章。
变换器中的注意力机制旨在实现这种选择性关注。它们衡量输入文本的不同部分的重要性,并决定在生成响应时“看哪里”。这与旧的架构(如 RNN)不同,RNN 尽力将所有输入文本的精髓压缩成一个“状态”或“记忆”。
注意力的工作原理可以比作一个键值检索系统。在尝试预测句子中的下一个单词时,每个前面的单词提供一个“键”,表明其潜在的相关性,并根据这些键与当前上下文(或查询)匹配的程度,为预测贡献一个“值”或权重。
这些先进的 AI 深度学习模型已经无缝地集成到各种应用中,从谷歌的搜索引擎增强(使用 BERT)到 GitHub 的 Copilot,它利用大型语言模型(LLM)的能力将简单的代码片段转换为完全功能的源代码。
大型语言模型(LLM),如 GPT-4、Bard 和 LLaMA,是为解码和生成人类语言、代码等而设计的巨大构造。它们的巨大规模,从数十亿到数万亿参数,是其定义特征之一。这些 LLM 被大量文本数据所喂养,使它们能够掌握人类语言的细微差别。这些模型的一个显著特征是它们的“少样本”学习能力。与传统模型不同,传统模型需要大量特定训练数据,LLM 可以从非常有限的示例(或“样本”)中概括。
大型语言模型(LLM)的现状(截至 2023 年中期)
| 模型名称 | 开发者 | 参数 | 可用性和访问 | 显著功能和备注 |
| GPT-4 | OpenAI | 1.5 万亿 | 不开源,仅 API 访问 | 在各种任务中表现出色,可以处理图像和文本,最大输入长度为 32,768 个标记 |
| GPT-3 | OpenAI | 175 亿 | 不开源,仅 API 访问 | 展示了少样本和零样本学习能力。在自然语言中执行文本完成 |
| BLOOM | BigScience | 176 亿 | 可下载模型,托管 API 可用 | 由全球合作开发的多语言 LLM,支持 13 种编程语言 |
| LaMDA | 173 亿 | 不开源,无 API 或下载 | 接受对话训练,可以学习讨论几乎任何话题 | |
| MT-NLG | Nvidia/Microsoft | 530 亿 | 通过申请获得 API 访问 | 利用基于变换器的 Megatron 架构执行各种 NLP 任务 |
| LLaMA | Meta AI | 7B 至 65B | 通过申请下载 | 旨在通过为研究、政府和学术界提供访问权限来民主化 AI |
如何使用 LLM
LLM 可以以多种方式使用,包括:
- 直接使用:简单地使用预训练的 LLM 进行文本生成或处理。例如,使用 GPT-4 编写博客文章,而无需任何额外的微调。
- 微调:将预训练的 LLM 适应特定任务,这是一种称为迁移学习的方法。例如,自定义 T5 以生成特定行业文档的摘要。
- 信息检索:使用 LLM(如 BERT 或 GPT)作为更大体系结构的一部分,以开发可以检索和分类信息的系统。
多头注意力:为什么选择多个,而不是一个?
然而,依赖单一注意力机制可能会受到限制。文本中的不同单词或序列可能具有不同的相关性或关联类型。这就是多头注意力机制的作用。与使用单一注意力权重不同,多头注意力机制使用多个注意力权重集,使模型能够捕获输入文本中更丰富的关系。每个注意力“头”都可以关注输入的不同部分或方面,并将它们的综合知识用于最终预测。
ChatGPT:最流行的生成式 AI 工具
从 GPT 的诞生开始,模型基本上是建立在 12 层、12 个注意力头和 1.2 亿参数的基础上,主要训练在 BookCorpus 数据集上。这个开始很令人印象深刻,展现了语言模型的未来。
GPT-2 于 2019 年推出,拥有四倍的层数和注意力头。其参数数量激增至 15 亿。这个增强版本的训练数据来自 WebText,一个包含 40GB 文本的数据集,来源于各种 Reddit 链接。
GPT-3 于 2020 年 5 月推出,拥有 96 层、96 个注意力头和 175 亿个参数。GPT-3 的独特之处在于其多样化的训练数据,包括 CommonCrawl、WebText、英文维基百科、书籍语料库和其他来源,总共 570 GB。
ChatGPT 的工作原理仍然是一个严密保守的秘密。然而,一个称为“从人类反馈中强化学习”(RLHF)的过程被认为是至关重要的。这个技术源自早期的 ChatGPT 项目,对于完善 GPT-3.5 模型以使其更符合书面指令至关重要。
ChatGPT 的训练包括三个阶段:
- 监督微调:涉及策划人类编写的对话输入和输出,以精炼底层的 GPT-3.5 模型。
- 奖励建模:人类根据质量对各种模型输出进行排名,有助于训练一个奖励模型,该模型根据对话的上下文评估每个输出的分数。
- 强化学习:对话的上下文为底层模型提出响应提供了背景,该响应由奖励模型评估,并使用名为 Proximal Policy Optimization(PPO)的算法进行优化。
对于那些刚刚开始使用 ChatGPT 的人,一个全面的入门指南可以在 这里 找到。如果您想更深入地了解 ChatGPT 的提示工程,我们还有一份关于最新和最先进的提示技术的高级指南,位于 ChatGPT 和高级提示工程:推动 AI 演进。
扩散和多模态模型
虽然像 VAE 和 GAN 这样的模型通过单次传递生成输出,因此被锁定在它们产生的内容中,扩散模型引入了“迭代精化”的概念。通过这种方法,它们反复循环,改进前一步骤中的错误,并逐渐产生更精致的结果。
扩散模型的核心是“腐化”和“精化”的艺术。在训练阶段,典型的图像逐渐被各种级别的噪声腐化。然后将这个噪声版本输入模型,模型尝试“去噪”或“去腐化”它。通过多次这样的循环,模型变得擅长于恢复,理解细微和显著的异常。
生成新图像的过程很有趣。从完全随机化的输入开始,使用模型的预测不断地对其进行精化。目标是通过最少的步骤获得完美的图像。通过“噪声调度”控制噪声水平,这是一种管理不同阶段噪声应用的机制。像“扩散器”这样的库中可以看到调度器,它根据既定的算法决定噪声版本的性质。
许多扩散模型的基本架构是 U-Net——一种专为需要输出与输入空间维度匹配的任务而设计的卷积神经网络。它是下采样和上采样层的混合,精心连接以保留高分辨率数据,对于图像相关输出至关重要。
深入生成式模型领域,OpenAI 的 DALL-E 2 成为文本和视觉 AI 能力的融合的典范。它采用三层结构:
DALL-E 2 展示了三层架构:
- 文本编码器:将文本提示转换为潜在空间中的概念嵌入。该模型并不从零开始。它依赖于 OpenAI 的对比语言-图像预训练(CLIP)数据集作为其基础。CLIP 通过学习使用自然语言的视觉概念来桥接视觉和文本数据。通过一种称为对比学习的机制,它识别和匹配图像与其对应的文本描述。
- 先验:从编码器得出的文本嵌入然后转换为图像嵌入。DALL-E 2 测试了自动回归和扩散方法用于此任务,后者显示出更好的结果。自动回归模型,如变换器和 PixelCNN,按序列生成输出。另一方面,DALL-E 2 中使用的扩散模型将随机噪声转换为预测图像嵌入,使用文本嵌入的帮助。
- 解码器:这是过程的高潮,根据文本提示和先验阶段的图像嵌入生成最终的视觉输出。DALL-E 2 的解码器归功于另一个模型 GLIDE,它也可以从文本提示生成逼真的图像。
对 Python 感兴趣的用户可以查看我们的详细教程,涵盖从基础到高级技术的所有内容,关于 Langchain。
生成式 AI 的应用
文本领域
从文本开始,生成式 AI 已经通过聊天机器人如 ChatGPT 进行了根本性的改变。这些实体依赖于自然语言处理(NLP)和大型语言模型(LLM),能够执行从代码生成和语言翻译到摘要和情感分析的任务。ChatGPT 已经被广泛采用,成为数百万人的必备工具。这得到了基于 LLM 的对话式 AI 平台的进一步增强,例如 GPT-4、PaLM 和 BLOOM,它们轻松地生成文本、协助编程,甚至提供数学推理。
艺术
图像的世界已经由于生成式 AI,尤其是 2022 年 DALL-E 2 的引入而发生了戏剧性的转变。这种可以从文本提示生成图像的技术具有艺术和专业的影响。例如,Midjourney 利用这项技术生成了令人印象深刻的逼真图像。最近的一篇文章 揭开了 Midjourney 的神秘面纱,提供了对该平台及其提示工程复杂性的详细指南。此外,Alpaca AI 和 Photoroom AI 等平台利用生成式 AI 实现高级图像编辑功能,例如背景删除、对象删除,甚至面部恢复。
视频制作
视频制作虽然仍处于生成式 AI 领域的初期阶段,但正在展示出有前途的进步。像 Imagen Video、Meta Make A Video 和 Runway Gen-2 这样的平台正在突破可能性的界限,即使真正逼真的输出仍然在视野中。这些模型为创建数字人视频提供了巨大的实用性,应用程序如 Synthesia 和 SuperCreator 领先于这一潮流。值得注意的是,Tavus AI 提供了一个独特的销售主张,即为个人受众个性化视频,这对企业来说是一个福音。
代码创建
编码,数字世界中不可或缺的一部分,也没有被生成式 AI 所忽视。虽然 ChatGPT 是一个最喜欢的工具,但已经开发了几种其他 AI 应用程序用于编码目的。这些平台,例如 GitHub Copilot、Alphacode 和 CodeComplete,作为编码助手,甚至可以从文本提示生成代码。令人着迷的是这些工具的适应性。GitHub Copilot 背后的驱动力 Codex 可以根据个人的编码风格进行定制,突出了生成式 AI 的个性化潜力。
结论
将人类的创造力与机器计算相结合,生成式 AI 已经发展成为一个无价的工具,像 ChatGPT 和 DALL-E 2 这样的平台正在拓展其应用的边界。从创作文本内容到雕刻视觉杰作,其应用是广泛和多样的。
与任何技术一样,伦理影响至关重要。虽然生成式 AI 提出无限的创造力,但以负责任的方式使用它至关重要,意识到潜在的偏见和数据操作的力量。
随着像 ChatGPT 这样的工具变得更加便捷,现在是测试和尝试的最佳时机。无论您是艺术家、编码员还是科技爱好者,生成式 AI 的领域都充满了等待被探索的可能性。革命不在地平线上;它就在这里和现在。所以,跳入生成式 AI 的世界吧!

















