人工智能
生成式 AI:CHATGPT、Dall-E、Midjourney 等背后的理念

艺术、交流以及我们感知现实的世界正在迅速发生变化。 如果我们回顾人类创新的历史,我们可能会认为轮子的发明或电的发现是巨大的飞跃。 今天,一场新的革命正在发生——弥合人类创造力和机器计算之间的鸿沟。 这就是生成式人工智能。
生成模型模糊了人类和机器之间的界限。 随着采用 Transformer 模块的 GPT-4 等模型的出现,我们离自然且上下文丰富的语言生成又近了一步。 这些进步推动了文档创建、聊天机器人对话系统,甚至合成音乐创作中的应用。
最近大型科技公司的决策凸显了其重要性。 微软已经 停止使用 Cortana 应用程序 本月优先考虑较新的生成式人工智能创新,例如 Bing Chat。 苹果还投入了很大一部分资金 22.6亿美元的研发预算 正如首席执行官蒂姆·库克所指出的,生成式人工智能。
模型的新时代:生成模型与模型模型歧视性的
生成式人工智能的故事不仅涉及其应用,而且从根本上讲涉及其内部运作。 在人工智能生态系统中,存在两种模型:判别模型和生成模型。
判别模型是大多数人在日常生活中遇到的。这些算法接收输入数据(例如文本或图像),并将其与目标输出(例如单词翻译或医学诊断)配对。它们的核心在于映射和预测。
另一方面,生成模型是创造者。它们不仅仅是解释或预测;它们从通常与现实世界值无关的数字向量中生成新的、复杂的输出。
生成模型背后的技术
生成模型源于深度神经网络,这是一种旨在模拟人脑功能的复杂结构。通过捕捉和处理数据中多方面的差异,这些网络成为众多生成模型的骨干。
这些生成模型是如何实现的? 通常,它们是用深度神经网络构建的,经过优化以捕获数据的多方面变化。 一个典型的例子是 生成性对抗网络 (GAN),其中两个神经网络(生成器和判别器)以独特的师生关系相互竞争和学习。 从绘画到风格转移,从音乐创作到游戏玩法,这些模型正在以以前难以想象的方式演变和扩展。
这不会随着 GAN 而停止。 变体自动编码器 (VAE)是生成模型领域的另一个关键参与者。 VAE 因其能够根据看似随机的数字创建逼真的图像而脱颖而出。 如何? 通过潜在向量处理这些数字催生了反映人类美学复杂性的艺术。
生成式 AI 类型:文本到文本、文本到图像
变形金刚和法学硕士
论文“注意就是您所需要的Google Brain 的文章标志着我们思考文本建模方式的转变。 Transformer 模型没有采用循环神经网络 (RNN) 或卷积神经网络 (CNN) 等复杂的顺序架构,而是引入了注意力的概念,这本质上意味着根据上下文关注输入文本的不同部分。这样做的主要好处之一是易于并行化。与顺序处理文本的 RNN 不同,这使得它们更难扩展,而 Transformer 可以同时处理部分文本,从而使大型数据集上的训练更快、更高效。

- 变压器模型 建筑
在长文本中,并非您读到的每个单词或句子都具有相同的重要性。 有些部分需要根据上下文给予更多关注。 这种根据相关性转移注意力的能力正是注意力机制所模仿的。
为了理解这一点,请思考以下句子:“Unite AI 发布 AI 和机器人技术新闻”。现在,预测下一个词需要了解前一个上下文中最重要的内容。“机器人”一词可能暗示下一个词可能与机器人领域的特定进步或事件相关,而“发布”则可能表明接下来的上下文可能会深入探讨最近的出版物或文章。
Transformer 中的注意力机制旨在实现这种选择性聚焦。它们会评估输入文本不同部分的重要性,并决定在生成响应时“关注”哪些部分。这与 RNN 等试图将所有输入文本的精髓塞进单一“状态”或“记忆”的旧架构截然不同。
注意力机制的运作方式可以类比为一个键值检索系统。在预测句子中下一个单词时,每个前一个单词都会提供一个“键”,暗示其潜在的相关性;根据这些键与当前上下文(或查询)的匹配程度,它们会为预测贡献一个“值”或权重。
这些先进的人工智能深度学习模型已经无缝集成到各种应用程序中,从谷歌的搜索引擎增强功能BERT到GitHub的Copilot,它利用大型语言模型(LLM)的功能将简单的代码片段转换为功能齐全的源代码。
GPT-4、Bard 和 LLaMA 等大型语言模型 (LLM) 是巨大的结构,旨在破译和生成人类语言、代码等。 它们的巨大规模(从数十亿到数万亿个参数)是其定义特征之一。 这些法学硕士获得了大量的文本数据,使他们能够掌握人类语言的复杂性。 这些模型的一个显着特征是它们能够“少拍“ 学习。 与需要大量特定训练数据的传统模型不同,法学硕士可以从非常有限的示例(或“镜头”)中进行概括
截至 2023 年中后期的大型语言模型 (LLM) 状况
| 型号名称 | 开发商 | 参数 | 可用性和访问 | 显着特点和备注 |
| GPT-4 | OpenAI | 1.5万亿 | 非开源,仅 API 访问 | 在各种任务上都有令人印象深刻的表现,可以处理图像和文本,最大输入长度 32,768 个令牌 |
| GPT-3 | OpenAI | 175十亿 | 非开源,仅 API 访问 | 展示了少样本和零样本学习能力。 以自然语言执行文本完成。 |
| 布卢姆 | 大科学 | 176十亿 | 可下载模型,提供托管 API | 通过全球合作开发的多语言法学硕士。 支持13种编程语言。 |
| 拉曼达 | 173十亿 | 不开源,没有 API 或下载 | 经过对话训练可以学会谈论几乎任何事情 | |
| MT-NLG | 英伟达/微软 | 530十亿 | 通过应用程序访问 API | 利用基于 Transformer 的 Megatron 架构来执行各种 NLP 任务。 |
| 骆驼 | 元人工智能 | 7B 至 65B) | 可通过应用程序下载 | 旨在通过为研究人员、政府和学术界人士提供机会来实现人工智能的民主化。 |
法学硕士如何使用?
法学硕士可以通过多种方式使用,包括:
- 直接利用:只需使用预先训练的法学硕士进行文本生成或处理。 例如,使用 GPT-4 编写博客文章,无需任何额外的微调。
- 微调:针对特定任务调整预先训练的法学硕士,这种方法称为迁移学习。一个例子是定制 T5 来生成特定行业文档的摘要。
- 信息检索:使用 LLM(例如 BERT 或 GPT)作为大型架构的一部分来开发可以获取信息和对信息进行分类的系统。
多头注意力:当你可以拥有多个头时,为什么要一个?
然而,依赖单一的注意力机制可能会受到限制。 文本中的不同单词或序列可以具有不同类型的相关性或关联。 这就是多头注意力的用武之地。多头注意力不是一组注意力权重,而是采用多组注意力权重,使模型能够捕获输入文本中更丰富的关系。 每个注意力“头”可以关注输入的不同部分或方面,它们的组合知识用于最终预测。
ChatGPT:最流行的生成式人工智能工具
从 2018 年 GPT 诞生之初,该模型基本上建立在 12 个层、12 个注意力头和 120 亿个参数的基础上,主要在名为 BookCorpus 的数据集上进行训练。这是一个令人印象深刻的开端,让我们得以一窥语言模型的未来。
GPT-2 于 2019 年推出,其层数和注意力头增加了四倍。 值得注意的是,其参数数量猛增至 1.5 亿。 这个增强版本的训练源自 WebText,这是一个包含来自各种 Reddit 链接的 40GB 文本的数据集。
3 年 2020 月推出的 GPT-96 有 96 层、175 个注意力头和 3 亿个海量参数。 GPT-570 的与众不同之处在于其多样化的训练数据,包括 CommonCrawl、WebText、英语维基百科、书籍语料库和其他来源,总计 XNUMX GB。
ChatGPT 的工作原理至今仍是严格保密的秘密。然而,一种名为“从人类反馈中进行强化学习”(RLHF)的流程被认为是其关键所在。这项技术源自早期的 ChatGPT 项目,在完善 GPT-3.5 模型,使其更符合书面指令方面发挥了重要作用。
ChatGPT 的培训包括三个层次的方法:
- 监督微调:涉及策划人工编写的对话输入和输出,以完善底层 GPT-3.5 模型。
- 奖励建模:人类根据质量对各种模型输出进行排名,帮助训练一个根据对话背景对每个输出进行评分的奖励模型。
- 强化学习:对话上下文作为基础模型提出响应的背景。 该响应通过奖励模型进行评估,并使用名为近端策略优化 (PPO) 的算法来优化该过程。
对于那些刚刚接触 ChatGPT 的人来说,可以找到全面的入门指南 此处。如果您希望深入了解 ChatGPT 的提示工程,我们还提供了一份高级指南,其中介绍了最新和最先进的提示技术,可在“ChatGPT 和高级提示工程:推动 AI 发展“。
扩散和多模态模型
虽然 VAE 和 GAN 等模型通过单次生成输出,因此锁定了它们生成的任何内容,但扩散模型引入了“迭代细化'。 通过这种方法,他们回过头来,修正之前步骤中的错误,并逐渐产生更完美的结果。
扩散模型的核心是“腐败”和“细化”。在训练阶段,一张典型的图像会通过添加不同程度的噪声逐渐被破坏。然后将这个带噪声的版本输入到模型中,模型会尝试对其进行“去噪”或“去损坏”。经过多轮训练,模型会变得擅长修复,能够理解细微和显著的像差。
训练后生成新图像的过程非常有趣。从完全随机的输入开始,利用模型的预测不断进行改进。目标是用最少的步骤获得原始图像。控制损坏程度是通过“噪声调度”来实现的,这是一种控制在不同阶段施加多少噪声的机制。调度程序,就像在“扩散器“,根据既定算法决定了这些噪声再现的性质。
许多扩散模型的一个重要架构支柱是 网络——一种卷积神经网络,专门用于需要输出与输入空间维度一致的任务。它融合了下采样层和上采样层,这些层错综复杂地连接在一起,以保留高分辨率数据,这对于图像相关的输出至关重要。
深入研究生成模型领域,OpenAI 的 达尔-E 2 成为文本和视觉人工智能功能融合的光辉典范。 它采用三层结构:
DALL-E 2 展示了三重架构:
- 文本编码器:它将文本提示转换为潜在空间中的概念嵌入。该模型并非从零开始。它依赖于 OpenAI 的对比语言-图像预训练(CLIP)数据集作为其基础。 CLIP 通过使用自然语言学习视觉概念,充当视觉和文本数据之间的桥梁。 通过一种称为对比学习的机制,它可以识别图像并将其与其相应的文本描述进行匹配。
- 先验:从编码器导出的文本嵌入随后被转换为图像嵌入。 DALL-E 2 测试了该任务的自回归和扩散方法,后者展示了优异的结果。 自回归模型(如 Transformers 和 PixelCNN 中所示)按序列生成输出。 另一方面,扩散模型(如 DALL-E 2 中使用的模型)借助文本嵌入将随机噪声转换为预测图像嵌入。
- 解码器:这是整个过程的高潮,这部分根据文本提示和前一阶段的图像嵌入生成最终的视觉输出。DALL.E 2 的解码器架构借鉴了另一个模型, 滑行,它还可以根据文本提示生成逼真的图像。
Python 用户感兴趣 浪链 应该查看我们的详细教程,涵盖从基础知识到高级技术的所有内容。
生成式人工智能的应用
文本域
从文本开始,生成式人工智能已经被诸如 ChatGPT。这些实体在很大程度上依赖于自然语言处理(NLP)和大型语言模型(LLM),能够执行从代码生成和语言翻译到摘要和情感分析等任务。例如,ChatGPT 已得到广泛采用,成为数百万人的主要工具。对话式人工智能平台进一步增强了这一点,这些平台以 GPT-4 等法学硕士为基础, 棕榈和 布卢姆,可以轻松生成文本、协助编程,甚至提供数学推理。
从商业角度来看,这些模型正变得弥足珍贵。企业将它们应用于各种运营领域,包括风险管理、库存优化和需求预测。一些值得关注的例子包括必应人工智能 (Bing AI)、谷歌的 BARD 和 ChatGPT API。
艺术
生成式人工智能 (Generative AI) 为图像领域带来了翻天覆地的变化,尤其是在 2 年 DALL-E 2022 号卫星投入使用之后。这项技术可以根据文本提示生成图像,既具有艺术性,又具有专业性。例如,midjourney 就利用这项技术制作出了令人印象深刻的逼真图像。这篇最新文章 揭开中途的神秘面纱 在详细的指南中,阐明了该平台及其即时的工程复杂性。 此外,Alpaca AI 和 Photoroom AI 等平台利用生成式 AI 来实现高级图像编辑功能,例如背景去除、对象删除,甚至面部恢复。
视频制作
视频制作在生成式人工智能领域尚处于起步阶段,但已展现出令人振奋的进步。Imagen Video、Meta Make A Video 和 Runway Gen-2 等平台正在不断突破可能性的界限,即使真正逼真的输出尚待实现。这些模型为创建数字真人视频提供了强大的实用性,其中 Synthesia 和 SuperCreator 等应用程序处于领先地位。值得一提的是,Tavus AI 的独特卖点在于,它能够根据每位观众的喜好定制视频,这对企业来说无疑是一大利好。
代码创建
编码是我们数字世界中不可或缺的一部分,而生成式人工智能也对其产生了影响。尽管 ChatGPT 备受青睐,但其他一些人工智能应用程序也已开发出来用于编码。这些平台,例如 GitHub Copilot、Alphacode 和 CodeComplete,可以充当编码助手,甚至可以根据文本提示生成代码。令人感兴趣的是这些工具的适应性。GitHub Copilot 背后的驱动力 Codex 可以根据个人的编码风格进行定制,这凸显了生成式人工智能的个性化潜力。
结语
人工智能将人类创造力与机器计算相结合,发展成为一种无价的工具。ChatGPT 和 DALL-E 2 等平台不断突破着人类想象的界限。从精心制作文本内容到塑造视觉杰作,人工智能的应用范围广泛且多样。
与任何技术一样,伦理问题至关重要。虽然生成式人工智能承诺带来无限的创造力,但负责任地使用它至关重要,要意识到潜在的偏见和数据操纵的力量。
随着 ChatGPT 等工具越来越普及,现在正是试水和实验的绝佳时机。无论您是艺术家、程序员还是科技爱好者,生成式人工智能领域都充满了等待探索的可能性。这场革命并非遥不可及,而是就在眼前。所以,赶紧行动起来吧!

















