即时工程

近距离观察 OpenAI 的 DALL-E 3

发布时间

7个月前

2023 年 10 月 31 日

阿尤什·米塔尔

在生成式人工智能世界，紧跟最新潮流就是游戏的名称。当涉及到生成图像时，稳定扩散和中途到目前为止，这是每个人都在谈论的平台。

OpenAI 在科技巨头微软的支持下推出了达尔·E 3 9月20th，2023。

DALL-E 3 不仅仅用于创建图像；它还用于创建图像。而是按照您想象的方式将您的想法变为现实。最好的部分是什么？它很快，真的很快。您有了一个想法，将其输入 DALL-E 3，然后，您的图像就准备好了。

因此，在本文中，我们将深入探讨 DALL-E 3 的全部内容。我们将讨论它的工作原理、它与其他工具的区别以及为什么它可能只是您不知道自己需要的工具。无论您是设计师、艺术家，还是只是有很多酷想法的人，您都会想坚持下去。让我们开始吧。

DALL·E 3 的新之处在于它比 DALL·E 2 更好地获取上下文。早期版本可能遗漏了一些细节或忽略了一些细节，但 DALL·E 3 是正确的。它会获取您所要求的确切细节，为您提供更接近您想象的图片。

最酷的部分？达尔·E 3 和 ChatGPT 现在已经整合在一起了。他们共同努力帮助完善您的想法。您拍摄一个概念，ChatGPT 帮助微调提示，DALL·E 3 将其变为现实。如果您不喜欢该图像，您可以要求 ChatGPT 调整提示并让 DALL·E 3 重试。每月支付 20 美元，您就可以使用 GPT-4、DALL·E 3 和许多其他很酷的功能。

微软的必应聊天甚至在 OpenAI 的 ChatGPT 之前就已经掌握了 DALL·E 3，现在不仅是大企业，而是每个人都可以免费使用它。与 Bing Chat 和 Bing Image Creator 的集成使其更易于任何人使用。

扩散模型的兴起

在过去的三年里，视觉人工智能见证了扩散模型的兴起，取得了重大飞跃，特别是在图像生成方面。在扩散模型之前，生成对抗网络（GAN）是生成逼真图像的首选技术。

GAN

然而，他们也面临着一些挑战，包括需要大量数据和计算能力，这往往使他们难以处理。

输入扩散楷模。它们成为 GAN 的更稳定、更高效的替代品。与 GAN 不同，扩散模型的工作原理是向数据添加噪声，使其变得模糊，直到只剩下随机性。然后他们向后工作以扭转这个过程，从噪音中重建有意义的数据。这一过程已被证明是有效的且资源密集程度较低，使得扩散模型成为人工智能社区的热门话题。

真正的转折点出现在 2020 年左右，一系列创新论文和引入 OpenAI 的 CLIP 技术，显着提高了扩散模型的能力。这使得扩散模型非常擅长文本到图像的合成，使它们能够从文本描述生成逼真的图像。这些突破不仅体现在图像生成方面，还体现在诸如音乐创作和生物医学研究.

如今，扩散模型不仅是学术界感兴趣的话题，而且还被用于实际的现实场景中。

生成建模和自注意力层：DALL-E 3

来源

该领域的关键进步之一是生成模型的发展，其中基于采样的方法（例如自回归生成模型和扩散过程）处于领先地位。他们改变了文本到图像的模型，从而显着提高了性能。通过将图像生成分解为离散的步骤，这些模型变得更容易处理，更容易让神经网络学习。

与此同时，自注意力层的使用发挥了至关重要的作用。这些层堆叠在一起，有助于生成图像，而无需隐式空间偏差（这是卷积的常见问题）。由于变压器具有易于理解的缩放特性，这种转变使得文本到图像模型能够可靠地缩放和改进。

图像生成的挑战和解决方案

尽管取得了这些进步，图像生成的可控性仍然是一个挑战。诸如提示跟随之类的问题（模型可能无法紧密贴合输入文本）已经很普遍。为了解决这个问题，人们提出了标题改进等新方法，旨在提高训练数据集中文本和图像配对的质量。

字幕改进：一种新颖的方法

字幕改进涉及为图像生成更高质量的字幕，这反过来又有助于训练更准确的文本到图像模型。这是通过强大的图像字幕生成器来实现的，该图像字幕生成器可以生成详细且准确的图像描述。通过对这些改进的字幕进行训练，DALL-E 3 已经能够取得显着的结果，与人类制作的照片和艺术品非常相似。

综合数据培训

合成数据训练的概念并不新鲜。然而，这里的独特贡献在于创建了一种新颖的描述性图像字幕系统。使用合成字幕训练生成模型的影响是巨大的，从而提高了模型准确遵循提示的能力。

评估 DALL-E 3

通过与 DALL-E 2 和 Stable Diffusion XL 等之前模型的多次评估和比较，DALL-E 3 表现出了卓越的性能，尤其是在与提示跟随相关的任务中。

文本到图像模型在各种评估上的比较

自动化评估和基准的使用为其能力提供了明确的证据，巩固了其作为最先进的文本到图像生成器的地位。

DALL-E 3 提示和功能

DALL-E 3 提供了一种更符合逻辑、更精致的视觉效果创建方法。当您滚动浏览时，您会注意到 DALL-E 如何制作每张图像，融合了准确性和想象力，与给定的提示产生共鸣。

与它的前身不同，这个升级版本擅长在场景中自然地排列物体，并准确地描绘人类特征，甚至精确到手上的手指数量。这些增强功能扩展到更精细的细节，现在可以提供更高分辨率，确保输出更真实、更专业。

文本渲染能力也有了实质性的提高。 DALL-E 以前的版本会生成乱码文本，而 DALL-E 3 现在可以生成清晰且专业风格的字体（有时），有时甚至可以生成干净的徽标。

该模型对复杂且细致的图像请求的理解得到了显着增强。即使在具有多个元素和特定指令的场景中，DALL-E 3 现在也可以准确地遵循详细描述，这证明了其生成连贯且构图良好的图像的能力。让我们探索一些提示以及我们得到的相应输出：

Design the packaging for a line of organic teas. Include space for the product name and description.

DALL-E 3 基于文字提示的图片（注意左边海报拼写错误）

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

DALL-E 3 基于文字提示的图像

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

基于文字提示的 DALL-E 3 图片（注意两张海报都有拼写错误）

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

DALL-E 3 基于文字提示的图像

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

DALL-E 3 基于文字提示的图像

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

DALL-E 3 基于文字提示的图像

DALL-E 3 的局限性和风险

OpenAI 已采取重大措施从 DALL-E 3 的训练数据中过滤显式内容，旨在减少偏差并改进模型的输出。这包括对敏感内容类别应用特定过滤器以及对更广泛过滤器的阈值进行修订。缓解堆栈还包括多层保护措施，例如 ChatGPT 中针对敏感主题的拒绝机制、用于防止策略违规的提示输入分类器、特定内容类别的阻止列表以及用于确保提示符合准则的转换。

尽管取得了进步，DALL-E 3 在理解空间关系、准确渲染长文本和生成特定图像方面仍存在局限性。 OpenAI 承认这些挑战，并正在努力改进未来版本。

该公司还在研究如何区分人工智能生成的图像和人类制作的图像，体现了他们对透明度和负责任的人工智能使用的承诺。

达尔·E 3

最新版本 DALL-E 3 将分阶段向特定客户群体提供，随后扩展到研究实验室和 API 服务。不过，免费公开发布日期尚未确定。

OpenAI 通过 DALL-E 3 真正在人工智能领域树立了新标准，无缝地连接了复杂的技术能力和用户友好的界面。 DALL-E 3 与 Bing 等广泛使用的平台的集成反映了从专业应用程序向更广泛、更易于访问的娱乐和实用形式的转变。

未来几年真正的游戏规则改变者可能是创新和用户授权之间的平衡。蓬勃发展的公司不仅能够突破人工智能所能实现的界限，而且能够为用户提供他们想要的自主权和控制权。 OpenAI 致力于道德人工智能，正在谨慎地探索这条道路。目标很明确：创建不仅强大、而且值得信赖和包容的人工智能工具，确保所有人都能享受到人工智能的好处。

相关话题：AI 聊天工具达尔-E 3 图像生成 OpenAI

下一步

类比提示和后退提示：深入了解 Google DeepMind 的最新进展

不要错过

及时黑客攻击和滥用法学硕士

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能

近距离观察 OpenAI 的 DALL-E 3

即时工程

近距离观察 OpenAI 的 DALL-E 3

目录

扩散模型的兴起

生成建模和自注意力层：DALL-E 3

图像生成的挑战和解决方案

字幕改进：一种新颖的方法

综合数据培训

评估 DALL-E 3

DALL-E 3 提示和功能

DALL-E 3 的局限性和风险

最新文章

联合人工智能

近距离观察 OpenAI 的 DALL-E 3

目录

扩散模型的兴起

生成建模和自注意力层：DALL-E 3

图像生成的挑战和解决方案

字幕改进：一种新颖的方法

综合数据培训

评估 DALL-E 3

DALL-E 3 提示和功能

DALL-E 3 的局限性和风险

你可能会喜欢

最新文章