提示工程

更深入地了解OpenAI的DALL-E 3

发布于 2023年10月31日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

在生成式AI世界中，跟上最新发展是游戏的名字。而当谈到生成图像时，Stable Diffusion和Midjourney曾经是大家都在谈论的平台——直到现在。

OpenAI，得到了科技巨头Microsoft的支持，于2023年9月20日推出了DALL·E 3。

DALL-E 3不仅仅是关于创建图像；它是关于将您的想法变为现实，就像您想象的那样。而且最好的部分是什么？它非常快，您有一个想法，您将其输入DALL-E 3，然后，哇，您的图像就准备好了。

因此，在这篇文章中，我们将深入探讨DALL-E 3的所有内容。我们将讨论它的工作原理，它与其他的区别，以及为什么它可能是您需要的工具。无论您是设计师、艺术家还是有很多很酷想法的人，您都将想要停下来看这篇文章。让我们开始吧。

DALL·E 3的新特点是，它比DALL·E 2更好地理解上下文。早期版本可能会错过一些细节或忽略一些细节，但DALL·E 3是准确的。它捕捉到您要求的内容的确切细节，给您一个更接近您想象的图片。

酷的部分是什么？DALL·E 3和ChatGPT现在集成在一起。它们共同帮助完善您的想法。您提出一个概念，ChatGPT帮助完善提示，DALL·E 3将其变为现实。如果您不喜欢图像，您可以要求ChatGPT调整提示，然后让DALL·E 3再试一次。每月20美元，您可以获得GPT-4、DALL·E 3和许多其他很酷的功能。

Microsoft的Bing Chat甚至在OpenAI的ChatGPT之前获得了DALL·E 3，现在不仅仅是大型企业可以使用它，任何人都可以免费使用它。将其集成到Bing Chat和Bing Image Creator中，使其更容易被任何人使用。

扩散模型的崛起

在过去的三年里，视觉AI领域见证了扩散模型的崛起，尤其是在图像生成方面取得了显著进步。在扩散模型之前，生成式对抗网络（GANs）是生成真实图像的主要技术。

GANs

然而，它们面临着诸如需要大量数据和计算能力等挑战，这使得它们难以处理。

这时，扩散模型出现了。它们成为GANs更稳定和高效的替代品。与GANs不同，扩散模型通过向数据添加噪声来工作，直到只剩下随机性。然后，它们逆转这个过程，从噪声中重建有意义的数据。这个过程被证明是有效的，并且计算资源更少，使得扩散模型在AI社区中成为一个热门话题。

真正的转折点出现在2020年，伴随着一系列创新论文和OpenAI的CLIP技术的推出，这大大提高了扩散模型的能力。这使得扩散模型在文本到图像合成方面变得非常擅长，能够从文本描述中生成真实的图像。这些突破不仅仅是在图像生成方面，也在音乐创作和生物医学研究等领域取得了进展。

今天，扩散模型不仅仅是学术界的兴趣话题，也被应用于实际的现实场景中。

生成式建模和自注意力层：DALL-E 3

Source

该领域的一个关键进展是生成式建模的演进，采样式方法如自回归生成式建模和扩散过程引领了潮流。它们改变了文本到图像模型，带来了显著的性能改进。通过将图像生成分解为离散步骤，这些模型变得更易于处理和更容易被神经网络学习。

同时，自注意力层的使用也发挥了至关重要的作用。这些层叠在一起，帮助生成图像而无需隐式空间偏见，这是卷积的一个常见问题。这种转变使得文本到图像模型能够扩展和改进，从而具有可靠的缩放特性。

图像生成中的挑战和解决方案

尽管取得了这些进展，图像生成中的可控性仍然是一个挑战。例如，模型可能不严格遵循输入文本的问题一直存在。为了解决这个问题，提出了一种新的方法，如字幕改进，以提高训练数据集中文本和图像对的质量。

字幕改进：一种新方法

字幕改进涉及为图像生成更高质量的字幕，这反过来又有助于训练更准确的文本到图像模型。这是通过一个强大的图像字幕生成器来实现的，该生成器为图像生成详细和准确的描述。通过训练这些改进的字幕，DALL-E 3能够取得了令人惊叹的成果，非常接近人类拍摄的照片和艺术作品。

在合成数据上训练

在合成数据上训练的概念并不是新鲜的。然而，这里的独特贡献在于创建一个新颖的描述性图像字幕系统。使用合成字幕训练生成式模型的影响是显著的，导致模型在遵循提示方面的准确性有了改进。

评估DALL-E 3

通过与之前的模型如DALL-E 2和Stable Diffusion XL的多次评估和比较，DALL-E 3表现出了卓越的性能，特别是在遵循提示的任务中。

Comparison of text-to-image models on various evaluations

使用自动评估和基准测试提供了明确的证据，证明了其能力，巩固了其作为最先进的文本到图像生成器的地位。

DALL-E 3提示和能力

DALL-E 3提供了一个更逻辑和精炼的创建视觉效果的方法。随着您滚动浏览，您会注意到DALL-E如何精心制作每个图像，结合准确性和想象力来响应给定的提示。

与其前身相比，这个升级版本在安排场景中的物体和描绘人类特征方面表现出色，包括手上的手指数量等细节。改进还延伸到更细节的方面，并以更高的分辨率提供，确保输出更加真实和专业。

文本渲染能力也得到了显著改进。DALL-E之前的版本会产生乱码文本，而DALL-E 3现在可以生成清晰和专业风格的字体（有时），甚至可以生成干净的Logo。

模型对复杂和细致的图像请求的理解也得到了显著提高。DALL-E 3现在可以准确地遵循详细的描述，即使在多个元素和特定指令的场景中，展示了其生成连贯和结构良好的图像的能力。让我们来看看一些提示和相应的输出：

设计一系列有机茶的包装。包括产品名称和描述的空间。

DALL-E 3 images based on text prompts (Note that the left poster have wrong spelling)

创建一个网页横幅，宣传户外家具的夏季促销。图像中有一个海滩场景，展示不同的户外家具，并有文字宣传“巨大的夏季节省！”

DALL-E 3 images based on text prompts

一张巴黎的复古旅行海报，底部有大胆和风格化的文字“访问巴黎”。

DALL-E 3 images based on text prompts (Note that both posters have wrong spellings)

生成一张印度排灯节的热闹场景，家庭们点灯，天空中有烟花，传统的甜点和装饰。

DALL-E 3 images based on text prompts

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI