提示工程

更深入地了解OpenAI的DALL-E 3

mm
DALL·E 3

在生成式AI世界中,跟上最新发展是游戏的名字。而当谈到生成图像时,Stable Diffusion和Midjourney曾经是大家都在谈论的平台——直到现在。

OpenAI,得到了科技巨头Microsoft的支持,于2023年9月20日推出了DALL·E 3。

DALL-E 3不仅仅是关于创建图像;它是关于将您的想法变为现实,就像您想象的那样。而且最好的部分是什么?它非常快,您有一个想法,您将其输入DALL-E 3,然后,哇,您的图像就准备好了。

因此,在这篇文章中,我们将深入探讨DALL-E 3的所有内容。我们将讨论它的工作原理,它与其他的区别,以及为什么它可能是您需要的工具。无论您是设计师、艺术家还是有很多很酷想法的人,您都将想要停下来看这篇文章。让我们开始吧。

DALL·E 3的新特点是,它比DALL·E 2更好地理解上下文。早期版本可能会错过一些细节或忽略一些细节,但DALL·E 3是准确的。它捕捉到您要求的内容的确切细节,给您一个更接近您想象的图片。

酷的部分是什么?DALL·E 3和ChatGPT现在集成在一起。它们共同帮助完善您的想法。您提出一个概念,ChatGPT帮助完善提示,DALL·E 3将其变为现实。如果您不喜欢图像,您可以要求ChatGPT调整提示,然后让DALL·E 3再试一次。每月20美元,您可以获得GPT-4、DALL·E 3和许多其他很酷的功能。

Microsoft的Bing Chat甚至在OpenAI的ChatGPT之前获得了DALL·E 3,现在不仅仅是大型企业可以使用它,任何人都可以免费使用它。将其集成到Bing Chat和Bing Image Creator中,使其更容易被任何人使用。

扩散模型的崛起

在过去的三年里,视觉AI领域见证了扩散模型的崛起,尤其是在图像生成方面取得了显著进步。在扩散模型之前,生成式对抗网络(GANs)是生成真实图像的主要技术。

GANs

GANs

然而,它们面临着诸如需要大量数据和计算能力等挑战,这使得它们难以处理。

这时,扩散模型出现了。它们成为GANs更稳定和高效的替代品。与GANs不同,扩散模型通过向数据添加噪声来工作,直到只剩下随机性。然后,它们逆转这个过程,从噪声中重建有意义的数据。这个过程被证明是有效的,并且计算资源更少,使得扩散模型在AI社区中成为一个热门话题。

真正的转折点出现在2020年,伴随着一系列创新论文和OpenAI的CLIP技术的推出,这大大提高了扩散模型的能力。这使得扩散模型在文本到图像合成方面变得非常擅长,能够从文本描述中生成真实的图像。这些突破不仅仅是在图像生成方面,也在音乐创作和生物医学研究等领域取得了进展。

今天,扩散模型不仅仅是学术界的兴趣话题,也被应用于实际的现实场景中。

生成式建模和自注意力层:DALL-E 3

该领域的一个关键进展是生成式建模的演进,采样式方法如自回归生成式建模和扩散过程引领了潮流。它们改变了文本到图像模型,带来了显著的性能改进。通过将图像生成分解为离散步骤,这些模型变得更易于处理和更容易被神经网络学习。

同时,自注意力层的使用也发挥了至关重要的作用。这些层叠在一起,帮助生成图像而无需隐式空间偏见,这是卷积的一个常见问题。这种转变使得文本到图像模型能够扩展和改进,从而具有可靠的缩放特性。

图像生成中的挑战和解决方案

尽管取得了这些进展,图像生成中的可控性仍然是一个挑战。例如,模型可能不严格遵循输入文本的问题一直存在。为了解决这个问题,提出了一种新的方法,如字幕改进,以提高训练数据集中文本和图像对的质量。

字幕改进:一种新方法

字幕改进涉及为图像生成更高质量的字幕,这反过来又有助于训练更准确的文本到图像模型。这是通过一个强大的图像字幕生成器来实现的,该生成器为图像生成详细和准确的描述。通过训练这些改进的字幕,DALL-E 3能够取得了令人惊叹的成果,非常接近人类拍摄的照片和艺术作品。

在合成数据上训练

在合成数据上训练的概念并不是新鲜的。然而,这里的独特贡献在于创建一个新颖的描述性图像字幕系统。使用合成字幕训练生成式模型的影响是显著的,导致模型在遵循提示方面的准确性有了改进。

评估DALL-E 3

通过与之前的模型如DALL-E 2和Stable Diffusion XL的多次评估和比较,DALL-E 3表现出了卓越的性能,特别是在遵循提示的任务中。

Comparison of text-to-image models on various evaluations

Comparison of text-to-image models on various evaluations

使用自动评估和基准测试提供了明确的证据,证明了其能力,巩固了其作为最先进的文本到图像生成器的地位。

DALL-E 3提示和能力

DALL-E 3提供了一个更逻辑和精炼的创建视觉效果的方法。随着您滚动浏览,您会注意到DALL-E如何精心制作每个图像,结合准确性和想象力来响应给定的提示。

与其前身相比,这个升级版本在安排场景中的物体和描绘人类特征方面表现出色,包括手上的手指数量等细节。改进还延伸到更细节的方面,并以更高的分辨率提供,确保输出更加真实和专业。

文本渲染能力也得到了显著改进。DALL-E之前的版本会产生乱码文本,而DALL-E 3现在可以生成清晰和专业风格的字体(有时),甚至可以生成干净的Logo。

模型对复杂和细致的图像请求的理解也得到了显著提高。DALL-E 3现在可以准确地遵循详细的描述,即使在多个元素和特定指令的场景中,展示了其生成连贯和结构良好的图像的能力。让我们来看看一些提示和相应的输出:

设计一系列有机茶的包装。包括产品名称和描述的空间。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Note that the left poster have wrong spelling)

创建一个网页横幅,宣传户外家具的夏季促销。图像中有一个海滩场景,展示不同的户外家具,并有文字宣传“巨大的夏季节省!”

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

一张巴黎的复古旅行海报,底部有大胆和风格化的文字“访问巴黎”。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Note that both posters have wrong spellings)

生成一张印度排灯节的热闹场景,家庭们点灯,天空中有烟花,传统的甜点和装饰。
DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献,特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。