提示工程
更深入地了解OpenAI的DALL-E 3

在生成式AI世界中,跟上最新发展是游戏的名字。而当谈到生成图像时,Stable Diffusion和Midjourney曾经是大家都在谈论的平台——直到现在。
OpenAI,得到了科技巨头Microsoft的支持,于2023年9月20日推出了DALL·E 3。
DALL-E 3不仅仅是关于创建图像;它是关于将您的想法变为现实,就像您想象的那样。而且最好的部分是什么?它非常快,您有一个想法,您将其输入DALL-E 3,然后,哇,您的图像就准备好了。
因此,在这篇文章中,我们将深入探讨DALL-E 3的所有内容。我们将讨论它的工作原理,它与其他的区别,以及为什么它可能是您需要的工具。无论您是设计师、艺术家还是有很多很酷想法的人,您都将想要停下来看这篇文章。让我们开始吧。
DALL·E 3的新特点是,它比DALL·E 2更好地理解上下文。早期版本可能会错过一些细节或忽略一些细节,但DALL·E 3是准确的。它捕捉到您要求的内容的确切细节,给您一个更接近您想象的图片。
酷的部分是什么?DALL·E 3和ChatGPT现在集成在一起。它们共同帮助完善您的想法。您提出一个概念,ChatGPT帮助完善提示,DALL·E 3将其变为现实。如果您不喜欢图像,您可以要求ChatGPT调整提示,然后让DALL·E 3再试一次。每月20美元,您可以获得GPT-4、DALL·E 3和许多其他很酷的功能。
Microsoft的Bing Chat甚至在OpenAI的ChatGPT之前获得了DALL·E 3,现在不仅仅是大型企业可以使用它,任何人都可以免费使用它。将其集成到Bing Chat和Bing Image Creator中,使其更容易被任何人使用。
扩散模型的崛起
在过去的三年里,视觉AI领域见证了扩散模型的崛起,尤其是在图像生成方面取得了显著进步。在扩散模型之前,生成式对抗网络(GANs)是生成真实图像的主要技术。
然而,它们面临着诸如需要大量数据和计算能力等挑战,这使得它们难以处理。
这时,扩散模型出现了。它们成为GANs更稳定和高效的替代品。与GANs不同,扩散模型通过向数据添加噪声来工作,直到只剩下随机性。然后,它们逆转这个过程,从噪声中重建有意义的数据。这个过程被证明是有效的,并且计算资源更少,使得扩散模型在AI社区中成为一个热门话题。
真正的转折点出现在2020年,伴随着一系列创新论文和OpenAI的CLIP技术的推出,这大大提高了扩散模型的能力。这使得扩散模型在文本到图像合成方面变得非常擅长,能够从文本描述中生成真实的图像。这些突破不仅仅是在图像生成方面,也在音乐创作和生物医学研究等领域取得了进展。
今天,扩散模型不仅仅是学术界的兴趣话题,也被应用于实际的现实场景中。
生成式建模和自注意力层:DALL-E 3
该领域的一个关键进展是生成式建模的演进,采样式方法如自回归生成式建模和扩散过程引领了潮流。它们改变了文本到图像模型,带来了显著的性能改进。通过将图像生成分解为离散步骤,这些模型变得更易于处理和更容易被神经网络学习。
同时,自注意力层的使用也发挥了至关重要的作用。这些层叠在一起,帮助生成图像而无需隐式空间偏见,这是卷积的一个常见问题。这种转变使得文本到图像模型能够扩展和改进,从而具有可靠的缩放特性。
图像生成中的挑战和解决方案
尽管取得了这些进展,图像生成中的可控性仍然是一个挑战。例如,模型可能不严格遵循输入文本的问题一直存在。为了解决这个问题,提出了一种新的方法,如字幕改进,以提高训练数据集中文本和图像对的质量。
字幕改进:一种新方法
字幕改进涉及为图像生成更高质量的字幕,这反过来又有助于训练更准确的文本到图像模型。这是通过一个强大的图像字幕生成器来实现的,该生成器为图像生成详细和准确的描述。通过训练这些改进的字幕,DALL-E 3能够取得了令人惊叹的成果,非常接近人类拍摄的照片和艺术作品。
在合成数据上训练
在合成数据上训练的概念并不是新鲜的。然而,这里的独特贡献在于创建一个新颖的描述性图像字幕系统。使用合成字幕训练生成式模型的影响是显著的,导致模型在遵循提示方面的准确性有了改进。
评估DALL-E 3
通过与之前的模型如DALL-E 2和Stable Diffusion XL的多次评估和比较,DALL-E 3表现出了卓越的性能,特别是在遵循提示的任务中。
使用自动评估和基准测试提供了明确的证据,证明了其能力,巩固了其作为最先进的文本到图像生成器的地位。
DALL-E 3提示和能力
DALL-E 3提供了一个更逻辑和精炼的创建视觉效果的方法。随着您滚动浏览,您会注意到DALL-E如何精心制作每个图像,结合准确性和想象力来响应给定的提示。
与其前身相比,这个升级版本在安排场景中的物体和描绘人类特征方面表现出色,包括手上的手指数量等细节。改进还延伸到更细节的方面,并以更高的分辨率提供,确保输出更加真实和专业。
文本渲染能力也得到了显著改进。DALL-E之前的版本会产生乱码文本,而DALL-E 3现在可以生成清晰和专业风格的字体(有时),甚至可以生成干净的Logo。
模型对复杂和细致的图像请求的理解也得到了显著提高。DALL-E 3现在可以准确地遵循详细的描述,即使在多个元素和特定指令的场景中,展示了其生成连贯和结构良好的图像的能力。让我们来看看一些提示和相应的输出:
设计一系列有机茶的包装。包括产品名称和描述的空间。
创建一个网页横幅,宣传户外家具的夏季促销。图像中有一个海滩场景,展示不同的户外家具,并有文字宣传“巨大的夏季节省!”
一张巴黎的复古旅行海报,底部有大胆和风格化的文字“访问巴黎”。
生成一张印度排灯节的热闹场景,家庭们点灯,天空中有烟花,传统的甜点和装饰。


















