Connect with us

提示工程

更深入地了解OpenAI的DALL-E 3

mm
DALL·E 3

在生成式AI的世界中,跟上最新的发展是关键。而在图像生成方面,Stable Diffusion和Midjourney曾是大家关注的焦点——直到现在。

OpenAI,在科技巨头Microsoft的支持下,于2023年9月20日推出了DALL·E 3

DALL-E 3不仅仅是关于创建图像;它是关于让你的想法变为现实,就像你想象的那样。而最好的部分是?它非常快。你有一个想法,你把它输入DALL-E 3,然后,哇,你的图像就准备好了。

所以,在这篇文章中,我们将深入探讨DALL-E 3的全部内容。我们将讨论它的工作原理、它与其他的区别,以及为什么它可能是你不知道你需要的工具。不管你是设计师、艺术家,还是有很多酷想法的人,你都会想跟着我们一起探索。让我们开始吧。

DALL·E 3的新特点是,它比DALL·E 2更好地理解上下文。早期版本可能会错过一些细节或忽略一些细节,但DALL·E 3非常准确。它可以捕捉到你要求的确切细节,给你一个更接近你想象的图像。

酷的部分?DALL·E 3和ChatGPT现在已经集成在一起。它们共同工作以完善你的想法。你提出一个概念,ChatGPT帮助完善提示,DALL·E 3将其变为现实。如果你不喜欢图像,你可以要求ChatGPT调整提示,让DALL·E 3再试一次。每月20美元,你就可以访问GPT-4、DALL·E 3和许多其他酷功能。

Microsoft的Bing Chat甚至在OpenAI的ChatGPT之前就获得了DALL·E 3,现在不仅仅是大型企业,任何人都可以免费使用它。将其集成到Bing Chat和Bing Image Creator中,使其更容易被任何人使用。

扩散模型的崛起

在过去三年中,视觉AI领域见证了扩散模型的崛起,尤其是在图像生成方面取得了显著进步。在扩散模型之前,生成式对抗网络(GANs)是生成真实图像的主要技术。

GANs

GANs

然而,它们面临着许多挑战,包括需要大量数据和计算能力,这使得它们难以处理。

扩散模型出现了,成为GANs更稳定和高效的替代品。与GANs不同,扩散模型通过向数据添加噪声来工作,直到只剩下随机性。然后,它们反向工作,逆转这个过程,从噪声中重构有意义的数据。这个过程被证明是有效的,并且不需要太多资源,使得扩散模型在AI社区中成为一个热门话题。

真正的转折点出现在2020年,伴随着一系列创新论文和OpenAI的CLIP技术的引入,这大大提高了扩散模型的能力。扩散模型在文本到图像合成方面表现出色,能够从文本描述中生成真实的图像。这些突破不仅仅是在图像生成方面,也在音乐创作和生物医学研究等领域取得了进展。

如今,扩散模型不仅仅是学术界的兴趣所在,也被应用于实际的、现实世界的场景中。

生成模型和自注意力层:DALL-E 3

在这个领域的关键进展之一是生成模型的演进,采样方法如自回归生成模型和扩散过程引领了潮流。它们改变了文本到图像模型,带来了显著的性能改进。通过将图像生成分解为离散步骤,这些模型变得更易于神经网络学习。

与此同时,自注意力层的使用发挥了至关重要的作用。这些层叠在一起,帮助生成图像而不需要隐式空间偏差,这是卷积的一个常见问题。这种转变使得文本到图像模型能够可靠地扩展和改进,得益于变压器的可理解的扩展特性。

图像生成中的挑战和解决方案

尽管取得了这些进展,图像生成中的可控性仍然是一个挑战。诸如提示跟随等问题,模型可能无法紧密遵循输入文本,仍然存在。为了解决这个问题,提出了一些新的方法,如字幕改进,旨在提高文本和图像对的质量。

字幕改进:一种新方法

字幕改进涉及为图像生成更高质量的字幕,这反过来又有助于训练更准确的文本到图像模型。这是通过一个强大的图像字幕器来实现的,该字幕器生成图像的详细和准确描述。通过训练这些改进的字幕,DALL-E 3能够取得了显著的成果,非常接近人类拍摄的照片和艺术作品。

在合成数据上训练

在合成数据上训练的概念并非新鲜事。然而,合成图像字幕系统的独特贡献在于其描述性图像字幕系统的创建。使用合成字幕训练生成模型的影响非常显著,导致模型在遵循提示方面的能力有了显著改进。

评估DALL-E 3

通过与之前的模型如DALL-E 2和Stable Diffusion XL的多次评估和比较,DALL-E 3表现出了更好的性能,尤其是在提示跟随方面。

Comparison of text-to-image models on various evaluations

Comparison of text-to-image models on various evaluations

使用自动评估和基准测试提供了明确的证据,证明了其能力,巩固了其作为最先进的文本到图像生成器的地位。

DALL-E 3提示和能力

DALL-E 3提供了一个更逻辑和精炼的创建视觉的方法。随着你滚动浏览,你会注意到DALL-E如何精心制作每个图像,结合准确性和想象力,符合给定的提示。

与其前身相比,这个升级版本在安排物体在场景中的自然位置和准确描绘人类特征方面表现出色,甚至包括手指的正确数量。改进扩展到更细的细节,现在以更高的分辨率提供,确保更真实和专业的输出。

文本渲染能力也取得了显著改进。DALL-E的前几个版本生成的文本是乱码,而DALL-E 3现在可以生成清晰和专业的字体样式(有时),甚至干净的标志。

模型对复杂和细致图像请求的理解得到了显著增强。DALL-E 3现在可以准确地遵循详细的描述,即使在多个元素和特定指令的场景中,展示了其生成连贯和构图良好的图像的能力。让我们探索一些提示和相应的输出:

设计一款有机茶的包装。包括产品名称和描述的空间。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (注意左边的海报有拼写错误)

创建一个网络横幅,宣传夏季特卖的户外家具。图像中有不同的户外家具,文字宣布“巨大的夏季节省!”

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

巴黎的复古旅行海报,底部有大胆和风格化的文字“访问巴黎”。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (注意两个海报都有拼写错误)

一幅印度排灯节的繁忙场景,人们点灯,天空中有烟花,传统的甜点和装饰。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

一个古罗马的繁忙市场,人们穿着当时的服装,各种商品出售,和当时的建筑。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

生成一幅著名的历史人物图像,例如克娄巴特拉或列奥纳多·达·芬奇,放在现代环境中,使用现代技术,如智能手机或笔记本电脑。

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

DALL-E 3的局限性和风险

OpenAI已经采取了显著的措施来过滤DALL-E 3的训练数据中的明确内容,旨在减少偏差并提高模型的输出质量。这包括应用特定的过滤器来处理敏感内容类别,并修订更广泛的过滤器的阈值。缓解栈还包括多层保障,如ChatGPT中对敏感话题的拒绝机制、防止违反政策的提示输入分类器、特定内容类别的黑名单以及确保提示符合指南的转换。

尽管它取得了进展,DALL-E 3在理解空间关系、渲染长文本和生成特定图像方面仍然存在局限性。OpenAI承认这些挑战,并正在努力改进未来的版本。

该公司还在努力区分AI生成的图像和人类创建的图像,反映了他们对透明度和负责任的AI使用的承诺。

DALL·E

DALL·E 3

DALL-E 3的最新版本将分阶段推出,首先面向特定的客户群,然后扩展到研究实验室和API服务。然而,免费公共版本的发布日期尚未确认。

OpenAI真正地在AI领域树立了新的标准,通过DALL-E 3无缝地连接复杂的技术能力和用户友好的界面。DALL-E 3集成到广泛使用的平台如Bing中,反映了从专业应用到更广泛、更易用的娱乐和工具形式的转变。

未来真正的游戏规则改变者将是创新和用户赋权之间的平衡。那些在AI边界不断突破的同时,也能为用户提供自主权和控制力的公司将会蓬勃发展。OpenAI致力于以负责任的AI为目标,正在小心翼翼地走这条路。目标明确:创造不仅强大而且值得信赖和包容的AI工具,确保AI的益处对所有人都可及。

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献,特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。