人工智能

稳定扩散如何发展成为主流消费品

更新 on 2022 年 12 月 9 日

讽刺地，稳定扩散n，风靡全球的新人工智能图像合成框架，既不稳定，也没有真正“扩散”——至少目前还没有。

该系统的全部功能分布在各种不断变化的产品大杂烩中，这些产品来自少数开发人员，他们在 Discord 上的各种座谈会上疯狂地交换最新信息和理论，以及他们正在创建或安装的软件包的绝大多数安装过程。修改距离“即插即用”还很远。

相反，他们往往需要命令行或 BAT驱动通过 GIT、Conda、Python、Miniconda 和其他前沿开发框架进行安装 - 软件包在普通消费者中非常罕见，因此安装起来非常困难经常被标记被防病毒和反恶意软件供应商作为主机系统受损的证据。

标准稳定扩散装置目前只需要挑战中的一小部分阶段。许多发行版还需要特定版本的 Python，这可能与用户计算机上安装的现有版本发生冲突 - 尽管可以通过基于 Docker 的安装以及在一定程度上通过使用 Conda 环境来避免这种情况。

SFW 和 NSFW Stable Diffusion 社区中的消息线程充斥着与破解 Python 脚本和标准安装相关的提示和技巧，以实现改进的功能，或解决频繁的依赖错误以及一系列其他问题。

这使得普通消费者对创造令人惊叹的图像从文本提示来看，这很大程度上取决于越来越多的货币化 API Web 界面，其中大多数在需要购买代币之前提供最少数量的免费图像生成。

此外，几乎所有这些基于网络的产品都拒绝输出 NSFW 内容（其中大部分可能与普遍感兴趣的非色情主题有关，例如“战争”），这将 Stable Diffusion 与 OpenAI 的 DALL-E 的鲍德勒化服务区分开来2.

“Photoshop 实现稳定扩散”

Twitter 的 #stablediffusion 主题标签每天都充斥着精彩、生动或超凡脱俗的图像，引诱着更广阔的世界等待的是 “Photoshop 实现稳定扩散” – 一个跨平台的可安装应用程序，融合了 Stability.ai 架构的最佳和最强大的功能，以及新兴 SD 开发社区的各种巧妙创新，无需任何浮动 CLI 窗口、晦涩且不断变化的安装和更新例程或缺失的功能。

目前，在大多数功能更强大的安装中，我们拥有的是一个各种优雅的网页，中间有一个无形的命令行窗口，其 URL 是本地主机端口：

与 CLI 驱动的综合应用程序（例如 FaceSwap 和以 BAT 为中心的 DeepFaceLab）类似，Stable Diffusion 的“预装”安装显示了其命令行根，通过本地主机端口访问的界面（参见上图顶部）进行通信具有基于 CLI 的稳定扩散功能。

毫无疑问，更加简化的应用程序即将到来。已经有几个基于 Patreon 的集成应用程序可以下载，例如风险和 NMKD （见下图）——但到目前为止，还没有一个集成了稳定扩散的一些更先进和较难访问的实现可以提供的全部功能。

早期基于 Patreon 的 Stable Diffusion 包，轻度“应用化”。 NMKD 是第一个将 CLI 输出直接集成到 GUI 中的产品。

让我们看看这个令人惊叹的开源奇迹的更完善和完整的实现最终会是什么样子，以及它可能面临哪些挑战。

全额资助的商业稳定扩散应用的法律考虑因素

NSFW 因素

稳定扩散源代码已在极其宽松的许可它并不禁止商业重新实现和从源代码广泛构建的派生作品。

除了上述数量不断增加的基于 Patreon 的 Stable Diffusion 版本，以及正在开发的大量应用程序插件 FIGMA, 粉笔, Photoshop中, GIMP及混合器（除其他外），没有实际这就是为什么资金充足的软件开发公司无法开发更复杂、更强大的稳定扩散应用程序的原因。从市场角度来看，我们有充分的理由相信多项此类举措已经在顺利进行。

在这里，此类努力立即面临困境，即应用程序是否像大多数用于 Stable Diffusion 的 Web API 一样允许 Stable Diffusion 的本机 NSFW 过滤器（a 代码片段），要关闭。

“埋葬”NSFW Switch

尽管 Stability.ai 的 Stable Diffusion 开源许可证包含一个可广泛解释的应用程序列表，但它可以不能被使用（可以说包括色情内容和 deepfakes），供应商有效禁止此类使用的唯一方法是将 NSFW 过滤器编译为不透明的可执行文件，而不是 Python 文件中的参数，或者对包含 NSFW 指令的 Python 文件或 DLL 强制执行校验和比较，因此，如果用户更改此设置，则无法进行渲染。

这将使假定的应用程序“绝育”，其方式与 DALL-E 2 目前是，降低其商业吸引力。此外，不可避免地，这些组件的反编译“篡改”版本（原始 Python 运行时元素或编译的 DLL 文件，如目前在 Topaz 系列 AI 图像增强工具中使用的那样）可能会出现在 torrent/黑客社区中，以解锁此类限制，只需更换阻碍元素，并否定任何校验和要求。

最后，供应商可能会选择简单地重复 Stability.ai 针对滥用的警告，这是许多当前 Stable Diffusion 发行版首次运行的特征。

然而，与投入大量时间和金钱来使 Stable Diffusion 功能齐全且易于访问的软件公司相比，目前以这种方式使用随意免责声明的小型开源开发人员几乎没有什么损失，这需要更深入的考虑。

深假责任

像我们一样最近指出LAION 美学数据库是 Stable Diffusion 正在进行的模型所训练的 4.2 亿张图像的一部分，其中包含大量名人图像，使用户能够有效地创建 Deepfakes，包括 Deepfake 名人色情图像。

从我们最近的文章中，我们通过稳定扩散推断出詹妮弗·康纳利四十年职业生涯中的四个阶段。

与（通常）合法的“抽象”色情内容的生成相比，这是一个独立且更具争议性的问题，后者并不描绘“真实”的人（尽管此类图像是从培训材料中的多张真实照片推断出来的）。

由于越来越多的美国州和国家正在制定或已经制定了针对深度伪造色情内容的法律，Stable Diffusion 制作名人色情内容的能力可能意味着未完全审查的商业应用程序（即可以创建色情材料）可能仍需要一些过滤感知到的名人面孔的能力。

一种方法是提供一个内置的术语“黑名单”，这些术语在用户提示中不会被接受，涉及名人姓名以及可能与其相关的虚构人物。据推测，此类设置需要以英语以外的更多语言建立，因为原始数据包含其他语言。另一种方法可能是结合名人识别系统，例如 Clarifai 开发的系统。

软件生产商可能有必要合并此类方法，也许最初会关闭，因为这可能有助于防止成熟的独立稳定扩散应用程序生成名人面孔，等待可能使此类功能非法的新立法。

然而，此类功能再次不可避免地会被感兴趣的各方反编译和逆转；然而，在这种情况下，软件生产商可以声称这实际上是未经批准的破坏行为——只要这种逆向工程不是变得太容易。

可能包含的功能

任何资金充足的商业应用程序都期望稳定扩散的任何发行版的核心功能。其中包括使用文本提示生成适当图像的能力（文字转图片）；能够使用草图或其他图片作为新生成图像的指导（图像到图像）；调整系统被指示的“想象力”程度的方法；一种权衡渲染时间和质量的方法；和其他“基础”，例如可选的自动图像/提示存档，以及通过真实ESRGAN，以及至少基本的“面部修复” FPGA网络 or 代码形成者.

这是一个相当“普通的安装”。让我们看一下目前正在开发或扩展的一些更高级的功能，这些功能可以合并到成熟的“传统”稳定扩散应用程序中。

随机冻结

即使你重复使用种子从之前的成功渲染来看，如果 任何部分 提示或源图像（或两者）的更改以供后续渲染使用。

如果你想使用的话这是一个问题 Eb合成器以时间连贯的方式将稳定扩散的变换强加到真实视频上 - 尽管该技术对于简单的头肩部镜头非常有效：

有限的运动可以使 EbSynth 成为将稳定扩散变换转化为逼真视频的有效媒介。 来源：https://streamable.com/u0pgzd

EbSynth 的工作原理是将一小部分“更改的”关键帧推断为视频，该视频已渲染为一系列图像文件（并且稍后可以重新组装回视频）。

在 EbSynth 网站的这个示例中，视频中的一小部分帧已以艺术方式绘制。 EbSynth 使用这些帧作为风格指南来类似地改变整个视频，使其与绘制的风格相匹配。来源：https://www.youtube.com/embed/eghGQtQhY38

在下面的示例中，左边的（真实的）金发瑜伽教练几乎没有任何动作，稳定扩散仍然难以保持一致的面部，因为被转换为“关键帧”的三个图像并不完全相同，即使它们都共享相同的数字种子。

在这里，即使在所有三个转换中使用相同的提示和种子，并且源帧之间的变化很少，身体肌肉的大小和形状也会有所不同，但更重要的是面部不一致，从而阻碍了潜在 EbSynth 渲染中的时间一致性。

尽管下面的 SD/EbSynth 视频非常有创意，其中用户的手指（分别）变成了一条行走的裤腿和一只鸭子，但裤子的不一致代表了稳定扩散在保持不同关键帧之间的一致性方面存在的问题，即使源帧彼此相似且种子一致。

通过稳定扩散和 EbSynth，一个人的手指变成了行走的人和鸭子。 来源：https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

创建该视频的用户评论鸭子变换可以说是两者中更有效的一个，尽管不那么引人注目和原始，只需要一个变换后的关键帧，而有必要渲染 50 个稳定扩散图像才能创建步行裤，它表现出更多的时间性不一致。该用户还指出，为了实现 50 个关键帧中每个关键帧的一致性，我们进行了五次尝试。

因此，对于真正全面的稳定扩散应用程序来说，提供最大程度地跨关键帧保留特征的功能将是一个巨大的好处。

一种可能性是应用程序允许用户“冻结”每帧上的转换的随机编码，目前这只能通过手动修改源代码来实现。正如下面的示例所示，这有助于时间一致性，尽管它肯定不能解决问题：

一位 Reddit 用户将自己的网络摄像头镜头转换为不同的名人，不仅保留了种子（稳定扩散的任何实现都可以做到），而且还确保每次转换中的 stochastic_encode() 参数相同。这是通过修改代码来完成的，但可以轻松地成为用户可访问的开关。但显然，它并不能解决所有的暂时问题。来源：https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

基于云的文本反演

获得时间一致的角色和对象的更好解决方案是将它们“烘焙”成文本倒装 – 一个 5KB 文件，可以在几个小时内基于五个带注释的图像进行训练，然后可以通过特殊的方法引出 '*' 提示，例如，可以使小说人物持续出现以包含在叙述中。

与适当标签关联的图像可以通过文本反转转换为离散实体，并通过特殊的标记词以正确的上下文和风格毫无歧义地调用。 来源：https://huggingface.co/docs/diffusers/training/text_inversion

文本倒置是稳定扩散使用的非常大且经过充分训练的模型的附属文件，并且有效地“滑流”到引发/提示过程中，以便它们可以参加在模型衍生的场景中，并受益于模型关于对象、样式、环境和交互的庞大知识数据库。

然而，虽然文本反转的训练时间并不长，但它确实需要大量的 VRAM；根据当前的各种演练，大约在 12、20 甚至 40GB 之间。

由于大多数临时用户不太可能拥有这样的 GPU 重量，因此可以处理该操作的云服务已经出现，包括 Hugging Face 版本。虽然有谷歌 Colab 实施可以为稳定扩散创建文本反转，所需的 VRAM 和时间要求可能会给免费 Colab 用户带来挑战。

对于潜在的成熟且投资充足的 Stable Diffusion（已安装）应用程序来说，将这项繁重的任务传递给公司的云服务器似乎是一种明显的货币化策略（假设低成本或无成本的 Stable Diffusion 应用程序中渗透着此类非免费功能，这似乎可能出现在未来 6-9 个月内该技术将出现的许多可能的应用程序中）。

此外，对提交的图像和文本进行注释和格式化的相当复杂的过程可以受益于集成环境中的自动化。创建可以探索稳定扩散的广阔世界并与之互动的独特元素的潜在“成瘾因素”对于普通爱好者和年轻用户来说似乎都具有潜在的强迫性。

多功能提示加权

目前有许多实现允许用户更加强调长文本提示的一部分，但这些实现之间的工具差异很大，并且通常很笨拙或不直观。

非常受欢迎的稳定扩散前叉通过自动1111例如，可以通过将提示词括在单个或多个括号（用于取消强调）或方括号中以进行额外强调，从而降低或提高提示词的值。

方括号和/或圆括号可以在这个版本的稳定扩散提示权重中改变你的早餐，但无论如何，这都是胆固醇的噩梦。

稳定扩散的其他迭代使用感叹号来强调，而最通用的版本允许用户通过 GUI 为提示中的每个单词分配权重。

该系统还应该允许负提示权重 – 不仅仅是为了恐怖迷，而是因为在稳定扩散的潜在空间中可能存在比我们有限的语言使用所能唤起的更少令人震惊和更具启发性的奥秘。

外涂

在 Stable Diffusion 开源后不久，OpenAI 试图通过以下方式重新夺回 DALL-E 2 的风头，但基本上是徒劳的：宣布 “outpainting”，允许用户通过语义逻辑和视觉连贯性将图像扩展到其边界之外。

自然，此后一直如此实施以各种形式进行稳定扩散，以及在克丽塔，并且当然应该包含在稳定扩散的综合性 Photoshop 风格版本中。

只要提示、现有图像和语义逻辑允许，基于图块的增强就可以几乎无限地扩展标准 512x512 渲染。来源：https://github.com/lkwq007/stablediffusion-infinity

只要提示、现有图像和语义逻辑允许，基于图块的增强就可以几乎无限地扩展标准 512×512 渲染。 来源：https://github.com/lkwq007/stablediffusion-infinity

由于稳定扩散是在 512x512px 图像上进行训练的（以及出于各种其他原因），因此它经常会从人体主体上切掉头部（或其他重要的身体部位），即使提示明确指出“头部强调”等。

稳定扩散“斩首”的典型例子；但画外墙可以让乔治重新出现在画面中。

上面动画图像中所示类型的任何外绘实现（完全基于 Unix 库，但应该能够在 Windows 上复制）也应该作为一键/提示补救措施。

目前，许多用户将“斩首”描绘的画布向上延伸，粗略地填充头部区域，并使用 img2img 来完成拙劣的渲染。

了解上下文的有效掩蔽

掩蔽在稳定扩散中，这可能是一件非常偶然的事情，具体取决于所讨论的分叉或版本。通常，在完全可以绘制连贯蒙版的情况下，指定区域最终会被未考虑图片整个上下文的内容所覆盖。

有一次，我遮住了一张人脸图像的角膜，并提供了提示 '蓝眼睛' 作为面具修复——却发现我似乎是通过两只被剪掉的人眼看着远处一幅看起来神秘的狼的照片。我想我很幸运那不是弗兰克·辛纳屈。

语义编辑也可以通过识别噪音首先构建图像，它允许用户在渲染中处理特定的结构元素，而不会干扰图像的其余部分：

通过识别最初产生图片的噪声并处理对目标区域有贡献的部分，无需传统的掩蔽，也无需更改相邻内容，即可更改图像中的一个元素。 来源：https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

该方法基于 K-扩散采样器.

针对生理错误的语义过滤器

正如我们之前提到的，稳定扩散可以频繁地添加或减少肢体，这主要是由于数据问题以及训练它的图像所附带的注释中的缺陷。

就像学校合影中那个伸出舌头的犯错孩子一样，稳定扩散的生物暴行并不总是立即显而易见，在你注意到多余的手或融化的四肢之前，你可能已经在 Instagram 上发布了你最新的人工智能杰作。

修复这些类型的错误非常困难，如果全尺寸的稳定扩散应用程序包含某种解剖识别系统，该系统采用语义分割来计算传入的图片是否存在严重的解剖缺陷（如上图所示），那么它将很有用），并在将其呈现给用户之前将其丢弃以支持新的渲染。

当然，您可能想要渲染卡莉女神或章鱼博士，甚至拯救四肢受伤的图片中未受影响的部分，因此此功能应该是一个可选切换。

如果用户能够容忍遥测方面的问题，这种失火甚至可以在联邦学习的集体努力中匿名传输，这可能有助于未来的模型提高对解剖逻辑的理解。

基于LAION的自动面部增强

正如我在我的以前的样子在稳定扩散未来可以解决的三个问题上，不应仅将任何版本的 GFPGAN 留给尝试“改进”第一实例渲染中的渲染面。

GFPGAN 的“改进”非常通用，经常破坏所描绘的个人的身份，并且仅对通常渲染得很差的脸部进行操作，因为它没有比图片的任何其他部分获得更多的处理时间或关注。

因此，用于稳定扩散的专业标准程序应该能够识别人脸（使用标准且相对轻量级的库，例如 YOLO），应用可用 GPU 能力的全部权重来重新渲染它，并将改进的人脸混合到原始的全上下文渲染，或者单独保存以进行手动重新合成。目前，这是一项相当“实际操作”的操作。

如果稳定扩散已经在足够数量的名人图像上进行了训练，则可以将整个 GPU 容量集中在仅渲染图像的脸部的后续渲染上，这通常是一个显着的改进 – 并且与 GFPGAN 不同，利用来自 LAION 训练数据的信息，而不是简单地调整渲染的像素。

应用内 LAION 搜索

由于用户开始意识到在 LAION 数据库中搜索概念、人物和主题可以帮助更好地使用稳定扩散，因此创建了多个在线 LAION 浏览器，包括haveibeentrained.com。

haveibeentrained.com 的搜索功能可让用户探索支持稳定扩散的图像，并发现他们可能想从系统中引出的物体、人或想法是否可能已被训练到其中。此类系统对于发现相邻实体也很有用，例如名人的聚集方式，或者从当前想法引出的“下一个想法”。来源：https://haveibeentrained.com/?search_text=bowl%20of%20fruit

尽管此类基于网络的数据库经常会揭示图像附带的一些标签，但概括在模型训练期间发生的情况意味着不太可能通过使用其标签作为提示来调用任何特定图像。

此外，删除 ‘停止词’ 自然语言处理中的词干提取和词形还原的实践意味着，显示的许多短语在被训练成稳定扩散之前被分割或省略。

尽管如此，这些界面中美学分组结合在一起的方式可以教会最终用户很多关于稳定扩散的逻辑（或者可以说是“个性”）的知识，并证明有助于更好的图像制作。

结论

我希望在 Stable Diffusion 的完整本机桌面实现中看到许多其他功能，例如基于 CLIP 的本机图像分析，它反转了标准的 Stable Diffusion 过程，并允许用户引出系统需要的短语和单词。自然会与源图像或渲染相关联。

此外，真正的基于图块的缩放将是一个受欢迎的补充，因为 ESRGAN 几乎和 GFPGAN 一样生硬。值得庆幸的是，计划整合 txt2imghd GOBIG 的实施正在迅速使这在各个发行版中成为现实，这似乎是桌面迭代的明显选择。

来自 Discord 社区的其他一些受欢迎的请求我不太感兴趣，例如集成的提示词典和适用的艺术家和风格列表，尽管应用内笔记本或可定制的短语词典似乎是合乎逻辑的补充。

同样，稳定扩散中以人类为中心的动画目前的局限性，尽管是由 CogVideo 和其他各种项目启动的，但仍然处于令人难以置信的新生状态，并且受到与真实人类运动相关的时间先验的上游研究的支配。

目前，稳定扩散视频严格迷幻，尽管通过 EbSynth 和其他相对新生的文本到视频举措，在 Deepfake 木偶领域可能会有更光明的未来（值得注意的是，《Runway》中缺乏合成或“改变”的人）最新宣传影片).

另一个有价值的功能是透明的 Photoshop 传递，它早已在 Cinema4D 的纹理编辑器以及其他类似的实现中建立。这样，人们可以轻松地在应用程序之间分流图像，并使用每个应用程序来执行其擅长的转换。

最后，也许最重要的是，一个完整的桌面稳定扩散程序不仅应该能够在检查点（即为系统提供动力的底层模型的版本）之间轻松交换，而且还应该能够更新有效的定制文本反转与以前的官方模型版本一致，但可能会被模型的更高版本破坏（正如官方 Discord 的开发人员所指出的，可能是这种情况）。

讽刺的是，Adobe 是最有能力为 Stable Diffusion 创建如此强大且集成的工具矩阵的组织，却与内容真实性倡议对于该公司来说，这似乎是一个倒退的公关失误——除非它像 OpenAI 对 DALL-E 2 所做的那样彻底削弱 Stable Diffusion 的生成能力，并将其定位为其在图库摄影领域的大量资产的自然演变。

首次发布于 15 年 2022 月 XNUMX 日。

相关话题：深度假货 deepfake 特集图像合成 OpenAI 稳定扩散

下一步

团队开发了比较神经网络的方法

不要错过

生物物理学家让我们更接近智能显微镜

马丁安德森

机器学习、人工智能和大数据领域的作家。
个人网站：马丁南德森.ai
联系我们: [电子邮件保护]
推特：@manders_ai

联合人工智能

稳定扩散如何发展成为主流消费品

人工智能

稳定扩散如何发展成为主流消费品

目录

“Photoshop 实现稳定扩散”