人工智能

稳定扩散前方的三个挑战

mm

稳定.ai的稳定扩散潜在扩散图像合成模型的发布可能是自1999年DeCSS以来最重要的技术披露;它绝对是自2017年深度伪造代码被复制到GitHub并分叉为DeepFaceLab和FaceSwap,以及实时流媒体深度伪造软件DeepFaceLive以来,AI生成图像领域最大的事件。

在一瞬间,用户对DALL-E 2图像合成API的内容限制的沮丧被抛在了一边,因为事实证明,稳定扩散的NSFW过滤器可以通过更改一行代码来禁用。 以色情为中心的稳定扩散Reddit几乎立刻出现,并迅速被切断,而开发人员和用户营地在Discord上分裂为官方和NSFW社区,Twitter开始充满了奇幻的稳定扩散创作。

目前,每天似乎都带来一些来自采用该系统的开发人员的惊人创新,第三方插件和附加组件正在为Krita、Photoshop、Cinema4D、Blender和许多其他应用程序平台匆忙编写。

与此同时,提示工艺 – 现在专业的“AI耳语”艺术,可能会成为有史以来最短的职业选择,除了“Filofax绑定器” – 已经在商业化,早期的稳定扩散货币化正在Patreon级别上进行,未来将会有更复杂的产品出现,针对那些不愿意导航Conda安装源代码或基于Web的实现的限制性NSFW过滤器的人。

开发和用户的探索步伐非常快,以至于很难看清前方。基本上,我们还不知道自己面对的是什么,或者可能存在什么限制或可能性。

尽管如此,让我们来看看稳定扩散社区可能面临的三个最有趣和最具挑战性的障碍。

1:优化基于图块的管道

面对有限的硬件资源和训练图像分辨率的硬性限制,开发人员可能会找到解决方案来提高稳定扩散输出的质量和分辨率。许多项目都涉及利用系统的局限性,例如其本机分辨率仅为512×512像素。

就像计算机视觉和图像合成项目一样,稳定扩散是在正方形比例图像上训练的,在本例中,图像被重采样为512×512像素,以便源图像可以被正则化并适应训练模型的GPU限制。

因此,稳定扩散“认为”(如果它认为的话)以512×512为单位,当然是以正方形为单位。许多用户报告说,稳定扩散在这个相当受限的宽高比下产生最可靠和最不易出现故障的结果(见下面的“解决极端问题”)。

虽然各种实现都具有通过RealESRGAN进行上采样(并可以通过GFPGAN修复渲染不良的面部)的功能,但一些用户目前正在开发将图像分成512x512px部分并将它们拼接在一起以形成更大的复合作品的方法。

[…](以下内容与原文保持一致,按照相同的结构和格式进行翻译)

2:解决人体肢体问题

稳定扩散在描绘人体肢体的复杂性时并不名副其实。手可以随机增加,手指可以合并,第三条腿可以无故出现,现有的肢体可以无影无踪地消失。在它的辩护中,稳定扩散与其同类和大多数DALL-E 2共享这个问题。

[…](以下内容与原文保持一致,按照相同的结构和格式进行翻译)

3:定制

稳定扩散的未来最令人兴奋的可能性之一是用户或组织开发修订后的系统的前景;修改允许内容在预训练的LAION领域之外集成到系统中 – 理想情况下,无需再次训练整个模型的不可控费用,或训练大量新图像到现有成熟模型的风险。

通过类比:如果两个不太有天赋的学生加入一个由30名学生组成的高级班级,他们要么融入并赶上,要么失败,成为异常值;在任何情况下,整个班级的平均表现可能不会受到影响。如果15个不太有天赋的学生加入,然而,整个班级的成绩曲线可能会受到影响。

同样,通过长时间和昂贵的模型训练建立起来的关系和知识网络可以被过多的新数据破坏,甚至在某些情况下被破坏,从而降低模型的输出质量。

[…](以下内容与原文保持一致,按照相同的结构和格式进行翻译)

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai