人工智能
稳定扩散前方的三个挑战

稳定.ai的稳定扩散潜在扩散图像合成模型的发布可能是自1999年DeCSS以来最重要的技术披露;它绝对是自2017年深度伪造代码被复制到GitHub并分叉为DeepFaceLab和FaceSwap,以及实时流媒体深度伪造软件DeepFaceLive以来,AI生成图像领域最大的事件。
在一瞬间,用户对DALL-E 2图像合成API的内容限制的沮丧被抛在了一边,因为事实证明,稳定扩散的NSFW过滤器可以通过改变一行代码来禁用。以色情为中心的稳定扩散Reddit迅速出现,并迅速被切断,而开发人员和用户在Discord上分裂为官方和NSFW社区,Twitter开始充满了奇幻的稳定扩散创作。
目前,每一天似乎都带来了一些来自采用该系统的开发人员的惊人创新,Krita、Photoshop、Cinema4D、Blender和许多其他应用程序平台都在快速编写插件和第三方辅助工具。
https://www.youtube.com/watch?v=MVPu2L88jIw
与此同时,promptcraft – 现在专业的“AI耳语”艺术,可能会成为自“Filofax绑定器”以来最短的职业选择 – 已经在商业化,稳定扩散的早期货币化正在Patreon级别上进行,未来将会有更复杂的产品推出,针对那些不愿意导航基于Conda的源代码安装或基于Web的实现的限制性NSFW过滤器的用户。
开发和用户的探索步伐非常快,很难看清前方。基本上,我们还不知道我们面对的是什么,或者可能的局限性或可能性是什么。
尽管如此,让我们来看看稳定扩散社区可能面临的三个最有趣和最具挑战性的障碍。
1:优化基于图块的管道
在面临有限的硬件资源和训练图像分辨率的硬性限制时,开发人员可能会找到解决方案来提高稳定扩散输出的质量和分辨率。许多这样的项目都涉及到利用系统的局限性,例如其本机分辨率仅为512×512像素。
由于稳定扩散是以正方形比例的图像为训练基础(在本例中,重采样为512×512),以便源图像可以被规格化并适应训练模型的GPU限制。
因此,稳定扩散“认为”(如果它认为的话)以512×512为单位,当然也是以正方形为单位。许多用户报告说,稳定扩散在这个相对较低的纵横比下产生最可靠和最不易出现故障的结果(见下面的“解决极端问题”)。
虽然各种实现都具有通过RealESRGAN(并可以通过GFPGAN修复渲染不良的面部)进行上采样的功能,但一些用户目前正在开发将图像分成512x512px的部分,然后将这些部分拼接在一起以形成更大的合成作品的方法。
…(内容太长,省略)
2:解决人体肢体问题
稳定扩散在描绘人体肢体的复杂性时并不名副其实。手可以随机增加,手指可以合并,第三条腿可以无故出现,现有的肢体可以无影无踪地消失。在它的辩护中,稳定扩散与其同类和大多数DALL-E 2共享这个问题。
…(内容太长,省略)
3:自定义
稳定扩散最令人兴奋的可能性之一是用户或组织开发修订后的系统的前景;修改可以将超出预训练的LAION范围的内容集成到系统中 – 理想情况下,不需要重新训练整个模型的不可控开支,或者训练大量新图像到现有成熟模型的风险。
通过类比:如果两个不太有天赋的学生加入一个由30名学生组成的高级班级,他们将要么融入并赶上进度,要么作为异常值而失败;在任何一种情况下,整个班级的平均表现可能不会受到影响。如果15个不太有天赋的学生加入,整个班级的成绩曲线可能会受到影响。
同样,通过长时间和昂贵的模型训练建立起来的关系和事物的协同和相当微妙的网络,可以通过过多的新数据而被破坏,甚至在某些情况下被有效地摧毁,从而降低模型的输出质量。
…(内容太长,省略)
首次发布于2022年9月6日。
