Anderson 视角
从微调的稳定扩散模型中提取训练数据

来自美国的新研究提出了一种方法,用于从微调的模型中提取大量的训练数据。
这可能会在艺术家的风格被复制或使用受版权保护的图像来训练公众人物、知识产权保护的角色或其他内容的生成模型时提供法律证据。

来自新论文的图像:原始训练图像在上面,提取的图像在下面。来源:https://arxiv.org/pdf/2410.03039
这些模型在互联网上广泛可用,主要通过civit.ai的巨大用户贡献档案和Hugging Face存储库平台。
研究人员开发的新模型称为FineXtract,作者声称它在此任务中取得了最先进的结果。
论文观察到:
‘[我们的框架]有效地解决了从公开可用的DM微调检查点中提取微调数据的挑战。通过利用从预训练DM分布到微调数据分布的转变,FineXtract准确地引导生成过程朝向微调数据分布的高概率区域,从而实现了成功的数据提取。’

最右边是用于训练的原始图像。第二右边是通过FineXtract提取的图像。其他列代表替代的先前方法。请参考来源论文以获得更好的分辨率。
为什么重要
用于文本到图像生成系统的原始训练模型,如稳定扩散和Flux,可以被最终用户下载和微调,使用诸如2022年DreamBooth实现等技术。
更简单的方法是创建一个几乎与完全微调的模型一样有效的LoRA模型。

在非常流行的Civitai网站上提供的训练LoRA的示例。这样的模型可以通过热心的用户使用本地安装的开源软件或在线通过一些更宽松的API驱动的训练系统,在几分钟到几小时内创建。来源:civitai.com
自2022年以来,通过提供少量(平均5-50)带有标题的图像并在本地使用开源框架(如Kohya ss)或使用在线服务训练检查点(或LoRA),创建特定身份的微调检查点和LoRA变得非常简单。
这种深度伪造的方法在过去几年中已在媒体上引起了轰动。许多艺术家也将他们的作品纳入了模仿他们风格的生成模型中。围绕这些问题的争议在过去18个月中已逐渐升级。

用户可以轻松创建模仿真实艺术家的AI系统,这在过去两年中引起了愤怒和各种运动。来源:https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/
由于泛化过程“抽象”了小型训练数据集中的身份,并且不太可能再现训练数据中的示例(除非发生过拟合,在这种情况下可以认为训练失败),很难证明哪些图像用于微调检查点或LoRA。
这就是FineXtract的用途。通过比较用户下载的“模板”扩散模型和他们通过微调或LoRA创建的模型,研究人员能够创建训练数据的高精度重构。
虽然FineXtract只能从微调中重现20%的数据,但这通常足以提供证据,证明用户在生成模型的生产中使用了受版权保护或其他保护或禁止的材料。在大多数提供的示例中,提取的图像与已知的源材料非常相似。
虽然需要标题来提取源图像,但这并不是一个重大的障碍,原因有两点:a)上传者通常希望促进模型在社区中的使用,并且通常会提供适当的提示示例;b)研究人员发现,从微调模型中盲目提取关键词并不困难:

可以使用L2-PGD攻击在1000次迭代中从随机提示中盲目地从微调模型中提取基本关键词。
用户经常避免将他们的训练数据集与“黑盒”风格的训练模型一起提供。为了进行研究,作者与提供了数据集的机器学习爱好者合作。
新论文的标题是揭示不可见:引导个性化扩散模型以暴露训练数据,来自卡内基梅隆大学和普渡大学的三位研究人员。
方法
“攻击者”(在这种情况下,即FineXtract系统)比较了原始模型和微调模型中的估计数据分布,在一个过程中,作者称之为“模型引导”。

通过研究人员开发的“模型引导”,可以映射微调特征,从而允许提取训练数据。
作者解释说:
‘在微调过程中,[扩散模型]逐渐将其学习到的分布从预训练DM的[分布]转移到微调数据的[分布]。’
‘因此,我们参数化地近似[微调][扩散模型]的学习到的分布。’
这种方式,核心模型和微调模型之间的差异之和提供了引导过程。
作者进一步评论说:
‘有了模型引导,我们可以有效地模拟一个“伪-”[去噪器],它可以用来引导采样过程朝向微调数据分布中的高概率区域。’
引导部分依赖于一种类似于2023年outing从扩散模型中擦除概念的时间变化噪声过程。
获得的去噪预测还提供了一个可能的分类器自由引导(CFG)比例。这很重要,因为CFG显著影响图片质量和对用户文本提示的忠实度。
为了提高提取图像的准确性,FineXtract利用了2023年著名的合作从扩散模型中提取训练数据。使用的方法是基于自监督描述符(SSCD)评分计算每对生成图像的相似性,阈值由自监督描述符(SSCD)定义。
通过这种方式,聚类算法帮助FineXtract识别出与训练数据一致的提取图像的子集。
在这种情况下,研究人员与提供了数据的用户合作。可以合理地说,在没有这样的数据的情况下,将不可能证明任何特定的生成图像实际上是在原始训练中使用的。然而,现在可以相对容易地将上传的图像与网络上的实时图像或已知和已发布的数据集中的图像进行匹配,仅基于图像内容。
数据和测试
为了测试FineXtract,作者在项目范围内的两个最常见的微调场景中对少样本微调模型进行了实验:艺术风格和基于对象的生成(后者基本上涵盖了面向基于面部的主题的生成)。
他们从WikiArt数据集中随机选择了20位艺术家(每位艺术家有10张图像),并从DreamBooth数据集中选择了30个主题(每个主题有5-6张图像),以解决这些场景。
DreamBooth和LoRA是目标微调方法,Stable Diffusion V1/.4用于测试。
如果聚类算法在30秒后没有返回结果,则会修改阈值,直到返回图像。
用于生成图像的两个指标是平均相似度(AS)在SSCD下和平均提取成功率(A-ESR)- 一个大致与以前的工作一致的衡量标准,其中0.7的分数表示训练数据的完全成功提取。
由于以前的方法使用了直接的文本到图像生成或CFG,研究人员将FineXtract与这两种方法进行了比较。

FineXtract与两种最流行的先前方法的比较结果。
作者评论说:
‘结果表明FineXtract在AS和A-ESR方面相比以前的方法有显著的优势,大约提高了0.02到0.05和在大多数情况下A-ESR加倍。’
为了测试方法的泛化能力,研究人员使用了稳定扩散(V1.4)、稳定扩散XL和AltDiffusion进行了进一步的测试。

在各种扩散模型中应用FineXtract。对于WikiArt组件,测试重点关注WikiArt中的四个类别。
如上所示,FineXtract在更广泛的测试中也优于以前的方法。

从FineXtract和以前的方法中提取结果的定性比较。请参考来源论文以获得更好的分辨率。
作者观察到,当微调模型的数据集中的图像数量增加时,聚类算法需要运行更长的时间才能保持有效。
他们还观察到,近年来已经开发了各种方法来阻碍这种提取,名义上是为了保护隐私。因此,他们测试了FineXtract对Cutout和RandAugment方法进行的数据增强的性能。

FineXtract在受Cutout和RandAugment保护的图像上的性能。
虽然作者承认这两种保护系统在模糊训练数据源方面表现相当好,但他们指出,这是以牺牲输出质量为代价的,质量下降如此严重,以至于使保护变得毫无意义:

在稳定扩散V1.4上使用防御措施进行微调的图像- 这大大降低了图像质量。请参考来源论文以获得更好的分辨率。
论文得出结论:
‘我们的实验在各种数据集和现实世界检查点中展示了该方法的鲁棒性,突出了数据泄露的潜在风险,并为版权侵权提供了有力的证据。’
结论
2024年已经成为企业对“干净”训练数据兴趣大幅增加的一年,面对媒体对人工智能取代人类的报道,以及保护企业热衷于利用的生成模型的法律保障的前景。
声称您的训练数据是干净的很容易,但现在使用类似的技术来证明它不是这样也变得更加容易-正如Runway ML、Stability.ai和MidJourney(以及其他公司)在最近几天发现的那样。
像FineXtract这样的项目可以说是人工智能的“狂野西部”时代的终结的先兆,在那里,甚至训练的潜在空间的看似神秘的性质也可以被追究责任。
* 为了方便起见,我们现在假设“微调和LoRA”,在必要时。
首次发表于2024年10月7日星期一












