Connect with us

人工智能

从微调的稳定扩散模型中提取训练数据

mm
Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。

这可能为艺术家风格被复制或使用受版权保护的图像训练生成模型的公众人物、知识产权保护的角色或其他内容的案件提供法律证据。

从新论文中:原始训练图像在上一行,提取的图像在下一行。来源:https://arxiv.org/pdf/2410.03039

从新论文中:原始训练图像在上一行,提取的图像在下一行。 来源:https://arxiv.org/pdf/2410.03039

这些模型广泛且免费地可在互联网上获得,主要通过civit.ai的巨大用户贡献档案,以及在较小程度上,在Hugging Face存储库平台上。

研究人员开发的新模型称为FineXtract,作者声称它在这一任务中取得了最先进的结果。

论文指出:

‘[我们的框架]有效地解决了从公开可用的DM微调检查点中提取微调数据的挑战。通过利用从预训练DM分布到微调数据分布的转变,FineXtract准确地引导生成过程朝向微调数据分布的高概率区域,实现了成功的数据提取。’

最右边,用于训练的原始图像。次右边,通过FineXtract提取的图像。其他列代表替代的先前方法。

最右边,用于训练的原始图像。次右边,通过FineXtract提取的图像。其他列代表替代的先前方法。请参阅源论文以获得更好的分辨率。

为什么重要

原始训练的文本到图像生成系统,如Stable DiffusionFlux,可以被最终用户下载和微调,使用诸如2022年DreamBooth实现等技术。

更简单的方法是,用户可以创建一个几乎与完全微调模型一样有效的较小的LoRA模型。

在极具人气的Civitai网站上提供的训练LORA示例。这样的模型可以在几分钟到几小时内由使用本地安装的开源软件的爱好者创建——也可以通过一些更宽松的API驱动的训练系统在线创建。来源:civitai.com

在极具人气的Civitai网站上提供的训练LORA示例。这样的模型可以在几分钟到几小时内由使用本地安装的开源软件的爱好者创建——也可以通过一些更宽松的API驱动的训练系统在线创建。来源:civitai.com

自2022年以来,通过提供仅几十张(平均5-50)带有字幕的图像,并在开源框架(如Kohya ss)上或使用在线服务本地训练检查点(或LoRA),创建特定身份的微调检查点和LoRA变得微不足道。

这种深度伪造的方法在过去几年中已在媒体上引起了轰动。许多艺术家也将他们的作品纳入了复制他们风格的生成模型中。围绕这些问题的争议在过去18个月中逐渐增强。

用户可以轻松创建复制真实艺术家风格的AI系统,这在过去两年中引起了愤怒和多种运动。来源:https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

用户可以轻松创建复制真实艺术家风格的AI系统,这在过去两年中引起了愤怒和多种运动。来源:https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

很难证明哪些图像被用于微调检查点或LoRA,因为抽象过程从小训练数据集中“抽象”出身份,并且不太可能重现训练数据中的示例(除非出现过拟合,在这种情况下,可以认为训练失败)。

这就是FineXtract的用处。通过比较用户下载的“模板”扩散模型和用户通过微调或LoRA创建的模型,研究人员能够创建训练数据的高精度重构。

虽然FineXtract只能重现20%的微调数据,但这已经足够提供证据,证明用户在生成模型的制作中使用了受版权保护或其他保护或禁止的材料。在大多数提供的示例中,提取的图像与已知的源材料非常接近。

虽然字幕是必要的来提取源图像,但这并不是一个重大的障碍,原因有两点:a)上传者通常希望促进模型在社区中的使用,并且通常会提供适当的提示示例;b)研究人员发现,不难从微调模型中“盲目”地提取关键词:

可以使用L2-PGD攻击在1000次迭代中从随机提示中“盲目”地从微调模型中提取基本关键词。

可以使用L2-PGD攻击在1000次迭代中从随机提示中“盲目”地从微调模型中提取基本关键词。

用户经常避免在“黑盒”风格的训练模型旁边提供训练数据集。对于研究,作者与实际提供了数据集的机器学习爱好者合作。

新论文的标题为揭示不可见:引导个性化扩散模型以暴露训练数据,来自卡内基梅隆和普渡大学的三位研究人员。

方法

“攻击者”(在这种情况下,FineXtract系统)比较原始模型和微调模型中的估计数据分布,在一个过程中,作者称之为“模型引导”。

通过新论文中开发的“模型引导”,可以映射微调特征,从而允许提取训练数据。

通过新论文中开发的“模型引导”,可以映射微调特征,从而允许提取训练数据。

作者解释:

‘在微调过程中,[扩散模型]逐渐将其学习到的分布从预训练DM的[分布]转移到微调数据[分布]。 ‘

‘因此,我们参数化地近似[微调扩散模型]的学习分布。’

通过这种方式,核心模型和微调模型之间的差异总和提供了引导过程。

作者进一步评论:

‘使用模型引导,我们可以有效地模拟一个“伪-”[去噪器],它可以用来引导采样过程朝向微调数据分布中的高概率区域。’

引导部分依赖于一种类似于2023年outing 从扩散模型中擦除概念的时间变化噪声过程。

获得的去噪预测还提供了一个可能的无分类器引导(CFG)比例。这很重要,因为CFG显著影响图片质量和对用户文本提示的忠实度。

为了提高提取图像的准确性,FineXtract利用了2023年著名的合作 从扩散模型中提取训练数据。使用的方法是计算每对生成图像之间的相似性,基于自监督描述符(SSCD)得分定义的阈值。

通过这种方式,聚类算法帮助FineXtract识别出与训练数据一致的提取图像的子集。

在这种情况下,研究人员与提供了数据的用户合作。可以合理地说,在没有这些数据的情况下,几乎不可能证明任何特定的生成图像实际上是在原始训练中使用的。然而,仅凭图像内容,就可以相对容易地将上传的图像与网络上的实时图像或也在已发布的数据集中找到的图像进行匹配。

数据和测试

为了测试FineXtract,作者在项目范围内对两个最常见的微调场景进行了实验:艺术风格物体驱动生成(后者有效地涵盖了基于面部的主题)。

他们从WikiArt数据集中随机选择了20位艺术家(每位艺术家10张图像),以及从DreamBooth数据集中选择了30个主题(每个主题5-6张图像),以解决这些场景。

DreamBooth和LoRA是目标微调方法,Stable Diffusion V1/.4用于测试。

如果聚类算法在30秒内没有返回结果,则会修改阈值,直到返回图像。

用于生成图像的两个指标是平均相似度(AS)在SSCD下和平均提取成功率(A-ESR)- 这是一个与之前的工作大致相同的衡量标准,其中0.7的分数表示训练数据的完全成功提取。

由于以前的方法使用了直接的文本到图像生成或CFG,研究人员将FineXtract与这两种方法进行了比较。

FineXtract与两种最流行的先前方法的比较结果。

FineXtract与两种最流行的先前方法的比较结果。

作者评论:

‘[结果]表明FineXtract相对于以前的方法具有显著优势,平均相似度(AS)提高了约0.02至0.05,平均提取成功率(A-ESR)在大多数情况下增加了一倍。’

为了测试该方法对新数据的泛化能力,研究人员使用了Stable Diffusion(V1.4)、Stable Diffusion XLAltDiffusion进行了进一步的测试。

FineXtract应用于一系列扩散模型。对于WikiArt组件,测试集中注重于WikiArt中的四个类别。

FineXtract应用于一系列扩散模型。对于WikiArt组件,测试集中注重于WikiArt中的四个类别。

如上所示的结果,FineXtract在更广泛的测试中也优于以前的方法。

FineXtract和先前方法的提取结果的定性比较。请参阅源论文以获得更好的分辨率。

FineXtract和先前方法的提取结果的定性比较。请参阅源论文以获得更好的分辨率。

作者观察到,当微调模型的数据集中的图像数量增加时,聚类算法需要运行更长的时间才能保持有效。

他们还观察到,近年来已经开发了各种方法来阻碍这种提取,所有这些都是以隐私保护的名义。因此,他们测试了FineXtract对CutoutRandAugment增强的数据的性能。

FineXtract对受保护图像的性能比较。

FineXtract对受保护图像的性能比较。

虽然作者承认这两种保护系统在模糊训练数据源方面表现相当好,但他们指出,这是以牺牲输出质量为代价的,输出质量下降如此严重,以至于使保护变得毫无意义:

在Stable Diffusion V1.4上使用防御措施进行微调的图像- 这大大降低了图像质量。

在Stable Diffusion V1.4上使用防御措施进行微调的图像- 这大大降低了图像质量。请参阅源论文以获得更好的分辨率。

论文得出结论:

‘我们的实验表明该方法在各种数据集和现实世界检查点中的鲁棒性,突出了数据泄露的潜在风险,并为版权侵权提供了有力的证据。’

结论

2024年被证明是企业对“干净”训练数据兴趣大幅增加的一年,面对媒体对人工智能取代人类的持续报道,以及保护他们如此热衷于利用的生成模型的法律保护的前景。

声称您的训练数据是干净的很容易,但随着类似技术的出现,证明它不是这样也变得越来越容易——正如Runway ML、Stability.ai和MidJourney(以及其他公司)在最近几天发现的那样。

像FineXtract这样的项目可以说是人工智能“狂野西部”时代的终结的先兆,在这个时代,甚至训练的潜在空间的看似神秘的性质也可以被追究责任。

 

* 为了方便起见,我们现在假设“微调和LoRA”,在必要时。

首次发布于2024年10月7日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai