人工智能

从微调的稳定扩散模型中提取训练数据

Published October 7, 2024

Updated April 3, 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。

这可能为艺术家风格被复制或使用受版权保护的图像训练生成模型的公众人物、知识产权保护的角色或其他内容的案件提供法律证据。

从新论文中：原始训练图像在上一行，提取的图像在下一行。 来源：https://arxiv.org/pdf/2410.03039

这些模型广泛且免费地可在互联网上获得，主要通过civit.ai的巨大用户贡献档案，以及在较小程度上，在Hugging Face存储库平台上。

研究人员开发的新模型称为FineXtract，作者声称它在这一任务中取得了最先进的结果。

论文指出：

‘[我们的框架]有效地解决了从公开可用的DM微调检查点中提取微调数据的挑战。通过利用从预训练DM分布到微调数据分布的转变，FineXtract准确地引导生成过程朝向微调数据分布的高概率区域，实现了成功的数据提取。’

最右边，用于训练的原始图像。次右边，通过FineXtract提取的图像。其他列代表替代的先前方法。请参阅源论文以获得更好的分辨率。

为什么重要

原始训练的文本到图像生成系统，如Stable Diffusion和Flux，可以被最终用户下载和微调，使用诸如2022年DreamBooth实现等技术。

更简单的方法是，用户可以创建一个几乎与完全微调模型一样有效的较小的LoRA模型。

在极具人气的Civitai网站上提供的训练LORA示例。这样的模型可以在几分钟到几小时内由使用本地安装的开源软件的爱好者创建——也可以通过一些更宽松的API驱动的训练系统在线创建。来源：civitai.com

自2022年以来，通过提供仅几十张（平均5-50）带有字幕的图像，并在开源框架（如Kohya ss）上或使用在线服务本地训练检查点（或LoRA），创建特定身份的微调检查点和LoRA变得微不足道。

这种深度伪造的方法在过去几年中已在媒体上引起了轰动。许多艺术家也将他们的作品纳入了复制他们风格的生成模型中。围绕这些问题的争议在过去18个月中逐渐增强。

用户可以轻松创建复制真实艺术家风格的AI系统，这在过去两年中引起了愤怒和多种运动。来源：https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

很难证明哪些图像被用于微调检查点或LoRA，因为抽象过程从小训练数据集中“抽象”出身份，并且不太可能重现训练数据中的示例（除非出现过拟合，在这种情况下，可以认为训练失败）。

这就是FineXtract的用处。通过比较用户下载的“模板”扩散模型和用户通过微调或LoRA创建的模型，研究人员能够创建训练数据的高精度重构。

虽然FineXtract只能重现20%的微调数据，但这已经足够提供证据，证明用户在生成模型的制作中使用了受版权保护或其他保护或禁止的材料。在大多数提供的示例中，提取的图像与已知的源材料非常接近。

虽然字幕是必要的来提取源图像，但这并不是一个重大的障碍，原因有两点：a）上传者通常希望促进模型在社区中的使用，并且通常会提供适当的提示示例；b）研究人员发现，不难从微调模型中“盲目”地提取关键词：