人工知能

フィーネチュードStable Diffusionモデルからトレーニングデータを抽出する

Published October 7, 2024

Updated April 3, 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

米国の新しい研究では、フィーネチュードモデルからトレーニングデータの重要な部分を抽出する方法を提示している。

これにより、芸術家のスタイルがコピーされた場合や、著作権保護された画像が公的人物、知的財産保護されたキャラクター、またはその他のコンテンツのジェネレーティブモデルをトレーニングするために使用された場合、法的証拠を提供できる可能性がある。

新しい論文から: 元のトレーニング画像は上の行に表示され、抽出された画像は下の行に表示される。 Source: https://arxiv.org/pdf/2410.03039

これらのモデルは、主にcivit.aiの巨大なユーザー提供アーカイブを通じて、そしてHugging Faceリポジトリプラットフォームを通じて、広く無料で入手可能である。

研究者によって開発された新しいモデルは、FineXtractと呼ばれ、著者はこれがこのタスクで最先端の結果を達成することを主張している。

論文では、次のように述べられている。

‘[私たちのフレームワーク]は、パブリックに利用可能なDMフィーネチュードチェックポイントからフィーネチュードデータを抽出する課題に効果的に対処する。事前トレーニングされたDM分布からフィーネチュードデータ分布への遷移を利用することで、FineXtractは生成プロセスをフィーネチュードデータ分布の高確率領域に向けて正確に導き、データ抽出を成功させる.’

…（以下、内容は同じなので省略）…