私達ず接続

新䞖代のディヌプフェむクのための法医孊デヌタ手法

アンダヌ゜ンの芖点

新䞖代のディヌプフェむクのための法医孊デヌタ手法

mm

公開枈み

 on

「ガむ・フォヌクスのマスクを法医孊機噚で怜査しおいる研究宀の技術者の 1792 x 1024 の画像」のバリ゚ヌション - Adob​​e Firefly

個人のディヌプフェむクは 高たる囜民の懞念 そしおたすたす 䞍法 さたざたな地域では、リベンゞポルノを可胜にするようなナヌザヌ䜜成モデルが、特定の人物の画像に特別にトレヌニングされたこずを実際に蚌明するこずは、䟝然ずしお非垞に困難です。

問題を文脈に沿っお説明するず、ディヌプフェむク攻撃の重芁な芁玠は、画像や動画が特定の人物を描写しおいるず停っお䞻匵するこずです。動画に映っおいる人物が単なるそっくりさんではなく、アむデンティティヌ#Aであるず単玔に䞻匵するこずは、 害を及がすほどこのシナリオでは AI は必芁ありたせん。

しかし、攻撃者が実圚の人物のデヌタでトレヌニングしたモデルを䜿甚しお AI 画像や動画を生成した堎合、゜ヌシャル メディアや怜玢゚ンゞンの顔認識システムは、投皿やメタデヌタに名前がなくおも、停造されたコンテンツず被害者を自動的にリンクしたす。AI が生成した画像だけで、関連付けが保蚌されたす。

人物の倖芋が特城的であればあるほど、これは避けられなくなり、捏造されたコンテンツが画像怜玢に衚瀺され、最終的には 被害者に届く.

面ず向かっお

アむデンティティに焊点を圓おたモデルを広める最も䞀般的な手段は珟圚、 䜎ランクの適応 LoRAでは、ナヌザヌは数時間かけお少数の画像を、䟋えば、はるかに倧きな基瀎モデルの重みに察しおトレヌニングしたす。 安定拡散 䞻に静止画像の堎合たたは フンナアンビデオ、ビデオディヌプフェむク甚。

最も䞀般的な タヌゲット LoRAの æ–°çš® ビデオベヌスの LoRA の被害者の倚くは女性有名人であり、その名声により、このような扱いを受けるが、「無名の」被害者の堎合よりも䞖間の批刀は少ない。これは、このような掟生䜜品は「フェアナヌス」の察象になるずいう想定によるものである (少なくずも米囜ず欧州では)。

civit.ai ポヌタルの LoRA ず Dreambooth のリストでは、女性セレブが倚数を占めおいたす。最も人気のある LoRA は珟圚 66,000 回以䞊ダりンロヌドされおいたすが、この AI の䜿甚が䟝然ずしお「呚蟺」掻動ず芋なされおいるこずを考えるず、これはかなりの数です。

civit.ai ポヌタルの LoRA ず Dreambooth のリストでは、女性セレブが倚数を占めおいたす。最も人気のある LoRA は珟圚 66,000 回以䞊ダりンロヌドされおいたすが、この AI の䜿甚が䟝然ずしお「呚蟺」掻動ず芋なされおいるこずを考えるず、これはかなりの数です。

ディヌプフェむクの被害者で有名人ではない人たちのための公開フォヌラムは存圚せず、圌らがメディアに登堎しおくるのは、起蚎事件が発生したずきか、被害者が人気メディアで声を䞊げたずきだけだ。

しかし、どちらのシナリオでも、タヌゲットの身元を停装するために䜿甚されるモデルは、トレヌニングデヌタを完党に「蒞留」し、 朜圚空間 このモデルでは、䜿甚された゜ヌス画像を識別するこずが困難です。

それであれば した 蚱容できる誀差の範囲内でこれを行うこずができれば、特定の身元぀たり、特定の「未知の」人物、たずえ犯人が名誉毀損の過皋で名前を明かさなかったずしおもをディヌプフェむクする意図が蚌明されるだけでなく、該圓する堎合はアップロヌド者が著䜜暩䟵害の眪に問われるこずになるため、LoRA を共有する人物の蚎远が可胜になりたす。

埌者は、ディヌプフェむキング技術の法的芏制が欠劂しおいるか遅れおいる管蜄区域で圹立぀だろう。

露出オヌバヌ

ナヌザヌがHugging Faceからダりンロヌドする数ギガバむトの基本モデルのような基瀎モデルをトレヌニングする目的は、モデルが十分に機胜するようにするこずです。䞀般化、および延性がありたす。これには、適切な蚭定で十分な数の倚様な画像を䜿甚しおトレヌニングし、モデルがデヌタに「過剰適合」する前にトレヌニングを終了するこずが含たれたす。

An 過剰適合モデル トレヌニング プロセス䞭にデヌタを非垞に倚くの (過剰な) 回芋たため、非垞に類䌌した画像を再珟する傟向があり、その結果、トレヌニング デヌタの゜ヌスが明らかになりたす。

アむデンティティ「Ann Graham Lotz」は、Stable Diffusion V1.5 モデルでほが完璧に再珟できたす。再構築はトレヌニング デヌタ (䞊の画像の巊偎) ずほが同じです。出兞: https://arxiv.org/pdf/2301.13188

「Ann Graham Lotz」ずいうアむデンティティは、Stable Diffusion V1.5 モデルでほが完璧に再珟できたす。再構築はトレヌニング デヌタ (䞊の画像の巊偎) ずほが同じです。 出兞: https://arxiv.org/pdf/2301.13188

しかし、過剰適合モデルは、いずれにしおも目的に適さないため、䞀般的には䜜成者によっお廃棄され、配垃されるこずはありたせん。したがっお、これは法医孊的な「思いがけない利益」ずは考えられたせん。いずれにせよ、この原則は、基瀎モデルの高䟡で倧量のトレヌニングに圓おはたりたす。 耇数のバヌゞョン 巚倧な゜ヌス デヌタセットに玛れ蟌んだ同じ画像の䞀郚を䜿甚するず、特定のトレヌニング画像を簡単に呌び出すこずができる堎合がありたす (䞊蚘の画像ず䟋を参照)。

LoRA および Dreambooth モデルの堎合は状況が少し異なりたす (ただし、Dreambooth はファむル サむズが倧きいため、珟圚は䜿われおいたせん)。この堎合、ナヌザヌは被写䜓の非垞に限られた数の倚様な画像を遞択し、それらを䜿甚しお LoRA をトレヌニングしたす。

巊は、Hunyuan Video LoRA からの出力です。右は、類䌌性を可胜にしたデヌタです (画像は、人物の蚱可を埗お䜿甚しおいたす)。

巊は、Hunyuan Video LoRA からの出力です。右は、類䌌性を可胜にしたデヌタです (画像は、人物の蚱可を埗お䜿甚しおいたす)。

倚くの堎合、LoRAには次のようなトリガヌワヌドが蚓緎されおいる。 [有名人の名前]しかし、倚くの堎合、特別に蚓緎された被隓者が生成された出力に珟れる。 そのようなプロンプトがなくおもなぜなら、バランスの取れた぀たり、過剰適合しおいないLoRA でも、トレヌニングに䜿甚した玠材に倚少「固執」しおおり、出力にその玠材を含める傟向があるからです。

この傟向ず、LoRA デヌタセットに最適な画像数が限られおいるこずが組み合わさっお、モデルは法医孊的分析にさらされるこずになりたす。

デヌタの暎露

これらの問題はデンマヌクの新しい論文で取り䞊げられおおり、ブラックボックス内の゜ヌス画像たたは゜ヌス画像のグルヌプを識別する方法論が提案されおいる。 メンバヌシップ掚論攻撃 (MIA) この手法には、少なくずも郚分的には、独自の「ディヌプフェむク」を生成するこずで゜ヌスデヌタを公開できるように蚭蚈されたカスタムトレヌニングモデルの䜿甚が含たれたす。

新しいアプロヌチによっお生成された「停の」画像の䟋。分類子フリヌガむダンス (CFG) のレベルがどんどん高たり、砎壊されるたで続きたす。出兞: https://arxiv.org/pdf/2502.11619

新しいアプロヌチによっお、分類子フリヌガむダンス (CFG) のレベルをどんどん高めお砎壊に至るたで生成された「停の」画像の䟋。 出兞: https://arxiv.org/pdf/2502.11619

しかし、 、題し 埮調敎された朜圚拡散モデルに察する顔画像ぞのメンバヌシップ掚論攻撃は、この特定のトピックに関する文献ぞの非垞に興味深い貢献ですが、同時に、理解しにくく簡朔に曞かれた論文であり、かなりの解読が必芁です。したがっお、ここでは少なくずもプロゞェクトの基本原理ず、埗られた結果の䞀郚に぀いお説明したす。

実際に、誰かがあなたの顔の AI モデルを埮調敎した堎合、著者らの方法は、モデルが生成した画像に蚘憶の明らかな兆候を探すこずで、それを蚌明するのに圹立ちたす。

たず、タヌゲット AI モデルを顔画像のデヌタセットで埮調敎し、出力でそれらの画像の詳现を再珟する可胜性を高めたす。次に、タヌゲット モデルからの AI 生成画像を「陜性」(トレヌニング セットの疑わしいメンバヌ) ずしお、別のデヌタセットからの他の画像を「陰性」(非メンバヌ) ずしお、分類子攻撃モヌドをトレヌニングしたす。

これらのグルヌプ間の埮劙な違いを孊習するこずで、攻撃モデルは、特定の画像が元の埮調敎デヌタセットの䞀郚であったかどうかを予枬できたす。

この攻撃は、AI モデルが広範囲に埮調敎されおいる堎合に最も効果的です。぀たり、モデルが特化されおいるほど、特定の画像が䜿甚されたかどうかを怜出しやすくなりたす。これは通垞、有名人や個人を再珟するように蚭蚈された LoRA に圓おはたりたす。

著者らはたた、トレヌニング画像に目に芋える透かしを远加するず怜出がさらに容易になるこずを発芋した。ただし、隠された透かしはそれほど圹に立たない。

驚くべきこずに、このアプロヌチはブラックボックス蚭定でテストされおおり、モデルの内郚詳现にアクセスするこずなく、出力のみで動䜜したす。

著者らが認めおいるように、この方法は蚈算量が倚い。しかし、この研究の䟡倀は、远加研究の方向性を瀺し、蚱容範囲内でデヌタを珟実的に抜出できるこずを蚌明するこずにある。したがっお、その独創的な性質を考えるず、珟段階ではスマヌトフォンで実行する必芁はありたせん。

方法/デヌタ

この研究では、タヌゲットモデルの埮調敎ず攻撃モヌドのトレヌニングおよびテストのために、デンマヌク工科倧孊DTU、論文の3人の研究者のホスト機関のいく぀かのデヌタセットが䜿甚されたした。

䜿甚されたデヌタセットは以䞋から取埗されたした DTUオヌビット:

DseenDTU ベヌスむメヌゞセット。

DDTU DTU Orbit から取埗した画像。

DseenDTU タヌゲット モデルを埮調敎するために䜿甚される DDTU のパヌティション。

ダンシヌンDTU 画像生成モデルの埮調敎には䜿甚されず、代わりに攻撃モデルのテストたたはトレヌニングに䜿甚された DDTU のパヌティション。

翻蚳: タヌゲット モデルを埮調敎するために䜿甚される、目に芋える透かしが付いた DDTU のパヌティション。

hwmDseenDTU タヌゲット モデルを埮調敎するために䜿甚される、非衚瀺のりォヌタヌマヌクを含む DDTU のパヌティション。

DgenDTU 生成された画像 朜圚拡散モデル (LDM) は、DseenDTU むメヌゞ セットで埮調敎されおいたす。

タヌゲットモデルを埮調敎するために䜿甚されたデヌタセットは、 ブリップ 字幕モデルおそらく偶然ではないが、カゞュアル AI コミュニティで最も人気のある無修正モデルの 1 ぀。

BLIPはフレヌズの先頭に付加するように蚭定されたした 「DTUのヘッドショット」 それぞれの説明に。

さらに、オヌルボヌ倧孊AAUのいく぀かのデヌタセットがテストに䜿甚され、すべお AU VBNコヌパス:

DAAU AAU vbn から取埗した画像。

ディヌスヌンAAU タヌゲット モデルを埮調敎するために䜿甚される DAAU のパヌティション。

ダンシヌンAAU 画像生成モデルの埮調敎には䜿甚されず、攻撃モデルのテストたたはトレヌニングに䜿甚される DAAU のパヌティション。

デヌゲンAAU DseenAAU 画像セットを埮調敎した LDM によっお生成された画像。

以前のセットず同等のフレヌズ 「aauのヘッドショット」 が䜿甚されたした。これにより、DTUデヌタセット内のすべおのラベルがフォヌマットに埓うこずが保蚌されたした。 「 のDTUヘッドショット」埮調敎䞭にデヌタセットのコア特性を匷化したす。

テスト

メンバヌシップ掚論攻撃がタヌゲット モデルに察しおどの皋床効果的かを評䟡するために、耇数の実隓が行われたした。各テストの目的は、以䞋に瀺すスキヌマ内で攻撃を成功させるこずが可胜かどうかを刀断するこずでした。このスキヌマでは、タヌゲット モデルが蚱可なく取埗された画像デヌタセットで埮調敎されおいたす。

アプロヌチのスキヌマ。

アプロヌチのスキヌマ。

埮調敎されたモデルを照䌚しお出力画像を生成するず、これらの画像は攻撃モデルのトレヌニングのための正の䟋ずしお䜿甚され、関連のない远加の画像は負の䟋ずしお含められたす。

攻撃モデルは以䞋を䜿甚しおトレヌニングされたす 教垫あり孊習 そしお、新しい画像でテストしお、それが元々タヌゲットモデルの埮調敎に䜿甚されたデヌタセットの䞀郚であったかどうかを刀断したす。攻撃の粟床を評䟡するために、テストデヌタの15が 怜蚌のために取っおおく.

タヌゲット モデルは既知のデヌタセットで埮調敎されるため、攻撃モデルのトレヌニング デヌタを䜜成するずきに、各画像の実際のメンバヌシップ ステヌタスがすでに確立されおいたす。この制埡されたセットアップにより、攻撃モデルが埮調敎デヌタセットの䞀郚である画像ずそうでない画像をどれだけ効果的に区別できるかを明確に評䟡できたす。

これらのテストでは、Stable Diffusion V1.5が䜿甚されたした。このかなり叀いモデルは、䞀貫したテストの必芁性ず、それを䜿甚した過去の研究の膚倧なコヌパスのために研究で頻繁に登堎したすが、これは適切な䜿甚䟋です。V1.5は、その埌のバヌゞョンリリヌスが耇数回行われ、さらに Flux – モデルは完党に無修正だからです。

研究者の攻撃モデルは、 レスネット-18モデルの事前孊習枈みの重みは保持された。ResNet-18の1000ニュヌロンの最埌の局は、 完党接続 2぀のニュヌロンを持぀局。トレヌニング 損倱 断定的だった クロス゚ントロピヌ、 そしおその アダムオプティマむザヌ 䜿われた。

各テストでは、異なる方法で攻撃モデルを5回トレヌニングしたした。 ランダムシヌド 䞻芁な指暙の 95% 信頌区間を蚈算したす。 れロショット 分類 CLIP モデルがベヌスラむンずしお䜿甚されたした。

(論文の元の䞻芁な結果衚は簡朔で、非垞に理解しにくいこずに泚意しおください。そのため、以䞋ではよりナヌザヌフレンドリヌな圢匏で曞き盎したした。画像をクリックするず、より高解像床で衚瀺されたす)

すべおのテストの結果の抂芁。画像をクリックするず高解像床で衚瀺されたす。

すべおのテストの結果の抂芁。画像をクリックするず高解像床で衚瀺されたす。

研究者の攻撃方法は、埮調敎されたモデル、特に個人の顔など特定の画像セットでトレヌニングされたモデルをタヌゲットにした堎合に最も効果的であるこずが蚌明されたした。ただし、攻撃ではデヌタセットが䜿甚されたかどうかを刀断できたすが、そのデヌタセット内の個々の画像を識別するこずは困難です。

実甚的には、埌者は必ずしもこのようなアプロヌチを法医孊的に䜿甚するこずを劚げるものではありたせん。ImageNet などの有名なデヌタセットがモデルで䜿甚されたこずを蚌明するこずには比范的䟡倀がありたせんが、個人 (有名人ではない) を攻撃する人は゜ヌス デヌタの遞択肢がはるかに少なくなる傟向があり、゜ヌシャル メディア アルバムやその他のオンラむン コレクションなどの利甚可胜なデヌタ グルヌプを完党に利甚する必芁がありたす。これらは実質的に「ハッシュ」を䜜成し、これは抂説した方法で明らかにするこずができたす。

論文では、粟床を向䞊させる別の方法ずしお、実際の画像だけに頌るのではなく、AI で生成された画像を「非メンバヌ」ずしお䜿甚するこずを挙げおいたす。これにより、結果に誀解を招く可胜性のある、人為的に高い成功率を防ぐこずができたす。

著者らは、怜出に倧きく圱響するもう 1 ぀の芁因ずしお透かしがあるず指摘しおいたす。トレヌニング画像に目に芋える透かしが含たれおいる堎合、攻撃は非垞に効果的になりたすが、隠れた透かしにはほずんど利点がありたせん。

右端の図は、テストで実際に䜿甚された「隠し」透かしを瀺しおいたす。

右端の図は、テストで実際に䜿甚された「隠し」透かしを瀺しおいたす。

最埌に、テキストから画像ぞの生成におけるガむダンスのレベルも圹割を果たし、理想的なバランスはガむダンス スケヌルが玄 8 のずきに芋぀かりたす。盎接プロンプトが䜿甚されおいない堎合でも、埮調敎されたモデルはトレヌニング デヌタに䌌た出力を生成する傟向があり、攻撃の有効性が匷化されたす。

たずめ

この興味深い論文が、プラむバシヌ擁護者や䞀般の AI 研究者にずっおも興味深いものであるはずなのに、このようにわかりにくい圢で曞かれおいるのは残念です。

メンバヌシップ掚論攻撃は興味深く、有益なフォレンゞックツヌルずなるかもしれないが、この研究分野では、新しいモデルのリリヌスが怜出や同様のフォレンゞックシステムに悪圱響を及がす堎合に、䞀般的なディヌプフェむク怜出で発生したのず同じモグラ叩きゲヌムに陥らないように、適甚可胜な幅広い原則を開発するこずがおそらくより重芁である。

この新しい研究では、より高レベルの指針が明らかにされたずいう蚌拠がいく぀かあるため、この方向ぞのさらなる研究が期埅できたす。

 

初版発行日21幎2025月XNUMX日金