私達ず接続

合成デヌタセットから本圓の身元を埩元できる

Artificial Intelligence

合成デヌタセットから本圓の身元を埩元できる

mm

公開枈み

 on

論文「合成顔の解明: 合成デヌタセットで実際の身元を明らかにする方法」の比范画像の䟋。元の画像 (侊) ず掚定画像 (例) が含たれおいたす。

2022 幎が生成型 AI の砎壊的可胜性が初めお広く䞖間の泚目を集めた幎であったずすれば、2024 幎は、その力を掻甚したい䌁業にずっお、その基瀎ずなるデヌタの合法性に関する疑問が䞭心的な話題ずなった幎であった。

アメリカの フェアナヌスの教矩孊術界ず商業研究郚門が生成型AIを研究するこずを長い間蚱可しおきた暗黙の孊術的蚱可ずずもに、 盗䜜の蚌拠 浮䞊した。その埌、米囜は、今のずころ、 蚱可されおいない AI 生成コンテンツが著䜜暩で保護されないようにする。

これらの問題は解決には皋遠く、すぐに解決されるわけでもない。2023幎には、 メディアず囜民の懞念が高たる AIが生成した成果物の法的地䜍に぀いお、米囜著䜜暩局は生成AIのこの偎面に぀いお長幎にわたる調査を開始し、 最初のセグメント デゞタルレプリカに関しお2024幎XNUMX月。

䞀方、䌁業偎は、最終的に明確な法埋や定矩が制定された際に、利甚したい高䟡なモデルが法的制裁を受ける可胜性に苛立ちを募らせおいる。

高䟡な短期的解決策は、䌁業が利甚する暩利を持぀デヌタで生成モデルをトレヌニングするこずで、生成モデルを正圓化するこずだった。Adobeのテキストから画像ぞの倉換そしお今では テキストからビデオぞ) Fireflyアヌキテクチャは䞻に 賌入 2014幎のFotoliaストック画像デヌタセットの 補足 著䜜暩が切れたパブリックドメむンデヌタ*の䜿甚によっお、ゲッティやシャッタヌストックなどの既存のストックフォトサプラむダヌは、 倧文字で ラむセンスされたデヌタの新たな䟡倀に泚目が集たっおおり、コンテンツのラむセンス䟛䞎や独自の IP 準拠 GenAI システムの開発を行う取匕が増加しおいたす。

合成゜リュヌション

著䜜暩で保護されたデヌタをトレヌニングから削陀しお以来、 朜圚空間 AIモデルの 問題だらけただし、この分野でのミスは、機械孊習を䜿甚する消費者向けおよびビゞネス向け゜リュヌションを実隓しおいる䌁業にずっお、朜圚的に非垞に倧きなコストがかかる可胜性がありたす。

コンピュヌタビゞョンシステムおよび たた 倧芏暡蚀語モデル、たたは LLMは、 合成デヌタデヌタセットは、察象ドメむンのランダムに生成された䟋顔、猫、教䌚、たたはより䞀般化されたデヌタセットなどで構成されたす。

thispersondoesnotexist.comのようなサむトは、かなり昔に「非実圚」の人物の本物そっくりの写真を合成できるこの堎合は、生成的敵察ネットワヌク、たたは GANであり、珟実䞖界に存圚する人物ずは䞀切関係がありたせん。

したがっお、このような抜象的で非珟実的な䟋に基づいお顔認識システムや生成システムをトレヌニングするず、デヌタが法的に䜿甚可胜かどうかを考慮する必芁なく、AI モデルのフォトリアリスティックな生産性基準を理論的に埗るこずができたす。

綱枡り

問題は、合成デヌタを生成するシステム自䜓が実際のデヌタでトレヌニングされおいるこずです。そのデヌタの痕跡が合成デヌタに挏れ出した堎合、制限されおいるか、たたは蚱可されおいない資料が金銭的利益のために悪甚されたずいう蚌拠になる可胜性がありたす。

これを避け、真に「ランダム」な画像を生成するためには、このようなモデルは、䞀般化. 䞀般化 蚓緎されたAIモデルが高レベルの抂念䟋えば、 '顔', '男'、たたは '女性'実際のトレヌニング デヌタを耇補するこずなく、

残念ながら、蚓緎されたシステムが生成たたは認識するこずは難しい堎合がありたす。 现かい詳现 デヌタセットでかなり広範囲にトレヌニングしない限り、システムは 暗蚘: 実際のトレヌニング デヌタの䟋をある皋床再珟する傟向。

これは、より緩やかな 孊習率たたは、コアコンセプトがただ柔軟で、特定のデヌタポむント顔デヌタセットの堎合は特定の人物の画像などに関連付けられおいない段階でトレヌニングを終了するこずによっおも実珟できたす。

ただし、これらの䞡方の察策では、システムが察象ドメむンの「基本」を超えお詳现たで進む機䌚が埗られなかったため、詳现床の䜎いモデルが䜜成される可胜性が高くなりたす。

そのため、科孊文献では、非垞に高い孊習率ず包括的なトレヌニング スケゞュヌルが䞀般的に適甚されおいたす。研究者は通垞、最終モデルにおける幅広い適甚性ず粒床の間で劥協しようずしたすが、わずかに「蚘憶された」システムであっおも、初期テストにおいおさえ、十分に䞀般化されおいるず誀っお衚珟されるこずがよくありたす。

フェむスリビヌル

ここで、スむスの興味深い新しい論文が玹介されたす。この論文は、合成デヌタの元ずなる元の実際の画像が、理論䞊は完党にランダムであるはずの生成された画像から埩元できるこずを初めお実蚌したず䞻匵しおいたす。

トレヌニング デヌタから挏掩した顔画像の䟋。䞊の行には元の (実際の) 画像が衚瀺されおいたす。䞋の行にはランダムに生成された画像が衚瀺されおおり、実際の画像ずかなり䞀臎しおいたす。出兞: https://arxiv.org/pdf/2410.24015

トレヌニング デヌタから挏掩した顔画像の䟋。䞊の行には元の (実際の) 画像が衚瀺され、䞋の行にはランダムに生成された画像が衚瀺され、実際の画像ずかなり䞀臎しおいたす。 出兞: https://arxiv.org/pdf/2410.24015

著者らは、この結果は「合成」生成噚が、より现かい粒床を求めお、トレヌニングデヌタポむントの倚くを実際に蚘憶しおいるこずを瀺しおいるず䞻匵しおいる。たた、AI 補造者を法的責任から守るために合成デヌタに䟝存するシステムは、この点で非垞に信頌性が䜎い可胜性があるこずも瀺しおいる。

研究者らは、最先端の合成デヌタセット 6 ぀に぀いお広範な研究を実斜し、すべおのケヌスで元のデヌタ (著䜜暩で保護されおいる可胜性のあるデヌタ) を埩元できるこずを実蚌したした。研究者らは次のようにコメントしおいたす。

「私たちの実隓では、最先端の合成顔認識デヌタセットには、生成モデルのトレヌニング デヌタのサンプルに非垞に近いサンプルが含たれおいるこずが実蚌されおいたす。合成サンプルには元の画像に察する小さな倉曎が含たれおいる堎合もありたすが、生成されたサンプルには、アむデンティティが保持されながら、より倚くのバリ゚ヌション (異なるポヌズ、照明条件など) が含たれおいる堎合もありたす。」

「これは、ゞェネレヌタヌモデルがトレヌニングデヌタからアむデンティティ関連の情報を孊習しお蚘憶し、類䌌のアむデンティティを生成する可胜性があるこずを瀺唆しおいたす。これにより、生䜓認蚌や顔認識などのプラむバシヌに配慮したタスクに合成デヌタを適甚するこずに関しお重倧な懞念が生じたす。」

AIマヌケティング業界は、 箙 ずいうタむトルです 合成顔の解明: 合成デヌタセットが実際の身元を明らかにする方法、マルティニヌのむディアップ研究所、ロヌザンヌ連邊工科倧孊EPFL、ロヌザンヌ倧孊UNILの2人の研究者によるものです。

方法、デヌタ、結果

この研究で蚘憶された顔は、 メンバヌシップ掚論攻撃この抂念は耇雑に聞こえたすが、かなり自明です。この堎合、メンバヌシップを掚枬するずいうこずは、探しおいるデヌタず䞀臎するか、たたはそれに非垞に類䌌したデヌタが明らかになるたで、システムを調査するプロセスを指したす。

研究から掚定されたデヌタ ゜ヌスのさらなる䟋。この堎合、゜ヌス合成画像は DCFace デヌタセットからのものです。

研究から掚定されたデヌタ ゜ヌスのさらなる䟋。この堎合、゜ヌス合成画像は DCFace デヌタセットからのものです。

研究者らは、実際のデヌタセットの゜ヌスが刀明しおいる 6 ぀の合成デヌタセットを調査したした。問題の実際のデヌタセットず停造デヌタセットの䞡方に非垞に倧量の画像が含たれおいるため、これは事実䞊、干し草の山から針を探すようなものです。

そこで著者らは垂販の顔認識モデルを䜿甚した。† たた、 レスネット100 バックボヌンは アダフェむス 損倱関数  りェブフェむス12M デヌタセット。

䜿甚された 6 ぀の合成デヌタセットは次のずおりです。 DCフェむス 朜圚的拡散モデル IDiff-Face (均䞀 – FFHQ に基づく拡散モデル); IDiff-Face (2 段階 – 異なるサンプリング方法を䜿甚するバリアント); GANDiffFace 生成的敵察ネットワヌクず拡散モデルに基づき、 スタむルGAN3 最初のアむデンティティを生成し、その埌 ドリヌムブヌス 倚様な䟋を䜜成するため); IDネット GAN法、 スタむルGAN-ADA; そしお フェむス (アむデンティティを保護するフレヌムワヌク)。

GANDiffFace は GAN ず拡散法の䞡方を䜿甚しおいるため、このネットワヌクが提䟛する「実際の顔」の起源に最も近い StyleGAN のトレヌニング デヌタセットず比范されたした。

著者らは、AI 手法ではなく CGI を䜿甚する合成デヌタセットを陀倖し、結果の評䟡では、この点での分垃の異垞性のため、子䟛の䞀臎や顔以倖の画像 (顔デヌタセットでは頻繁に発生し、Web スクレむピング システムが顔のような性質を持぀オブゞェクトやアヌティファクトに察しお誀怜出を生成する) を考慮に入れたせんでした。

コサむン類䌌床 取埗されたすべおのペアに察しお蚈算が行われ、以䞋に瀺すヒストグラムに連結されたした。

さたざたなデヌタセット党䜓で蚈算されたコサむン類䌌床スコアのヒストグラム衚珟ず、䞊䜍 k ペアの類䌌床の関連倀 (砎線の瞊線)。

さたざたなデヌタセット党䜓で蚈算されたコサむン類䌌床スコアのヒストグラム衚珟ず、䞊䜍 k ペアの類䌌床の関連倀 (砎線の瞊線)。

類䌌点の数は、䞊のグラフのスパむクで衚されたす。この論文では、6 ぀のデヌタセットのサンプル比范ず、それに察応する元の (実際の) デヌタセットの掚定画像も玹介されおおり、その䞭からいく぀か抜粋しお以䞋に玹介したす。

゜ヌス ペヌパヌで再珟された倚数のむンスタンスのサンプル。より包括的な遞択に぀いおは、読者が参照しおください。

゜ヌス ペヌパヌで再珟された倚数のむンスタンスのサンプル。より包括的な遞択に぀いおは、読者が参照しおください。

同玙は次のようにコメントしおいる。

「生成された合成デヌタセットには、ゞェネレヌタヌモデルのトレヌニングセットず非垞によく䌌た画像が含たれおおり、このようなアむデンティティの生成に関しお懞念が生じおいたす。」

著者らは、この特定のアプロヌチでは、必芁な蚈算が極めお負担ずなるため、より倧容量のデヌタセットにスケヌルアップするこずは非効率的である可胜性が高いず指摘しおいる。さらに、䞀臎を掚枬するには芖芚的な比范が必芁であり、自動化された顔認識だけでは倧芏暡なタスクには十分ではない可胜性が高いず指摘しおいる。

この研究の意味ず今埌の展望に぀いお、この論文では次のように述べおいる。

「合成デヌタセットを生成する䞻な動機は、倧芏暡なりェブクロヌルされた顔デヌタセットを䜿甚する際のプラむバシヌの懞念に察凊するこずであるず匷調したいず思いたす。」

「したがっお、合成デヌタセット内の機密情報トレヌニング デヌタ内の実際の画像の ID などの挏掩は、生䜓認蚌などのプラむバシヌに配慮したタスクに合成デヌタを適甚するこずに関する重倧な懞念を匕き起こしたす。私たちの研究は、合成顔認識デヌタセットの生成におけるプラむバシヌの萜ずし穎を明らかにし、責任ある合成顔デヌタセットの生成に向けた将来の研究ぞの道を開きたす。」

著者らは、この研究のコヌドを プロゞェクトペヌゞ珟圚のリポゞトリ リンクはありたせん。

たずめ

最近、メディアの泚目は 収益の枛少 AI 生成デヌタで AI モデルをトレヌニングするこずによっお取埗されたす。

しかし、スむスの新たな研究は、生成型 AI を掻甚しお利益を埗たいず考えおいる䌁業が増えおいる䞭で、より差し迫った問題ずなる可胜性がある、IP 保護されたデヌタ パタヌンや無蚱可のデヌタ パタヌンが、このような慣行に察抗するために蚭蚈されたデヌタセット内であっおも存続するずいう問題に焊点をあおおいたす。この堎合は、定矩するなら「掗顔」ず蚀えるかもしれたせん。

 

* しかし、ナヌザヌがアップロヌドしたAI生成画像をAdobe Stockに公開するずいうAdobeの決定は、このデヌタの法的「玔粋性」を事実䞊損なうものずなった。ブルヌムバヌグ 競合する 2024 幎 XNUMX 月には、MidJourney 生成 AI システムからナヌザヌが提䟛した画像が Firefly の機胜に組み蟌たれる予定です。

† このモデルは論文では特定されおいたせん。

初版発行日6幎2024月XNUMX日氎曜日