Artificial Intelligence

以前のアプローチを上回る、新しくてシンプルなディープフェイク手法

更新中 on 2022 年 12 月 9 日

中国のAI研究グループと米国を拠点とする研究者との共同研究により、4年前にディープフェイク現象が出現して以来、おそらく初の真のイノベーションとなるディープフェイク技術が開発された。

新しい方法は、大規模な専用データセットを徹底的に収集してキュレートし、単一の ID に対して最大 XNUMX 週間トレーニングする必要がなく、標準的な知覚テストで他のすべての既存のフレームワークよりも優れたパフォーマンスを発揮するフェイススワップを実行できます。新しい論文で紹介されている例では、モデルは全体 40 つの人気のある有名人のデータセットを XNUMX つの NVIDIA Tesla PXNUMX GPU で約 XNUMX 日間実行しました。

完全なビデオはこの記事の最後に埋め込まれています。新しい論文の補足資料のビデオからのこのサンプルでは、スカーレット・ヨハンソンの顔がソースビデオに転写されています。 CihaNet は、ソース ID とターゲット ID の間のより深い関係を形成して実行することにより、スワップ実行時のエッジマスキングの問題を解決します。これは、従来のディープフェイク手法で発生する「明らかな境界」やその他の重ね合わせの不具合に終止符を打つことを意味します。出典: 出典: https://mitchellx.github.io/#video

完全なビデオはこの記事の最後でご覧いただけます。 新しい論文の著者の一人が提供した補足資料のビデオからのこのサンプルでは、スカーレット・ヨハンソンの顔がソースビデオに転写されています。 CihaNet は、ソース ID とターゲット ID の間のより深い関係を形成して実行することにより、スワップ実行時のエッジマスキングの問題を解決します。これは、従来のディープフェイク手法で発生する「明らかな境界」やその他の重ね合わせの不具合に終止符を打つことを意味します。ソース：出典: https://mitchellx.github.io/#video

新しいアプローチでは、移植されたアイデンティティを対象のビデオに大まかに「貼り付ける」必要がなくなります。これにより、多くの場合、証拠隠滅につながります。アーティファクト偽の顔が終わり、その下にある本当の顔が始まる場所に現れます。むしろ、「幻覚マップ」は、視覚的側面のより深い混合を実行するために使用されます。これは、システムが現在の方法よりもはるかに効果的にアイデンティティをコンテキストから分離し、したがってターゲットのアイデンティティをより深いレベルで混合できるためです。

紙から。 CihaNet の変換は、幻覚マップ (下の行) によって促進されます。このシステムは、新しいアイデンティティがスーパーインポーズされる画像からのコンテキスト情報 (つまり、顔の方向、髪、眼鏡、その他のオクルージョンなど) をすべて使用し、画像に挿入される人物からの顔のアイデンティティ情報もすべて使用します。顔をコンテキストから分離するこの機能は、システムの成功にとって重要です。出典: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

事実上、新しい幻覚マップは、広範なキュレーションを必要とすることが多いハードマスクとは対照的に、交換のためのより完全なコンテキストを提供します (DeepFaceLab の場合は、個別のトレーニング) 一方で、XNUMX つのアイデンティティを実際に組み込む際の柔軟性は限られています。

補足資料で提供されるサンプルから、VGGFace と Forensics++ にわたる FFHQ と Celeb-A HQ データセットの両方を使用します。最初の 2017 つの列は、交換されるランダムに選択された (実際の) イメージを示します。次の XNUMX つの列は、現在利用可能な XNUMX つの最も効果的な方法を使用したスワップの結果を示し、最後の列は CihaNet からの結果を示します。どちらのプロジェクトも GitHub 上のオリジナルの XNUMX Deepfakes コードのフォークであるため、より人気のある DeepFaceLab ではなく、FaceSwap リポジトリが使用されています。その後、各プロジェクトにモデル、技術、多様な UI、補助ツールが追加されましたが、ディープフェイクを可能にする基礎となるコードは一度も変わっておらず、両方に共通のままです。ソース: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

　紙、題し XNUMX段階のコンテキストとアイデンティティの幻覚ネットワークは、JD AI Research とマサチューセッツ大学アマースト校に所属する研究者によって執筆され、助成金番号 2020AAA0103800 に基づく中国国家重点研究開発プログラムの支援を受けました。これは、29 月 20 日から 24 日まで中国の成都で開催された第 XNUMX 回 ACM 国際マルチメディア会議で発表されました。

「フェイスオン」パリティは不要

現在最も人気のあるディープフェイクソフトウェアである DeepFaceLab と、競合するフォークの FaceSwap はどちらも、顔がどの方向に傾いているか、考慮する必要がある障害物が何か (これも手動で) を特定するために、曲がりくねった頻繁に手作業で精選されたワークフローを実行します。、そしてディープフェイクの出現以来、メディアで不正確に描写されてきた「ポイントアンドクリック」エクスペリエンスからその使用を遠ざける他の多くのイライラする障害（照明を含む）に対処する必要があります。

対照的に、CihaNet では、XNUMX つの画像から有用な ID 情報を抽出して活用するために、XNUMX つの画像がカメラに直接直面している必要はありません。

これらの例では、一連のディープフェイクソフトウェアの候補者が、身元が異なるだけでなく、同じ方向を向いていない顔を交換するという課題に挑戦しています。オリジナルのディープフェイクリポジトリから派生したソフトウェア (上図の非常に人気のある DeepFaceLab や FaceSwap など) は、交換される XNUMX つの画像間の角度の相違を処理できません (XNUMX 番目の列を参照)。一方、Cihanet は、顔の「ポーズ」が本質的にアイデンティティ情報の一部ではないため、アイデンティティを正しく抽象化できます。

これらの例では、一連のディープフェイクソフトウェアの候補者が、身元が異なるだけでなく、同じ方向を向いていない顔を交換するという課題に挑戦しています。元のディープフェイクリポジトリから派生したソフトウェア (上図の非常に人気のある DeepFaceLab や FaceSwap など) は、交換される XNUMX つの画像間の角度の相違を処理できません (XNUMX 番目の列を参照)。一方、顔の「ポーズ」は本質的にアイデンティティ情報の一部ではないため、CihaNet はアイデンティティを正しく抽象化できます。

アーキテクチャ

著者らによれば、CihaNet プロジェクトは、Microsoft Research と北京大学の 2019 年の共同研究に触発されたものです。フェイスシフターただし、古いメソッドのコアアーキテクチャにいくつかの注目すべき重要な変更が加えられています。

FaceShifter は XNUMX つのアダプティブインスタンス正規化を使用します (アダイン) ネットワークで ID 情報を処理し、そのデータは、現在人気のあるディープフェイクソフトウェア (およびそれに関連するすべての制限付き) と同様の方法で、マスクを介してターゲット画像に置き換えられます。ヒアネット (これには、オクルージョン障害物でトレーニングされた個別にトレーニングされたサブネットが含まれます。これは複雑さの追加層です)。

代わりに、新しいアーキテクチャは、XNUMX 段階の単一カスケードアダプティブインスタンス正規化 (C-AdaIN) 操作を介して、この「コンテキスト」情報を変換プロセス自体に直接使用します。これにより、ID のコンテキスト (つまり、顔のスキンとオクルージョン) の一貫性が提供されます。関連領域。

システムにとって重要な XNUMX 番目のサブネットはスワッピングブロック (SwapBlk) と呼ばれます。これは、参照画像のコンテキストとソース画像からの埋め込まれた「アイデンティティ」情報から統合された機能を生成し、これを達成するために必要な複数の段階をバイパスします。従来の電流を意味します。

コンテキストとアイデンティティを区別しやすくするために、 幻覚地図 レベルごとに生成され、ソフトセグメンテーションマスクの代わりとなり、ディープフェイクプロセスのこの重要な部分の広範囲の特徴に作用します。

幻覚マップ (右下の図) の値が大きくなるにつれて、アイデンティティ間のより明確な道筋が現れます。

このようにして、交換プロセス全体が単一ステージで後処理なしで完了します。

データとテスト

このシステムを試すために、研究者らは XNUMX つの非常に人気のある多彩なオープン画像データセットで XNUMX つのモデルをトレーニングしました。セレブA-HQ および NVIDIA の Flickr-Faces-HQ データセット (FF本社)、それぞれに 30,000 枚と 70,000 枚の画像が含まれています。

これらのベースデータセットでは、プルーニングやフィルタリングは実行されませんでした。いずれの場合も、研究者らは単一の Tesla GPU で各データセット全体を 0.0002 日間かけて、Adam 最適化の学習率 XNUMX でトレーニングしました。

次に、顔が似ているかどうかや性別が一致しているかどうかに関係なく、データセットに含まれる何千もの人格の間で一連のランダムな交換をレンダリングし、CihaNet の結果を XNUMX つの主要なディープフェイクフレームワークからの出力と比較しました。フェイススワップ (これはより人気のあるものを表します) ディープフェイスラボルートコードベースを共有しているため、オリジナルの 2017 リポジトリそれがディープフェイクを世界にもたらしました）。前述の FaceShifter。 FSGAN、およびシムスワップ.

結果を比較すると、 VGGフェイス、FFHQ、CelebA-HQ、 FaceForensics ++以下の表に示すように、著者らは新しいモデルが以前のすべてのモデルよりも優れていることを発見しました。

結果の評価に使用された XNUMX つの指標は、構造的類似性 (SSIM), 姿勢推定エラー & ID検索精度。これは、正常に取得されたペアの割合に基づいて計算されます。

研究者らは、CihaNet は定性的結果の点で優れたアプローチであり、大規模で労働集約的なマスキングアーキテクチャと方法論の負担を軽減し、より有用なマスキングアーキテクチャと方法論を実現することにより、ディープフェイク技術の現在の最先端技術における顕著な進歩を示していると主張しています。そしてコンテキストからアイデンティティを実用的に分離すること。

新しいテクニックのビデオ例をさらに見るには、以下をご覧ください。フルレングスのビデオを見つけることができますこちら.