Artificial Intelligence
以前のアプローチを上回る、新しくてシンプルなディープフェイク手法
中国のAI研究グループと米国を拠点とする研究者との共同研究により、4年前にディープフェイク現象が出現して以来、おそらく初の真のイノベーションとなるディープフェイク技術が開発された。
新しい方法は、大規模な専用データセットを徹底的に収集してキュレートし、単一の ID に対して最大 XNUMX 週間トレーニングする必要がなく、標準的な知覚テストで他のすべての既存のフレームワークよりも優れたパフォーマンスを発揮するフェイススワップを実行できます。 新しい論文で紹介されている例では、モデルは 全体 40 つの人気のある有名人のデータセットを XNUMX つの NVIDIA Tesla PXNUMX GPU で約 XNUMX 日間実行しました。
新しいアプローチでは、移植されたアイデンティティを対象のビデオに大まかに「貼り付ける」必要がなくなります。これにより、多くの場合、証拠隠滅につながります。 アーティファクト 偽の顔が終わり、その下にある本当の顔が始まる場所に現れます。 むしろ、「幻覚マップ」は、視覚的側面のより深い混合を実行するために使用されます。これは、システムが現在の方法よりもはるかに効果的にアイデンティティをコンテキストから分離し、したがってターゲットのアイデンティティをより深いレベルで混合できるためです。
事実上、新しい幻覚マップは、広範なキュレーションを必要とすることが多いハードマスクとは対照的に、交換のためのより完全なコンテキストを提供します (DeepFaceLab の場合は、 個別のトレーニング) 一方で、XNUMX つのアイデンティティを実際に組み込む際の柔軟性は限られています。
紙、題し XNUMX段階のコンテキストとアイデンティティの幻覚ネットワークは、JD AI Research とマサチューセッツ大学アマースト校に所属する研究者によって執筆され、助成金番号 2020AAA0103800 に基づく中国国家重点研究開発プログラムの支援を受けました。 これは、29 月 20 日から 24 日まで中国の成都で開催された第 XNUMX 回 ACM 国際マルチメディア会議で発表されました。
「フェイスオン」パリティは不要
現在最も人気のあるディープフェイク ソフトウェアである DeepFaceLab と、競合するフォークの FaceSwap はどちらも、顔がどの方向に傾いているか、考慮する必要がある障害物が何か (これも手動で) を特定するために、曲がりくねった頻繁に手作業で精選されたワークフローを実行します。 、そしてディープフェイクの出現以来、メディアで不正確に描写されてきた「ポイントアンドクリック」エクスペリエンスからその使用を遠ざける他の多くのイライラする障害(照明を含む)に対処する必要があります。
対照的に、CihaNet では、XNUMX つの画像から有用な ID 情報を抽出して活用するために、XNUMX つの画像がカメラに直接直面している必要はありません。
アーキテクチャ
著者らによれば、CihaNet プロジェクトは、Microsoft Research と北京大学の 2019 年の共同研究に触発されたものです。 フェイスシフターただし、古いメソッドのコア アーキテクチャにいくつかの注目すべき重要な変更が加えられています。
FaceShifter は XNUMX つのアダプティブ インスタンス正規化を使用します (アダイン) ネットワークで ID 情報を処理し、そのデータは、現在人気のあるディープフェイク ソフトウェア (およびそれに関連するすべての制限付き) と同様の方法で、マスクを介してターゲット画像に置き換えられます。 ヒアネット (これには、オクルージョン障害物でトレーニングされた個別にトレーニングされたサブネットが含まれます。これは複雑さの追加層です)。
代わりに、新しいアーキテクチャは、XNUMX 段階の単一カスケード アダプティブ インスタンス正規化 (C-AdaIN) 操作を介して、この「コンテキスト」情報を変換プロセス自体に直接使用します。これにより、ID のコンテキスト (つまり、顔のスキンとオクルージョン) の一貫性が提供されます。関連領域。
システムにとって重要な XNUMX 番目のサブネットはスワッピング ブロック (SwapBlk) と呼ばれます。これは、参照画像のコンテキストとソース画像からの埋め込まれた「アイデンティティ」情報から統合された機能を生成し、これを達成するために必要な複数の段階をバイパスします。従来の電流を意味します。
コンテキストとアイデンティティを区別しやすくするために、 幻覚地図 レベルごとに生成され、ソフト セグメンテーション マスクの代わりとなり、ディープフェイク プロセスのこの重要な部分の広範囲の特徴に作用します。
このようにして、交換プロセス全体が単一ステージで後処理なしで完了します。
データとテスト
このシステムを試すために、研究者らは XNUMX つの非常に人気のある多彩なオープン画像データセットで XNUMX つのモデルをトレーニングしました。 セレブA-HQ および NVIDIA の Flickr-Faces-HQ データセット (FF本社)、それぞれに 30,000 枚と 70,000 枚の画像が含まれています。
これらのベース データセットでは、プルーニングやフィルタリングは実行されませんでした。 いずれの場合も、研究者らは単一の Tesla GPU で各データセット全体を 0.0002 日間かけて、Adam 最適化の学習率 XNUMX でトレーニングしました。
次に、顔が似ているかどうかや性別が一致しているかどうかに関係なく、データセットに含まれる何千もの人格の間で一連のランダムな交換をレンダリングし、CihaNet の結果を XNUMX つの主要なディープフェイク フレームワークからの出力と比較しました。 フェイススワップ (これはより人気のあるものを表します) ディープフェイスラボルートコードベースを共有しているため、 オリジナルの 2017 リポジトリ それがディープフェイクを世界にもたらしました)。 前述の FaceShifter。 FSGAN、および シムスワップ.
結果を比較すると、 VGGフェイス、FFHQ、CelebA-HQ、 FaceForensics ++以下の表に示すように、著者らは新しいモデルが以前のすべてのモデルよりも優れていることを発見しました。
結果の評価に使用された XNUMX つの指標は、構造的類似性 (SSIM), 姿勢推定エラー & ID検索精度。これは、正常に取得されたペアの割合に基づいて計算されます。
研究者らは、CihaNet は定性的結果の点で優れたアプローチであり、大規模で労働集約的なマスキング アーキテクチャと方法論の負担を軽減し、より有用なマスキング アーキテクチャと方法論を実現することにより、ディープフェイク技術の現在の最先端技術における顕著な進歩を示していると主張しています。そしてコンテキストからアイデンティティを実用的に分離すること。
新しいテクニックのビデオ例をさらに見るには、以下をご覧ください。 フルレングスのビデオを見つけることができます こちら.
新しい論文の補足資料から、CihaNet はさまざまなアイデンティティに対してフェイススワッピングを実行します。 出典: https://mitchellx.github.io/#video