人工知能
新しいシンプルなディープフェイク方法が従来のアプローチを上回る

中国のAI研究グループと米国の研究者による共同研究により、4年前に現れたディープフェイク技術で初めての真正な革新が開発された。
この新しい方法は、従来のフレームワークを上回る顔スワップを実行できる。大量のデータセットを収集して整理し、1つのアイデンティティを1週間以上訓練する必要がない。新しい論文で提示された例では、2つの人気のある有名人データセットの全体をNVIDIA Tesla P40 GPUで約3日間訓練した。

この記事の末尾にフルビデオが利用可能です。 補足資料のビデオのサンプルから、スカーレット・ヨハンソンの顔がソースビデオに転送される。CihaNetは、ソースとターゲットのアイデンティティの間でより深い関係を形成して実行することで、エッジマスキングの問題を解決し、従来のディープフェイクアプローチで発生する「明らかな境界」や他のスーパーアイムポーズグリッチを排除する。ソース: ソース: https://mitchellx.github.io/#video
この新しいアプローチは、移植されたアイデンティティをターゲットビデオに粗く「貼り付け」する必要を排除する。頻繁に、偽の顔の終わりと実際の下にある顔の開始地点で現れる特徴的なアーティファクトが発生する。代わりに、「幻覚マップ」が使用され、視覚的な要素をより深く混合する。システムは、現在の方法よりもアイデンティティとコンテキストをより効果的に分離し、ターゲットアイデンティティをより深いレベルでブレンドできる。

論文から。CihaNetの変換は、幻覚マップ(下行)を介して実行される。システムは、コンテキスト情報(例:顔の方向、髪、眼鏡、その他の遮蔽など)を、アイデンティティを挿入する画像から完全に取得し、顔のアイデンティティ情報を挿入される人物から完全に取得する。この、顔とコンテキストを分離する能力は、システムの成功に重要である。ソース: ソース: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
実質的に、新しい幻覚マップは、スワップにより完全なコンテキストを提供する。従来のハードマスクとは異なり、広範なキュレーション(DeepFaceLabの場合、別のトレーニング)が必要であり、2つのアイデンティティの実際の統合については限られた柔軟性しか提供しない。

補足資料から、VGGFaceとForensics++を使用して、FFHQとCeleb-A HQデータセットで、現在利用可能な4つの最も効果的な方法を使用して、ランダムに選択された(実際の)画像をスワップする。最初の2列はスワップされる画像を示し、次の4列はスワップの結果を示し、最後の列はCihaNetの結果を示す。FaceSwapリポジトリは、DeepFaceLabよりも人気があるが、両プロジェクトは2017年のGitHubのオリジナルのDeepfakesコードのフォークである。両プロジェクトはそれぞれモデル、テクニック、UI、補足ツールを追加しているが、ディープフェイクを可能にする根本的なコードは変わらず、両プロジェクトで共通である。ソース: ソース: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
論文「ワンステージ・コンテキスト・アンド・アイデンティティ・ホールシネーション・ネットワーク」は、JD AI Researchとマサチューセッツ大学アマースト校の研究者によって執筆され、中国の国家重点研究開発計画(Grant No. 2020AAA0103800)によって支援された。2021年10月20日から24日まで、中国の成都で開催された第29回ACMインターナショナル・カンファレンス・オン・マルチメディアで発表された。
「顔の向き」の同等性は不要
現在最も人気のあるディープフェイク・ソフトウェアであるDeepFaceLabや、競合するフォークであるFaceSwapは、どちらも、顔の向きを特定するために、面倒くさく手作業でキュレーションされたワークフローを実行する必要がある。また、障害物(手作業で)を考慮する必要があり、照明などの多くの面倒くさくて面倒な障害物に対処する必要があるため、実際には「ポイント・アンド・クリック」の体験ではありません。
一方、CihaNetは、2つの画像がカメラの前に直接向いている必要はなく、単一の画像から有用なアイデンティティ情報を抽出して利用できる。

ディープフェイク・ソフトウェアのコンテンダーが、アイデンティティと向きの両方で異なる2つの画像の顔スワップに挑戦する。DeepFaceLabやFaceSwap(上図)などのソフトウェアは、2つの画像の向きの差を処理できない(3列目参照)。一方、CihaNetは、顔の「ポーズ」がアイデンティティ情報の一部ではないため、アイデンティティを正しく抽出できる。
アーキテクチャ
CihaNetプロジェクトは、2019年のマイクロソフト・リサーチと北京大学の共同研究「FaceShifter」に着想を得たが、古い方法のコア・アーキテクチャにいくつかの重要な変更を加えている。
FaceShifterは、アイデンティティ情報を処理するために2つのアダプティブ・インスタンス・ノーマライゼーション(AdaIN)ネットワークを使用し、追加のHEAR-Net(別途トレーニングされたサブネットワークを含む)を使用して、ターゲット画像にマスクを介してデータを転送する。ただし、現在のディープフェイク・ソフトウェアと同様の制限があり、別の層の複雑さが追加される。
一方、新しいアーキテクチャは、変換プロセス自体のために、この「コンテキスト情報」を直接使用する。2つのステップのカスケーディング・アダプティブ・インスタンス・ノーマライゼーション(C-AdaIN)操作を使用し、IDに関連する領域のコンテキストの整合性を提供する。
システムの重要な2つ目のサブネットワークは、スワッピング・ブロック(SwapBlk)と呼ばれ、リファレンス画像のコンテキストとソース画像の埋め込まれた「アイデンティティ」情報から統合された機能を生成し、従来の方法では複数のステージを必要とする。
アイデンティティとコンテキストを区別するために、各レベルで「幻覚マップ」が生成され、ソフトセグメンテーション・マスクの代わりとなり、ディープフェイク・プロセスの重要な部分でより広範な機能を作用させる。

幻覚マップの値が増加すると、アイデンティティ間の明確なパスが現れる。
このように、スワッピング・プロセスは単一のステージで実行され、ポストプロセッシングは不要である。
データとテスト
システムをテストするために、研究者は、2つの人気のある画像データセット「CelebA-HQ」とNVIDIAのFlickr-Faces-HQ Dataset(FFHQ)を使用した。各データセットには、30,000と70,000の画像が含まれている。
これらのベースデータセットに対して、プルーニングやフィルタリングは実行されなかった。各データセットをNVIDIA Tesla GPUで約3日間、Adam最適化で学習率0.0002で訓練した。
次に、データセットに含まれる数千の個性の中からランダムにスワップを実行し、結果を4つの主要なディープフェイク・フレームワーク「FaceSwap」、「FSGAN」、「SimSwap」と比較した。FaceSwapは、DeepFaceLabと共通のルートコードベース(オリジナルの2017年リポジトリ)を共有しているため、DeepFaceLabの代わりとして使用された。
結果を「VGG-Face」、「FFHQ」、「CelebA-HQ」、「FaceForensics++」を使用して比較したところ、著者は、新しいモデルがすべての前のモデルを上回っていることがわかった。

評価に使用された3つのメトリックは、構造類似性(SSIM)、ポーズ推定エラー、およびID検索精度である。後者は、成功したペアの割合に基づいて計算される。
研究者は、CihaNetが、質的結果と現在のディープフェイク技術の状態における著しい進歩であると主張している。大量のデータセットと複雑なアーキテクチャの必要性を排除し、アイデンティティとコンテキストのより有用で実用的な分離を実現している。
以下のビデオ例を参照してください。フルビデオはこちらで利用可能です。
新しい論文の補足資料から、CihaNetがさまざまなアイデンティティで顔スワップを実行する。 ソース: https://mitchellx.github.io/#video












