Connect with us

Andersonの視点

小さなが重要なAI編集を実在のビデオで暴露する

mm
Montage of illustrations from the paper 'Detecting Localized Deepfake Manipulations Using Action Unit-Guided Video Representations' (https://arxiv.org/pdf/2503.22121)

2019年、アメリカ合衆国下院議長のナンシー・ペロシは、ターゲットとかなり低テクのディープフェイクスタイルの攻撃の対象となったとき、彼女の実在のビデオが編集されて、彼女が酔っているように見えるようにされた – 非現実的な出来事が数百万回共有された前に真実が明らかになった(そして、彼女の政治的資本に多少の損害が与えられた可能性がある)。

この誤った表現には、AIではなく、単純なオーディオビジュアル編集のみが必要だったが、これは実在のオーディオビジュアル出力の微妙な変更が壊滅的な影響を与えることができるということを示す重要な例である。

当時、ディープフェイクのシーンは、2017年末にデビューしたオートエンコーダーベースの顔置換システムによって支配されていたが、それ以来質が大幅に改善されていなかった。 これらの初期のシステムは、このような小さなが重要な変更を作成することや、現代の研究分野である表情編集を現実的に追求することは難しいだろう。

The recent 'Neural Emotion Director' framework changes the mood of a famous face. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ

The 2022 ‘Neural Emotion Director’ framework changes the mood of a famous face. Source: https://www.youtube.com/watch?v=Li6W8pRDMJQ

しかし、現在はかなり異なっている。 映画とテレビ業界は、真剣に、実在のパフォーマンスのポストプロダクション変更に興味を持っており、AIの事後的な完璧主義は、最近批判されている。

この需要を予測する(あるいは、主張する)、画像とビデオの合成の研究シーンは、顔のキャプチャーの「ローカル編集」を提供する幅広いプロジェクトを前進させた。 このようなプロジェクトには、Diffusion Video AutoencodersStitch it in TimeChatFaceMagicFace、およびDISCOが含まれる。

Expression-editing with the January 2025 project MagicFace. Source: https://arxiv.org/pdf/2501.02260

Expression-editing with the January 2025 project MagicFace. Source: https://arxiv.org/pdf/2501.02260

新しい顔、新しいしわ

しかし、有効な技術は、検出方法よりもはるかに速く発展している。 文献に現れるほとんどのディープフェイク検出方法は、昨日のディープフェイク方法に昨日のデータセットで対応している。 この週まで、どれもAIシステムがビデオに小さなトピックのローカル変更を作成する潜在的な可能性に取り組んでいなかった。

今、インドからの新しい論文がこれを再考し、AIベースの技術で編集された(置換されたのではなく)顔を見つけるシステムを提供している。

Detection of Subtle Local Edits in Deepfakes: A real video is altered to produce fakes with nuanced changes such as raised eyebrows, modified gender traits, and shifts in expression toward disgust (illustrated here with a single frame). Source: https://arxiv.org/pdf/2503.22121

Detection of Subtle Local Edits in Deepfakes: A real video is altered to produce fakes with nuanced changes such as raised eyebrows, modified gender traits, and shifts in expression toward disgust (illustrated here with a single frame). Source: https://arxiv.org/pdf/2503.22121

著者たちのシステムは、ディープフェイクのうち、繊細な局所的な顔操作が含まれるものを特定することを目的としている。 これは、ほとんど無視された偽造のクラスである。 全体的な不一致やアイデンティティの不一致に焦点を当てるのではなく、アプローチは、わずかな表情の変化や特定の顔の特徴への小さな編集などの繊細な変更を対象としている。

方法は、Facial Action Coding System(FACS)内のアクションユニット(AUs)区切り文字を使用する。 FACSは、表情を形成する64個の可能な個々の可変領域を定義する。

Some of the constituent 64 expression parts in FACS. Source: https://www.cs.cmu.edu/~face/facs.htm

Some of the constituent 64 expression parts in FACS. Source: https://www.cs.cmu.edu/~face/facs.htm

著者たちは、さまざまな最近の編集方法に対してアプローチを評価し、古いデータセットと新しい攻撃ベクトルで一貫したパフォーマンスの向上を報告する。

‘AUベースの機能を使用して、Masked Autoencoders(MAE)を介して学習されたビデオの表現を導くことで、我々の方法は、繊細な顔の編集を検出する上で重要な局所的な変更を効果的に捉える。

‘このアプローチにより、我々は、顔の中心のビデオの両方の局所的な編集とより広範な変更を符号化する統一された潜在的な表現を構築できるため、ディープフェイクの検出のための包括的で適応可能な解決策を提供する.’

新しい論文は、アクションユニットを使用したガイド付きビデオの表現を使用したローカルディープフェイク操作の検出と題され、インド工科大学マドラス校の3人の著者によるものである。

方法

VideoMAEによって採用されたアプローチに従って、新しい方法は、ビデオに顔検出を適用し、検出された顔の中心に均等に間隔が開いたフレームをサンプリングすることから始まる。 これらのフレームは、ローカルの空間的および時間的詳細を捉える小さな3Dセクション(つまり、時間的に有効なパッチ)に分割される。

新しい方法のスキーマ。入力ビデオは、均等に間隔が開いた、顔の中心のフレームを抽出するために顔検出で処理され、次にこれらのフレームは、2つの事前学習された事前タスクからの潜在的な表現を結合するエンコーダーを介して「管状」のパッチに分割される。結果のベクトルは、ビデオが実際のものか偽のものかを判断するために、クラシファイアーによって使用される。

新しい方法のスキーマ。入力ビデオは、均等に間隔が開いた、顔の中心のフレームを抽出するために顔検出で処理され、次にこれらのフレームは、2つの事前学習された事前タスクからの潜在的な表現を結合するエンコーダーを介して「管状」のパッチに分割される。結果のベクトルは、ビデオが実際のものか偽のものかを判断するために、クラシファイアーによって使用される。

各3Dパッチには、連続するフレーム(たとえば、2)の固定サイズのウィンドウのピクセル(たとえば、16×16)が含まれる。これにより、モデルは短期的な動きや表情の変化を学習できる。

パッチは埋め込みされ、位置情報が付与された後、偽のものと実際のものを区別できる機能を抽出するように設計されたエンコーダーに渡される。

著者たちは、特に繊細な操作を扱う場合にこれが特に困難であることを認めており、この問題に対処するために、2つの個別の学習された表現を結合するエンコーダーを構築する。 これは、クロスアテンションメカニズムを使用してこれらを結合することで、繊細な局所的な変更を検出するためのより敏感で汎用的な特徴空間を生成することを目的としている。

事前タスク

これらの表現の1つは、マスク付きオートエンコーディングタスクで訓練されたエンコーダーである。 ビデオが3Dパッチに分割され(大部分が隠れている)、エンコーダーは隠された部分を再構築するように学習するため、重要な空間的および時間的パターン(たとえば、顔の動きや時間経過による一貫性)を捉えることが求められる。

事前タスクの訓練には、ビデオ入力をマスキングし、エンコーダー-デコーダーのセットアップを使用して、元のフレームまたはフレームごとのアクションユニットマップを、タスクに応じて再構築することが含まれる。

事前タスクの訓練には、ビデオ入力をマスキングし、エンコーダー-デコーダーのセットアップを使用して、元のフレームまたはフレームごとのアクションユニットマップを、タスクに応じて再構築することが含まれる。

しかし、論文では、これだけでは繊細な編集を検出するのに十分な感度が得られないと述べられており、著者たちは2番目のエンコーダーを導入する。これは、顔のアクションユニット(AUs)を検出するように訓練されている。 このタスクでは、モデルは各フレームの密なAUマップを再構築するように学習し、繊細な筋肉の活動に焦点を当て、多くの繊細なディープフェイク編集が発生する場所である。

Further examples of Facial Action Units (FAUs, or AUs). Source: https://www.eiagroup.com/the-facial-action-coding-system/

Further examples of Facial Action Units (FAUs, or AUs). Source: https://www.eiagroup.com/the-facial-action-coding-system/

両方のエンコーダーが事前訓練された後、それらの出力はクロスアテンションを使用して結合される。 2つの特徴セットを単純に結合するのではなく、モデルはAUベースの特徴を、空間的および時間的特徴を学習するためにマスキングされたオートエンコーディングから得られた特徴に注意を向ける「クエリ」として使用する。

結果として得られるのは、局所的な編集と広範な変更の両方を捉える統一された潜在的な表現であり、これは最終的な分類タスクに使用される。

データとテスト

実装

著者たちは、FaceXZoo PyTorchベースの顔検出フレームワークを使用して入力ビデオを事前に処理し、各クリップから16の顔の中心のフレームを取得した。 上記の事前タスクは、CelebV-HQデータセットで訓練された。これは、35,000の高品質の顔のビデオで構成されている。

From the source paper, examples from the CelebV-HQ dataset used in the new project. Source: https://arxiv.org/pdf/2207.12393

From the source paper, examples from the CelebV-HQ dataset used in the new project. Source: https://arxiv.org/pdf/2207.12393

データの例の半分はマスキングされ、システムがソースデータに過剰適合するのではなく、重要なパターンを学習することが求められた。

マスク付きフレームの再構築タスクの場合、モデルはL1損失を使用して、元のフレームと再構築されたコンテンツの差を最小化するように訓練された。

2番目のタスクの場合、モデルは各フレームの密なAUマップを生成するように訓練され、部分的にマスキングされた入力からもまたL1損失で監督された。

事前訓練後、2つのエンコーダーは結合され、FaceForensics++データセットを使用してディープフェイクの検出のために微調整された。 このデータセットには、実際のビデオと操作されたビデオの両方が含まれている。

The FaceForensics++ dataset has been the central touchstone of deepfake detection since 2017, though it is now considerably out of date, in regards to the latest facial synthesis techniques. Source: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

The FaceForensics++ dataset has been the cornerstone of deepfake detection since 2017, though it is now considerably out of date, in regards to the latest facial synthesis techniques. Source: https://www.youtube.com/watch?v=x2g48Q2I2ZQ

クラスの不均衡を考慮して、著者たちはFocal Lossクロスエントロピー損失のバリアント)を使用した。 これは、訓練中により困難な例を強調する。

すべての訓練は、24GbのVRAMを備えた単一のRTX 4090 GPUで実行され、バッチサイズは8、バッチサイズは8、600エポック(データの完全なレビュー)で実行され、VideoMAEの事前訓練されたチェックポイントから各事前タスクの重みを初期化した。

テスト

定量的および定性的評価は、さまざまなディープフェイク検出方法に対して実行された。 FTCNRealForensicsLip ForensicsEfficientNet+ViTFace X-RayAlt-FreezingCADMMLAANet、およびBlendFaceのSBI。 これらのフレームワークすべてについて、ソースコードが利用可能だった。

テストは、部分的に編集されたディープフェイクに重点を置いていた。 これらのアーキテクチャには、Diffusion Video Autoencoders(DVA)、Stitch It In Time(STIT)、Disentangled Face Editing(DFE)、TokenflowVideoP2PText2Live、およびFateZeroが含まれる。

著者たちは以下のように述べている。

‘顔の編集のために、我々は顔の特徴と属性の編集の両方を組み込んだ。顔の特徴の編集の場合、我々は目、眉間の距離、鼻の比率、鼻と口の距離、唇の比率、ほおの比率を変更した。顔の属性の編集の場合、我々は笑顔、怒り、嫌悪、悲しみなどの表情を変化させた。 ‘

‘この多様性は、広範なローカル編集に対する我々のモデルの頑健性を検証するために不可欠である。上記の編集方法ごとに、我々は50のビデオを生成し、ディープフェイク検出に対する我々の方法の強い一般化を検証した。 ‘

古いディープフェイクのデータセットもテストに含まれていた。 これらには、Celeb-DFv2(CDF2)、DeepFake Detection(DFD)、DeepFake Detection Challenge(DFDC)、およびWildDeepfake(DFW)が含まれる。

評価指標は、Area Under Curve(AUC)、Average Precision、および平均F1スコアだった。

From the paper: comparison on recent localized deepfakes shows that the proposed method outperformed all others, with a 15 to 20 percent gain in both AUC and average precision over the next-best approach.

From the paper: comparison on recent localized deepfakes shows that the proposed method outperformed all others, with a 15 to 20 percent gain in both AUC and average precision over the next-best approach.

著者たちは、視覚的な検出の比較も提供している。

A real video was altered using three different localized manipulations to produce fakes that remained visually similar to the original. Shown here are representative frames along with the average fake detection scores for each method. While existing detectors struggled with these subtle edits, the proposed model consistently assigned high fake probabilities, indicating greater sensitivity to localized changes.

A real video was altered using three different localized manipulations to produce fakes that remained visually similar to the original. Shown here are representative frames along with the average fake detection scores for each method. While existing detectors struggled with these subtle edits, the proposed model consistently assigned high fake probabilities, indicating greater sensitivity to localized changes.

研究者たちは以下のように述べている。

‘現存するSOTA検出方法、[LAANet]、[SBI]、[AltFreezing]、および[CADMM]は、最新のディープフェイク生成方法に対して大幅なパフォーマンスの低下を経験する。現在のSOTA方法は、AUCが48-71%と低い値を示し、その汎用性が限られていることを示している。 ‘

‘一方、我々の方法は、87-93%のAUCを達成し、強い汎用性を示している。同様の傾向は、平均精度の場合にも観察される。下図のように、我々の方法は、標準的なデータセットでも高いパフォーマンスを達成しており、90%のAUCを超え、最近のディープフェイク検出モデルと競合している。 ‘

Performance on traditional deepfake datasets shows that the proposed method remained competitive with leading approaches, indicating strong generalization across a range of manipulation types.

Performance on traditional deepfake datasets shows that the proposed method remained competitive with leading approaches, indicating strong generalization across a range of manipulation types.

著者たちはさらに、視覚的な検出の比較を提供している。

In these examples, a real video was modified using three localized edits to produce fakes that were visually similar to the original. The average confidence scores across these manipulations show, the authors state, that the proposed method detected the forgeries more reliably than other leading approaches. Please refer to the final page of the source PDF for the complete results.

In these examples, a real video was modified using three localized edits to produce fakes that were visually similar to the original. The average confidence scores across these manipulations show, the authors state, that the proposed method detected the forgeries more reliably than other leading approaches. Please refer to the final page of the source PDF for the complete results.

著者たちは、以下のように述べている。

‘我々の方法は、局所的な編集の検出に対して、90%を超える信頼度スコアを達成し、既存の検出方法は50%以下であることを示している。 ‘

モデルの信頼性を現実世界の条件で評価するために、著者たちは、調整された彩度やコントラスト、ガウシアンノイズ、ピクセル化、ブロックベースの圧縮アーティファクトなどの一般的な歪みを適用してテストを実行した。

結果は、検出精度がこれらの歪みのほとんどに対して安定したままであることを示した。 最も著しい低下は、ガウシアンノイズの追加によって発生した。 他の変更はほとんど影響がなかった。

An illustration of how detection accuracy changes under different video distortions. The new method remained resilient in most cases, with only a small decline in AUC. The most significant drop occurred when Gaussian noise was introduced.

An illustration of how detection accuracy changes under different video distortions. The new method remained resilient in most cases, with only a small decline in AUC. The most significant drop occurred when Gaussian noise was introduced.

これらの結果は、モデルのローカル操作の検出能力が、典型的なビデオ品質の低下によって簡単に妨げられないことを示唆している。

結論

AI操作は、主にディープフェイクの従来の概念として、一般の人々の意識の中に存在する。 これは、ある人物のアイデンティティが別の人物の身体に重ねられている、あるいはアイデンティティ所有者とは反対の行動をしている、というものである。 この概念は、ディープフェイクの新しい形態、ビデオディープフェイクや、潜在的な拡散モデル(LDMs)を認識するために、ゆっくり更新されている。

したがって、提案された方法で扱われるようなローカル編集が、ペロシのような決定的な出来事が発生するまで、一般の人々の注目を引く可能性は低い。

しかし、俳優のニコラス・ケイジが、一貫して懸念を表明しているように、俳優のパフォーマンスを「改訂」するポストプロダクションプロセスについて、我々ももっと注意を払うべきである。

これは、我々が自然に顔の表情の微妙な変化に非常に敏感であるという事実、およびコンテキストが顔の小さな動きの影響を大幅に変えることができるという事実(たとえば、葬儀でにやにやすることの妨げとなること)からである。

 

2025年4月3日水曜日に初めて公開されました

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。