人工知能

ディープフェイクされた感情の夜明け

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

研究者は、ビデオ内の顔に任意の新しい感情を課すための新しい機械学習技術を開発しました。これは、最近外国語の吹き替えに合わせて唇の動きを一致させる解決策として現れた既存の技術を利用しています。

この研究は、ボストンのノースイースタン大学とMITのメディアラボの共同研究であり、《逆転可能な不機嫌：ビデオからビデオへの顔の感情翻訳》と題されています。研究者は、初期の結果の品質がさらに研究を通じて開発される必要があることを認めているものの、この技術は、ニューラルネットワーク技術を使用してフルビデオの表情を直接変更することを目的とした、初のそのような技術であると主張しています。

ベースコードは、こちらのGitHubに公開されています。モデルのチェックポイントは後でオープンソースリポジトリに追加される予定ですが、著者は約束しています。

左側は、ソースビデオの「悲しい」フレーム。右側は「幸せな」フレーム。中央には、2つの新しいアプローチが表示されており、上段は、表情の表面全体が置き換えられた完全にマスクされた顔、下段は、より伝統的なWav2Lip方法で、顔の下部のみが置き換えられています。ソース：https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

単一のビデオソースデータ

理論的には、このような操作は、DeepFaceLabやFaceSwapなどの従来のディープフェイクリポジトリでの完全なトレーニングを通じて実行できます。ただし、標準的なワークフローでは、ターゲットのアイデンティティとは異なる別のアイデンティティ（たとえば、ターゲットを模倣する俳優）を使用し、その表情を別の個人のものとともに転送し、ディープフェイクの音声クローニング技術も通常、イリュージョンを完成するために必要です。

さらに、ターゲット1の表情をこれらの人気フレームワークで単一のソースビデオ内で変更するには、顔の整列ベクトルをこれらのアーキテクチャが現在サポートしていない方法で変更する必要があります。

Wav2Lip-Emotionは、関連する表情を変換しながら、元のビデオオーディオダイアログの唇の同期を維持します。

代わりに、Wav2Lip-Emotionは、ビデオの1つの部分から感情関連の表情を「コピーして貼り付け」し、他のポイントに置き換えることを目指しています。ソースデータの節約が意図されており、最終的には表情操作の手間を減らすことを目的としています。

オフラインモデルは、後にスピーカーの別のビデオでトレーニングでき、1つのビデオに「表情状態のパレット」が必要なくなる可能性があります。

潜在的な目的

著者は、PTSDや顔パルシ患者の影響を補償するためのライブビデオフィルタなどの、表情変更のためのいくつかの応用を提案しています。論文では、次のことが述べられています：

表情が制限されている人や制限されていない人も、社会的状況に合わせて自分の表情を調整することで利益を得ることができます。誰かは、自分に表示されるビデオ内の表情を変更したいと思うかもしれません。ビデオ会議中、話し手同士が叫び合っているかもしれませんが、不快な表情がないで会話内容だけを収集したいと思うかもしれません。あるいは、映画監督は、俳優の表情を強調したり弱めたりしたいと思うかもしれません。

顔の表情は、言葉と矛盾する場合でも、意図を示す重要な指標であるため、表情を変更する能力は、ある程度、コミュニケーションがどのように受け取られるかを変更する能力も提供します。

以前の研究

表情の変更に対する機械学習の関心は、少なくとも2012年まで遡ります。当時、Adobe、Facebook、ラトガース大学の共同研究により、テンソルベースの3D幾何学的再構成アプローチを使用して表情を変更する方法が提案されました。このアプローチでは、ターゲットビデオの各フレームにCGIメッシュを重ねて変更を加えていました。

2012年のAdobe/Facebook研究では、ビデオフッテージに伝統的なCGI駆動の変更を課して表情を操作しました。表情は増幅または抑制されました。 ソース：https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

結果は約束のものでしたが、この技術は負担が大きく、必要なリソースも多かったです。当時、CGIは、直接の特徴空間とピクセル操作に対するコンピュータビジョンに基づくアプローチを大幅に上回っていました。

新しい論文に最も近いのは、2020年にリリースされたMEADです。これは、データセットと表情生成モデルであり、「トーキングヘッド」ビデオを生成できますが、実際のソースビデオを直接変更することの複雑さには対処していません。

2020年のSenseTime Research、カーネギーメロン大学、中国の3つの大学の共同研究によるMEADでの表情生成。 ソース：https://wywu.github.io/projects/MEAD/MEAD.html

2018年には、US/スペインの学術研究協力により、GANimation: Anatomically-aware Facial Animation from a Single Imageという論文が発表され、静止画像のみで表情を増強または変更するために生成対抗ネットワークを使用しました。

GANimationを使用した静止画像の表情の変更。 ソース：https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

代わりに、新しいプロジェクトは、2020年に新しいスピーチ入力（または歌）を収容するための潜在的な方法を提供したWav2Lipに基づいています。

元のWav2Lipアーキテクチャは、BBCアーカイブの音声付き文章のコーパスでトレーニングされました。Wav2Lipを表情変更のタスクに適応させるために、研究者は上記のMEADデータセットでアーキテクチャを「微調整」しました。

MEADには、15カ国出身の60人の俳優が同じ文章を読みながら様々な顔の表情をする、40時間のビデオが収録されています。俳優は、プロジェクト（および派生プロジェクト）が適用可能で一般化された表情合成を生成することを支援するために、国際的な特徴を提供することを目的としています。

研究時点で、MEADはデータセットの最初の部分のみをリリースしており、47人の個人が「怒り」、「嫌悪」、「恐怖」、「軽蔑」、「幸せ」、「悲しみ」、「驚き」のような表情を表現していました。この新しいアプローチの最初の試みでは、研究者は「幸せ」と「悲しみ」の2つの感情の超写しまたは変更に焦点を当てました。これらは最も容易に認識できる感情だからです。

方法と結果

元のWav2Lipアーキテクチャは顔の下部のみを置き換えますが、Wav2Lip-Emotionは、完全な顔の置き換えマスクと表情の合成も実験しています。したがって、研究者は、評価方法を変更する必要がありました。なぜなら、これらは完全な顔の構成に対して設計されていなかったからです。

生成要素には、アイデンティティエンコーダー、スピーチエンコーダー、顔デコーダーが含まれています。これは、以前の研究に従ったものです。スピーチ要素は、関連するフレームに連結されるスタックされた2D畳み込みとしてエンコードされます。

生成要素に加えて、変更されたアーキテクチャには、唇の同期の品質、感情の目的要素、対抗的にトレーニングされた視覚的な品質の目標を対象とする3つの主要な判別要素が含まれています。

完全な顔の再構築については、元のWav2Lipの仕事には先例がありませんでした。したがって、モデルは最初からトレーニングされました。下半分の顔（半分のマスク）のトレーニングについては、研究者は元のWav2Lipコードに含まれるチェックポイントから進めました。

自動評価に加えて、研究者は、半自動サービスプラットフォームによって提供されたクラウドソーシングされた意見を使用しました。ワーカーは、課された感情を認識することに関して、出力の評価を高く評価しましたが、画像の品質については「中程度」と評価しました。

著者は、生成されたビデオの品質をさらに改善すること以外に、将来の作業では、より広範な感情の範囲を包含し、ラベル付けされた、または自動的に推測されたソースデータやデータセットに作業を適用することができ、最終的には、ユーザーの思い通りに感情を「ダイヤルアップ」または「ダイヤルダウン」できる、本物のシステムにつながる可能性があると示唆しています。