人工知能
ディープフェイクは現在、感情の繊細さを伝えることができない

昨日の『スター・ウォーズ』スピンオフ『ボバ・フェットの書』のエピソード6のデビューは、ファンの意見を二分しているようです。一般的な承認を受けているものの、ソーシャルネットワーク上では、改善された若いマーク・ハミルの再現(2020年の『マンダロリアン』のシーズン2のフィナーレにおける前の登場とは比較して)が、インダストリアル・ライト&マジックがアマチュアのディープフェイク実践者であるShamookを雇用したことによる直接的な結果であると、幅広い仮定があります。Shamookはオープンソースソフトウェアで彼らの仕事を劇的に改善しました。さらに、キャラクターのレンダリングはディープフェイク技術とCGIの組み合わせであると考えられています。
これについては現在、限定的な確認しかありませんが、ShamookはILMの契約によるNDAが発生して以来、ほとんど話していません。にもかかわらず、この仕事は2020年のCGIよりもずっと改善されており、ディープフェイクモデルから派生した「輝き」のようなものを示しています。さらに、ディープフェイクのための現在の最良の視覚的な標準と一致しています。
ファンの意見のもう一つの筋は、新しい「若いルーク」の試みには、前のものとは異なる一連の欠点があるということです。たとえば、最も印象的なのは、新しいスカイウォーカー再現を特集した非常に長いシーケンスにおける表情の欠如と、ディープフェイクよりもCGIに典型的な繊細で適切な感情です。The Vergeは、 『ボバ・フェット』のシミュレーションを『マーク・ハミルの1983年の凍結された、不気味で空虚な顔』と表現しています。
新しいILM再現の背後にある技術に関係なく、ディープフェイク変換には、感情の繊細さに関する根本的な問題があります。これは、構造の変更やソーストレーニング資料の改善によって解決するのが難しいものです。さらに、ウイルス的なディープフェイカーがターゲットビデオを選択するときに慎重に選択するものです。
顔の整列の限界
最も一般的に使用される2つのディープフェイクFOSSリポジトリは、DeepFaceLab(DFL)とFaceSwapです。両方とも、2017年の匿名で物議を醸したソースコードから派生しています。DFLはVFX業界で巨大なリードを持っていますが、限られた楽器性にもかかわらずです。
これらのパッケージの各々は、最初に、ソース資料(つまり、ビデオのフレームと/または静止画像)から識別できる顔から顔のランドマークを抽出するタスクが与えられます。

顔の整列ネットワーク(FAN)が公式リポジトリで動作しています。 ソース: https://github.com/1adrianb/face-alignment
DFLとFaceSwapの両方が、顔の整列ネットワーク(FAN)ライブラリを使用します。FANは、抽出された顔の2Dと3D(上の画像を参照)のランドマークを作成できます。3Dランドマークは、極端なプロファイルや比較的急な角度まで、顔の認識された向きを広範に考慮することができます。
しかし、これらはピクセルを誘導して評価するための非常に基本的なガイドラインであることは明らかです:

FaceSwapフォーラムからの、顔の線条の利用可能なランドマークの粗い指標。 ソース: https://forum.faceswap.dev/viewtopic.php?f=25&t=27
顔の最も基本的な線条が許可されています。目は開いて閉じることができ、顎も基本的な構成が可能です。口(たとえば、笑顔、しかめ面など)は追跡して適応できます。顔は、カメラの視点から約200度まで、どの方向にも回転できます。
しかし、これらの境界内でピクセルがどのように動作するかについては、かなり粗いフェンスです。これらはディープフェイクプロセス全体で唯一の真正な数学的で正確な顔のガイドラインを表しています。トレーニングプロセス自体は、境界内または境界近くのピクセルがどのように配置されるかを比較します。

DeepFaceLabでのトレーニング。 ソース: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2
顔の部分のトポロジー(たとえば、頬の凸凹、老化の詳細、くぼみなど)についての規定がないため、これらの「繊細な」サブ機能をソース(「上書きしたい顔」)とターゲット(「貼り付けたい顔」)のアイデンティティの間で一致させることは、試みることさえできません。
限られたデータでやりくり
ディープフェイクの目的で2つのアイデンティティの間で一致したデータを取得することは簡単ではありません。必要な一致が珍しい角度であるほど、アイデンティティAとBの両方で同じ表情を特徴とするその(珍しい)角度の一致を見つける必要があります。

近いですが、正確に一致しません。
上の例では、2つのアイデンティティは配置においてかなり似ていますが、これはこのデータセットが正確に一致することができる最も近いものです。
明らかな違いがあります。角度とレンズは正確に一致せず、照明も一致しません。サブジェクトAは目を完全に閉じていませんが、サブジェクトBは閉じています。画像の品質と圧縮はサブジェクトAの方が悪いです。さらに、サブジェクトBはサブジェクトAよりも「幸せ」に見えます。
しかし、我々にはこれしかないので、我々はそれでもトレーニングする必要があります。
このA><Bの一致には多くの珍しい要素があるため、このペアに似たペアはセット内にほとんど、あるいはまったくありません。したがって、トレーニングはこの角度/表情をうまく表現しない可能性があります。
アンダーフィット: この一致が真正の少数派(つまり、親データセットがかなり大きく、この2つの写真の特徴を頻繁に特集していない)である場合、他の「人気のある」(つまり、簡単/中立的な)ペアに比べてトレーニング時間があまり得られません。したがって、この角度/表情はトレーニングされたモデルでうまく表現されません。
オーバーフィット: これらの珍しいA><Bの一致に対する希少なデータの一致に絶望したディープフェイカーは、データセット内でこのペアを複数回複製することがあります。そうすると、トレーニングされたモデルで作成されたディープフェイクビデオは、2つの写真間で明らかな一致不一致(たとえば、目を閉じている程度)を繰り返す可能性があります。
上の画像では、DeepFaceLabでウラジーミル・プーチンをケビン・スペイシーに置き換えるようにトレーニングしています。ここでは、トレーニングは160,000イテレーションで比較的進んでいます。

ソース: https://i.imgur.com/OdXHLhU.jpg
ある意味で、プーチンはスペイシーよりも「スペイシーア」に見えます。オンラインの感情認識プログラムが一致不一致の表情をどう見ているかを見てみましょう:
この特定のオラクルによると、スペイシーの表情を分析するための詳細な顔の地図を使用していますが、スペイシーはプーチンのディープフェイクよりも「怒り」、「嫌悪」、「軽蔑」などの感情が少ないとされています。
不均一な表情は、エントウィンドパッケージの一部として来ます。ディープフェイクの一般的なアプリケーションは、表情や感情を認識する、あるいは暗黙的に認識する能力を持っていないからです。ただし、ピクセル>ピクセルのマッピングだけが提供されます。
私たちにとって、違いは大きいです。私たちは、社会的統合、交際、結婚、そして継続的な脅威評価フレームワークとしての基本的な生存テクニックとして、幼少期から顔の表情を読むことを学び、成人期にもこのスキルに依存しています。ディープフェイク技術は最終的に私たちが敏感になっているマイクロ表現に対処する必要があります。
反対の方向
ディープフェイク革命は、「クラシック」の映画スターを現代の映画やテレビに挿入するという約束をもたらしましたが、AIは「クラシック」の作品をより互換性のある定義と品質で撮影することはできません。これはこのユースケースに不可欠です。
『ボバ・フェット』のハミル再現がディープフェイクモデルによって作成されたと仮定すると(私たちの目的のためには、正しいかどうかは重要ではありません)、モデル用のデータセットは、ショーの時間軸に近い時期のフッテージを利用する必要があります(たとえば、1981〜83年頃の『ジェダイの帰還』の制作時におけるハミルが30代前半)。
映画は東マンカラーネガティブ250T 5293/7293ストックで撮影されました。これは、250ASAのエミュルジョンで、当時は中程度から細かい粒子と見なされていましたが、1980年代末までにすでに明確性、色域、忠実度で上回られていました。これはその時代のストックで、ショーのオペラ的なスケールは、主演俳優ですら、クローズアップがほとんどありませんでした。したがって、グレインの問題は、顔の部分のみを占めるソース顔のため、さらに重要になります。

『ジェダイの帰還』(1983年)のハミルが出演する様々なシーン。
さらに、ハミルを特集するVFXが豊富なフッテージは、光学プリンターを介して実行され、フィルムグレインを増加させました。ただし、ルーカスフィルムアーカイブへのアクセス(マスターネガティブの管理が良好で、未使用の生のフッテージを数時間提供できる可能性があります)は、この問題を克服することができます。
時には、ディープフェイクのデータセットを増やすために、俳優の作品の範囲をカバーすることができます。ハミルの場合、ディープフェイカーは1977年の車事故による彼の容貌の変化と、すぐに『ジェダイの帰還』の後に声優としての第二のキャリアを始めたことで、ソース資料が相対的に少なくなりました。
感情の限られた範囲?
あなたのディープフェイク俳優がシーンを食い荒らす必要がある場合、あなたは、顔の表情の非常に広い範囲を含むソースフッテージが必要になります。利用可能な年齢に適したフッテージがあらゆる表情を特集していない可能性があります。
たとえば、オリジナルのフランチャイズ神話の中央で重要な発展である、キャラクターの感情の完全な掌握のときに『ジェダイの帰還』の物語のアークが到来したとき、ハミルのキャラクターはすでに彼の感情を完全にコントロールしていました。したがって、もしも『ジェダイの帰還』のデータからハミルのディープフェイクモデルを作成した場合、あなたは、フランチャイズの以前のエントリーよりも、キャラクターの役割が要求したときよりも感情の範囲が限られていることになるでしょう。
『ジェダイの帰還』には、スカイウォーカーがストレスを受けているシーンがあり、より広い範囲の表情を提供する可能性がありますが、顔の素材は、典型的なアクションシーンのモーションブラーと高速編集のため、短暂でバランスの取れていないデータになります。
一般化:感情の統合
もしも『ボバ・フェット』のスカイウォーカー再現が実際にディープフェイクであるならば、ある方面からの批判を受けている表現の範囲の欠如は、限られたソース資料に完全には起因しない可能性があります。ディープフェイクのエンコーダー・デコーダーのトレーニングプロセスは、数千の画像から中心的な特徴を抽出して、少なくとも、データセットに欠けている角度をディープフェイクすることを試みる、一般化されたモデルを探しています。
もしもこれらの柔軟性がなければ、ディープフェイクアーキテクチャは、時間的適応やコンテキストを考慮することなく、基本的な形態をフレームごとにコピーして貼り付けていただけになります。
しかし、柔軟性の代償として、表情の忠実性がプロセスの犠牲者となる可能性があります。さらに、繊細であると見なされる表情は、正しいものではない可能性があります。私たちは皆、100人のオーケストラのように顔を演奏し、十分に装備していますが、ディープフェイクソフトウェアは、少なくとも弦楽器を欠いています。
表情の感情の不一致
顔の動きとその影響は、すべての顔に対して統一された言語ではありません。ロジャー・ムーアの顔に不気味に見えるような眉を上げることは、セス・ローガンの顔ではそうではないかもしれません。マリリン・モンローの誘惑的な魅力は、ディープフェイクでオーブリー・プラザのキャラクター(『パークス・アンド・レクリエーション』の7シーズン)のように「怒り」または「不満」などの役割で最もデータが利用可能な人物にディープフェイクすると、より否定的な感情に翻訳される可能性があります。
したがって、A/B顔セット間のピクセル>ピクセルの等価性は、この点では役に立たないでしょう。ただし、これが提供されているすべてです。
実際に必要なのは、表情や感情を認識し、推論する能力を持つだけでなく、高い概念(たとえば、怒り、誘惑、退屈、疲れなど)を具現化し、各顔セットアイデンティティのそれらの感情や表情を分類する能力を持つディープフェイクフレームワークです。代わりに、口や瞼の配置を検査して複製します。











