Artificial Intelligence

ディープフェイクが現時点で微妙な感情を伝えられない理由

更新中 on 2022 年 12 月 9 日

ボバ・フェットの本 - ディズニー

昨日の第6話初登場 スターウォーズ スピンオフ ボバ・フェットの本 ファンの意見が分かれているようだ。一般的な評価を受けて、ソーシャルネットワーク上では、（キャラクターのキャラクターと比較して）年齢を重ねたマーク・ハミルをはるかに改良して再現したという考えが広まっている。以前の出演シーズン2フィナーレで マンダロリアン 2020年）は、Industrial Light and Magicがアマチュアのディープフェイク実践者Shamook（彼は彼らの仕事は根本的に改善されましたオープンソースソフトウェアを使用); そして、キャラクターのレンダリングはディープフェイク技術を組み合わせたものであり、おそらく CGI で整理されたものに違いないと考えられます。

ILMの契約上のNDAが解除されて以来、シャムック氏は世界に対してほとんど何も語っていないが、これに関する確証は現時点では限られている。それにもかかわらず、この作品は 2020 年の CGI に比べて驚くべき進歩を遂げています。アーカイブ作品から派生したディープフェイクモデルに関連する「光沢」の一部を示します。そして一般に、ディープフェイクの現在の最良のビジュアル標準と一致します。

ファンの意見のもう XNUMX つは、「ヤングルーク」の新たな試みには、 さまざまな欠陥セット 前作よりも。おそらく最も顕著なのは、新しいスカイウォーカーの再現をフィーチャーした非常に長いシーケンスにおける表現力の欠如と微妙で適切な感情が、CGI よりもディープフェイクの典型であるということです。ザ・ヴァージは、記載された　 ボバ・フェット という観点からのシミュレーション 「マーク・ハミルの1983年の凍った顔の不気味で虚ろな表情」.

新しい ILM 再現の背後にあるテクノロジーに関係なく、ディープフェイク変換には感情の機微に関する根本的な問題があり、アーキテクチャの変更やソーストレーニング資料の改善によって対処するのは困難であり、一般的にこの問題は、ウイルス感染を引き起こす慎重な選択によって回避されます。ディープフェイカーはターゲットビデオを選択するときに作成します。

顔の位置調整の制限

最も一般的に使用される XNUMX つのディープフェイク FOSS リポジトリは次のとおりです。ディープフェイスラボ (DFL) とフェイススワップ、両方とも匿名と物議を醸す 2017 ソースコード。DFL には膨大なリード手段が限られているにもかかわらず、VFX 業界で活躍しています。

これらの各パッケージは、最初に、ソース素材 (つまり、ビデオおよび/または静止画像のフレーム) から識別できた顔から顔のランドマークを抽出するタスクを負います。

Adrian Bulat の Facial Alignment Network (FAN) が動作中 (公式リポジトリより)。出典: https://github.com/1adrianb/face-alignment

動作中の Facial Alignment Network (FAN)、公式リポジトリから。 出典: https://github.com/1adrianb/face-alignment

DFL と FaceSwap は両方とも使用します。顔面調整ネットワーク (FAN) ライブラリ。 FAN は、抽出された顔の 2D および 3D (上の画像を参照) ランドマークを作成できます。 3D ランドマークは、極端なプロファイルや比較的鋭角な角度に至るまで、認識された顔の方向を広範囲に考慮できます。

ただし、これらがピクセルの集合と評価に関する非常に基本的なガイドラインであることは明らかです。

FaceSwap フォーラムから、顔のリニアメントに使用できるランドマークの大まかな指標。 出典: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

顔の最も基本的な線形が許可されています。目は広げたり閉じたり、顎と同様に、口の基本的な構成 (笑顔、しかめっ面など) をトレースして適応させることができます。顔はカメラの視点から約 200 度まで任意の方向に回転できます。

それ以上に、これらは境界内でピクセルがどのように動作するかを示す非常に大雑把なフェンスであり、ディープフェイクプロセス全体における唯一の真に数学的で正確な顔のガイドラインを表します。トレーニングプロセス自体は、これらの境界内または境界付近にピクセルが配置される方法を単純に比較します。

DeepFaceLab でのトレーニング。出典: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

DeepFaceLab でのトレーニング。ソース： https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

顔のサブパーツ (頬の凸凹、老化の詳細、えくぼなど) のトポロジーが提供されていないため、試みソース間でそのような「微妙な」サブ特徴を照合するには (「上書きしたい顔」) とターゲット (「貼り付けたい顔」）身元。

限られたデータでやりくりする

ディープフェイクのトレーニングを目的として XNUMX つの ID 間で一致するデータを取得することは、簡単ではありません。一致させる必要がある角度が異常であればあるほど、アイデンティティ A と B の間のその (まれな) 角度の一致が実際に特徴的であるかどうかについて妥協しなければならない可能性が高くなります。 同じ表現.

近いですが、完全に一致するわけではありません。

上の例では、XNUMX つの ID の性質はかなり似ていますが、これはこのデータセットが完全に一致するのに限りなく近いものです。

明確な違いは残ります。角度とレンズが正確に一致せず、照明も一致しません。被験者 A は被験者 B とは異なり、目を完全に閉じていません。画質と圧縮率は被写体 A の方が悪くなります。そしてどういうわけか主題Bが多いように思えます もっと幸せ 被験者Aよりも。

しかし、ご存知のとおり、私たちが持っているのはこれだけなので、とにかくそれをトレーニングする必要があります。

なぜなら、これはA> アンダーフィット それか オーバーフィット ボーマンは

アンダーフィット: この一致が真の少数派である場合 (つまり、親データセットが非常に大きく、これら XNUMX 枚の写真の特徴をあまり特徴としていない場合)、より「人気のある」もの (つまり、簡単/ニュートラル）のペアリング。したがって、この角度/表現は、トレーニングされたモデルで作成されたディープフェイクではうまく表現されません。

オーバーフィット: このような稀な A のデータ一致が乏しく絶望的に ペアリングを何度も複製する これにより、最終モデルの特徴となる可能性が高まります。これは過剰適合につながり、そのモデルを使用して作成されたディープフェイク動画は、 不一致を衒学的に繰り返す 目を閉じている程度の違いなど、XNUMX つの写真の間で明らかな違いがあります。

下の画像では、ウラジーミル・プーチンがDeepFaceLabでケビン・スペイシーへのスワップを実行する訓練を受けているのが見えます。ここでのトレーニングは比較的高度です 160,000回の反復.

出典: https://i.imgur.com/OdXHLhU.jpg

カジュアルな観察者は、プーチン大統領はちょっと似ていると主張するかもしれない。 よりスペーシーな これらのテストスワップではスペイシーよりも優れていた。オンライン感情認識プログラムが表現の不一致をどのように判断するかを見てみましょう。

出典: https://www.noldus.com/facereader/measure-your-emotions

DFL や Faceswap よりもはるかに詳細な顔の地形を分析するこの特定のオラクルによると、スペイシーは 怒って, 嫌な, 軽蔑この組み合わせで得られたプーチン大統領のディープフェイクよりも。

一般的なディープフェイクアプリケーションには、生のピクセル>ピクセルマッピングとして暗黙的に行われる場合を除いて、表現や感情を登録または照合する機能がないため、不均等な表現は絡み合ったパッケージの一部として提供されます。

私たちにとって、その違いは非常に大きいです。私たちは次のことを学びます表情を読み取る幼少期からの基本的な生存技術として、そして社会への統合と進歩、交配、そして継続的な脅威評価の枠組みとして、成人後もこのスキルに依存し続けます。私たちは微表情に非常に敏感なので、ディープフェイク技術は最終的にはこれを考慮する必要があるでしょう。

穀物に対して

ディープフェイク革命は、現代の映画やテレビに「古典的な」映画スターを挿入するという約束をもたらしましたが、AI が過去に戻って、より互換性のある解像度と品質で古典的な作品を撮影することはできません。これは、このユースケースにとって極めて重要です。

次のことを前提としています (そして私たちの目的にとって、それが間違っているかどうかは問題ではありません)。 ボバ・フェット ハミルの再構築は主に、訓練されたディープフェイクモデルの仕事であり、モデルのデータセットには、番組のタイムラインに近い時期の映像を活用する必要があったでしょう (つまり、ハミルは、番組の制作当時、XNUMX 代前半でした) ジェダイの帰還、1981-83）。

映画はショット Eastman Color Negative 250T 5293/7293 ストックの 250ASA 乳剤は、当時中粒子から微粒子と考えられていましたが、1980 年代の終わりまでにさえ、鮮明さ、色範囲、忠実度の点で上回っていました。それはその時代の株であり、 ジェダイ 主役の俳優ですらクローズアップがほとんど与えられておらず、ソースの顔がフレームの一部しか占めていないため、粒子の問題はさらに重要になっています。

ハミルのさまざまなシーン ジェダイの帰還 とします。

さらに、ハミルをフィーチャーした VFX を多用したフッテージの多くは光学式プリンターで印刷され、フィルム粒子が増加しました。しかし、ルーカスフィルムのアーカイブ（おそらくマスターネガがきちんと管理されており、何時間もの未使用の未加工映像が追加で提供される可能性がある）にアクセスできれば、この問題は解決できる可能性がある。

場合によっては、ディープフェイクデータセットを増やして多様化するために、何年にもわたる攻撃者の出力をカバーできることがあります。ハミルの場合、ディープフェイカーたちは彼の行動に足を引っ張られている。外観の変化 1977 年の交通事故の後、彼はほぼすぐに高い評価を得た声優として第 XNUMX のキャリアを開始したという事実 ジェダイ、原料が比較的希少になります。

感情の範囲が限られている？

ディープフェイクした俳優に風景を噛み砕いてもらいたい場合は、非常に幅広い表情を含むソース映像が必要になります。おそらく、入手可能な唯一の年齢に応じた映像には、そのような表現があまり含まれていないのかもしれません。

たとえば、ストーリーアークの時点までに、 ジェダイの帰還 登場すると、ハミルのキャラクターは自分の感情をほぼマスターしており、これはオリジナルのフランチャイズの神話の中心となる展開でした。したがって、Hamill ディープフェイクモデルを作成すると、 ジェダイ データを考慮すると、シリーズ初期の作品と比較して、当時のハミルの役柄が彼に要求した、より限られた感情の範囲と珍しい顔の冷静さを扱う必要があります。

瞬間があることを考慮しても ジェダイの帰還 スカイウォーカーのキャラクターがストレスにさらされており、より広範囲の表現のための素材を提供できる場合、これらのシーンの顔の素材はそれにも関わらず一瞬であり、アクションシーンに特有のモーションブラーや高速編集の影響を受けます。したがって、データはかなり不均衡です。

一般化: 感情の融合

Status ボバ・フェット スカイウォーカーの再現物は確かにディープフェイクであり、一部の方面からそれに対して平準化されている表現範囲の欠如は、ソース素材が限られていることだけが原因ではないでしょう。ディープフェイクのエンコーダーとデコーダーのトレーニングプロセスは、 一般化 数千の画像から中心的な特徴をうまく抽出できるモデルであり、少なくとも試みデータセット内で欠落している角度またはまれな角度をディープフェイクするため。

この柔軟性がなければ、ディープフェイクアーキテクチャは、時間的適応やコンテキストを考慮せずに、フレームごとにベースモーフを単純にコピーアンドペーストすることになるでしょう。

ただし、この多機能性の代償として、表現の忠実性がプロセスの犠牲となる可能性が高く、表現が不適切である可能性があります。　「微妙」というのは適切ではないかもしれません。私たちは皆、自分の顔を100人編成のオーケストラのように演奏しており、そのための十分な装備を備えていますが、ディープフェイクソフトウェアにはおそらく少なくとも弦楽セクションが欠けています。

表現における感情の差異

顔の動きとそれが私たちに与える影響は、すべての顔に共通の言語ではありません。ロジャー・ムーアでは無関心に見える吊り上がった眉は、セス・ローガンではあまり洗練されていないように見えるかもしれないが、マリリン・モンローの魅惑的な魅力は、最もデータが入手可能な役割が「怒り」または「不満」である人物にディープフェイクされた場合、より否定的な感情に変換される可能性がある。（XNUMXシーズンにわたるオーブリー・プラザのキャラクターなど） 公園とレクリエーション).

したがってピクセル>

おそらく必要なのは、表情を認識して感情を推測できるだけでなく、次のような高レベルの概念を具現化する能力を備えたディープフェイクフレームワークです。 怒って, 魅惑的な, 退屈する, 疲れたなど、口やまぶたの性質を調べて再現するのではなく、これらの感情とそれに関連する表現を XNUMX つの顔セットのアイデンティティのそれぞれに分類します。

初公開は 3 年 2022 月 7 日。更新午後 47 時 XNUMX 分 EET、名前の帰属が間違っています。