Artificial Intelligence
機械学習を使用してビデオ内の顔を再構成する

中国と英国の共同研究により、ビデオで顔の形を変える新しい方法が考案された。 この技術により、高い一貫性とアーティファクトの欠如により、顔の構造を説得力のある拡大および縮小することができます。

研究者らがソース素材として使用した YouTube ビデオでは、女優のジェニファー・ローレンスがよりひょろひょろした性格として現れています (右)。 より良い解像度でさらに多くの例を確認するには、記事の下部に埋め込まれている付属のビデオを参照してください。 出典: https://www.youtube.com/watch?v=tA2BxvrKvjE
この種の変換は通常、詳細で高価なモーション キャッピング、リギング、テクスチャリング手順を介して顔を完全に再作成する必要がある従来の CGI 手法でのみ可能です。
代わりに、この技術に含まれる CGI はパラメトリック 3D 顔情報としてニューラル パイプラインに統合され、その後機械学習ワークフローの基礎として使用されます。

従来のパラメトリック顔は、CGI の代わりに AI を使用する変革プロセスのガイドラインとして使用されることが増えています。 出典:https://arxiv.org/pdf/2205.02538.pdf
著者らは次のように述べています。
「私たちの目的は、現実世界の自然な顔の変形に従ってポートレートの顔の全体的な形状を編集することで、高品質のポートレート ビデオの再整形 [結果] を生成することです。」 これは、美化のための形の良い顔の生成や、視覚効果のための顔の誇張などのアプリケーションに使用できます。
2D の顔のワーピングや歪みは、Photoshop の出現以来、消費者が利用できるようになりましたが、その結果、奇妙な、しばしば受け入れがたいものになりました。 サブカルチャー 顔の歪みや身体醜形障害など)、CGI を使用せずにビデオで成功させるのは難しいトリックです。

マーク・ザッカーバーグの顔の寸法は、中国/イギリスの新しい技術によって拡大および縮小されました。
肉体改造は現在、次の分野です。 強い関心 主にファッション e コマースでの可能性により、コンピューター ビジョンの分野で注目を集めていますが、誰かをより高く見せたり、骨格を多様に見せたりすることは現在、 注目すべき課題.
同様に、一貫性のある説得力のある方法でビデオ映像内の頭の形状を変更することも課題となってきました。 先の仕事 新しい論文の研究者らは、その実装にはアーティファクトやその他の制限があったものの、 新しい製品は、以前の研究の機能を静的出力からビデオ出力まで拡張します。
新しいシステムは、9 GB のメモリを搭載した AMD Ryzen 3950 32X を搭載したデスクトップ PC でトレーニングされ、次のオプティカル フロー アルゴリズムを使用しています。 OpenCV モーション マップの場合、 ストラクチャーフロー フレームワーク; 顔の位置調整ネットワーク (FAN) ランドマーク推定用のコンポーネント。人気のディープフェイク パッケージでも使用されます。そしてその セレスソルバー 最適化の課題を解決します。

新システムによる顔面拡大の極端な例。
当学校区の 紙 というタイトルです ビデオ内のポートレートのパラメトリックな再形成、浙江大学のXNUMX人の研究者とバース大学のXNUMX人の研究者によるものです。
顔について
新しいシステムでは、ビデオが画像シーケンスに抽出され、まず各顔の剛体ポーズが推定されます。 次に、後続のフレームの代表的な数が共同で推定され、一連の画像 (つまり、ビデオのフレーム) 全体に沿って一貫した識別パラメータが構築されます。

フェイスワーピングシステムのアーキテクチャフロー。
この後、式が評価され、線形回帰によって実装される再形成パラメーターが生成されます。次に、新しい符号付き距離関数 (SDF) アプローチは、再形成の前後で顔のリニアメントの高密度 2D マッピングを構築します。
最後に、出力ビデオに対してコンテンツに応じたワーピングの最適化が実行されます。
パラメトリック面
このプロセスでは、3D Morphable Face Model (3DMM) が利用されます。 人気の付属品ニューラルおよび GAN ベースの顔合成システムに対応するだけでなく、 適用可能な ディープフェイク検出システム用。

新しい論文からのものではありませんが、新しいプロジェクトで使用されるパラメトリック プロトタイプの顔である 3D Morphable face Model (3DMM) の例です。 左上、3DMM 面上のランドマーク アプリケーション。 右上はアイソマップの 3D メッシュ頂点。 左下はランドマークの取り付けを示しています。 下中央、抽出された顔テクスチャのアイソマップ。 右下は、結果として得られるフィッティングと形状です。 出典: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf
新しいシステムのワークフローでは、被写体が目をそらした場合など、オクルージョンのケースを考慮する必要があります。 これはディープフェイク ソフトウェアにおける最大の課題の XNUMX つです。FAN ランドマークにはこれらのケースを考慮する能力がほとんどなく、顔がそったり隠れたりすると品質が低下する傾向があるためです。
新しいシステムは、 輪郭エネルギー これは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の間の境界を一致させることができます。
最適化
このようなシステムの有用な展開は、ビデオ チャット フィルターなどでリアルタイム変形を実装することです。 現在のフレームワークではこれが可能ではなく、必要なコンピューティング リソースにより、「ライブ」変形は顕著な課題となります。
論文によると、24fps のビデオ ターゲットを想定すると、パイプラインのフレームごとの操作は、映像の 16.344 秒あたり 3 秒のレイテンシーを表し、アイデンティティ推定と 321D 顔変形の追加の 160 回ヒット (それぞれ XNUMX ミリ秒と XNUMX ミリ秒) が発生します。 。
したがって、最適化はレイテンシの短縮に向けて前進するための鍵となります。 すべてのフレームにわたる統合最適化はプロセスに重大なオーバーヘッドを追加し、init スタイルの最適化 (最初のフレームからの話者のその後の一貫した ID を前提とする) は異常を引き起こす可能性があるため、著者らは係数を計算するためにスパース スキーマを採用しました。実際の間隔でサンプリングされたフレームの数。
次に、このフレームのサブセットに対してジョイント最適化が実行され、より無駄のない再構築プロセスが実現します。
面のワーピング
このプロジェクトで使用されているワーピング技術は、著者の 2020 年の研究を応用したものです。 深みのある形の良いポートレート (DSP)。

Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。 この論文は、ZJU-Tencent Game および Intelligent Graphics Innovation Technology Joint Lab の研究者が主導しています。 出典: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4
著者らは観察している 「私たちはこの方法を、XNUMX つの単眼画像の再形成から画像シーケンス全体の再形成まで拡張します。」
テスト
この論文では、新しい方法を評価するための比較可能な先行資料が存在しなかったと述べています。 そこで著者らは、ワープされたビデオ出力のフレームを静的 DSP 出力と比較しました。

Deep Shapely Portraits の静止画像に対して新しいシステムをテストします。
著者らは、DSP メソッドではスパース マッピングが使用されるため、アーティファクトが発生することに注目しています。この問題は、新しいフレームワークがデンス マッピングで解決します。 さらに、DSP によって制作されたビデオは次のように主張しています。 実証 滑らかさと視覚的な一貫性の欠如。
著者らは次のように述べています。
「結果は、私たちのアプローチが一貫性のある再整形されたポートレートビデオを確実に生成できる一方で、画像ベースの方法では目立つちらつきアーティファクトが容易に発生する可能性があることを示しています。」
その他の例については、以下の付属ビデオをご覧ください。
初版は 9 年 2022 月 6 日。EET 午後 XNUMX 時に修正され、SDF の「フィールド」が「機能」に置き換えられました。