Artificial Intelligence

機械学習を使用してビデオ内の顔を再構成する

公開済み 2022 年 5 月 9 日

更新中 2022 年 12 月 9 日

マーティンアンダーソン

中国と英国の共同研究により、ビデオで顔の形を変える新しい方法が考案された。この技術により、高い一貫性とアーティファクトの欠如により、顔の構造を説得力のある拡大および縮小することができます。

研究者らがソース素材として使用した YouTube ビデオでは、女優のジェニファー・ローレンスがより卑劣な性格として現れています (右)。より良い解像度でさらに多くの例を確認するには、記事の下部に埋め込まれている付属のビデオを参照してください。出典: https://www.youtube.com/watch?v=tA2BxvrKvjE

研究者らがソース素材として使用した YouTube ビデオでは、女優のジェニファー・ローレンスがよりひょろひょろした性格として現れています (右)。より良い解像度でさらに多くの例を確認するには、記事の下部に埋め込まれている付属のビデオを参照してください。出典: https://www.youtube.com/watch?v=tA2BxvrKvjE

この種の変換は通常、詳細で高価なモーションキャッピング、リギング、テクスチャリング手順を介して顔を完全に再作成する必要がある従来の CGI 手法でのみ可能です。

代わりに、この技術に含まれる CGI はパラメトリック 3D 顔情報としてニューラルパイプラインに統合され、その後機械学習ワークフローの基礎として使用されます。

従来のパラメトリック顔は、CGI の代わりに AI を使用する変革プロセスのガイドラインとして使用されることが増えています。 出典：https://arxiv.org/pdf/2205.02538.pdf

著者らは次のように述べています。

「私たちの目的は、現実世界の自然な顔の変形に従ってポートレートの顔の全体的な形状を編集することで、高品質のポートレートビデオの再整形 [結果] を生成することです。」これは、美化のための形の良い顔の生成や、視覚効果のための顔の誇張などのアプリケーションに使用できます。

2D の顔のワーピングや歪みは、Photoshop の出現以来、消費者が利用できるようになりましたが、その結果、奇妙な、しばしば受け入れがたいものになりました。サブカルチャー顔の歪みや身体醜形障害など）、CGI を使用せずにビデオで成功させるのは難しいトリックです。

マーク・ザッカーバーグの次元は、中国/イギリスの手法によって拡大および縮小されました。

マーク・ザッカーバーグの顔の寸法は、中国/イギリスの新しい技術によって拡大および縮小されました。

肉体改造は現在、次の分野です。強い関心主にファッション e コマースでの可能性により、コンピュータービジョンの分野で注目を集めていますが、誰かをより高く見せたり、骨格を多様に見せたりすることは現在、注目すべき課題.

同様に、一貫性のある説得力のある方法でビデオ映像内の頭の形状を変更することも課題となってきました。先の仕事新しい論文の研究者らは、その実装にはアーティファクトやその他の制限があったものの、新しい製品は、以前の研究の機能を静的出力からビデオ出力まで拡張します。

新しいシステムは、9 GB のメモリを搭載した AMD Ryzen 3950 32X を搭載したデスクトップ PC でトレーニングされ、次のオプティカルフローアルゴリズムを使用しています。 OpenCV モーションマップの場合、ストラクチャーフローフレームワーク; 顔の位置調整ネットワーク (FAN) ランドマーク推定用のコンポーネント。人気のディープフェイクパッケージでも使用されます。そしてそのセレスソルバー最適化の課題を解決します。

新システムによる顔面拡大の極端な例。

当学校区の紙というタイトルです ビデオ内のポートレートのパラメトリックな再形成、浙江大学のXNUMX人の研究者とバース大学のXNUMX人の研究者によるものです。

顔について

新しいシステムでは、ビデオが画像シーケンスに抽出され、まず各顔の剛体ポーズが推定されます。次に、後続のフレームの代表的な数が共同で推定され、一連の画像 (つまり、ビデオのフレーム) 全体に沿って一貫した識別パラメータが構築されます。

フェイスワーピングシステムのアーキテクチャフロー。

この後、式が評価され、線形回帰によって実装される再形成パラメーターが生成されます。次に、新しい符号付き距離関数 (SDF) アプローチは、再形成の前後で顔のリニアメントの高密度 2D マッピングを構築します。

最後に、出力ビデオに対してコンテンツに応じたワーピングの最適化が実行されます。

パラメトリック面

このプロセスでは、3D Morphable Face Model (3DMM) が利用されます。人気の付属品ニューラルおよび GAN ベースの顔合成システムに対応するだけでなく、適用可能なディープフェイク検出システム用。

論文からのものではありませんが、新しいプロジェクトで使用されるパラメトリックプロトタイプの顔である 3D Morphable face Model (3DMM) の例です。左上、3DMM 面上のランドマークアプリケーション。右上はアイソマップの 3D メッシュ頂点。左下はランドマークの取り付けを示しています。下中央、抽出された顔テクスチャのアイソマップ。右下は、結果として得られるフィッティングと形状です。出典: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

新しい論文からのものではありませんが、新しいプロジェクトで使用されるパラメトリックプロトタイプの顔である 3D Morphable face Model (3DMM) の例です。左上、3DMM 面上のランドマークアプリケーション。右上はアイソマップの 3D メッシュ頂点。左下はランドマークの取り付けを示しています。下中央、抽出された顔テクスチャのアイソマップ。右下は、結果として得られるフィッティングと形状です。出典: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

新しいシステムのワークフローでは、被写体が目をそらした場合など、オクルージョンのケースを考慮する必要があります。これはディープフェイクソフトウェアにおける最大の課題の XNUMX つです。FAN ランドマークにはこれらのケースを考慮する能力がほとんどなく、顔がそったり隠れたりすると品質が低下する傾向があるためです。

新しいシステムは、 輪郭エネルギー これは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の間の境界を一致させることができます。

最適化

このようなシステムの有用な展開は、ビデオチャットフィルターなどでリアルタイム変形を実装することです。現在のフレームワークではこれが可能ではなく、必要なコンピューティングリソースにより、「ライブ」変形は顕著な課題となります。

論文によると、24fps のビデオターゲットを想定すると、パイプラインのフレームごとの操作は、映像の 16.344 秒あたり 3 秒のレイテンシーを表し、アイデンティティ推定と 321D 顔変形の追加の 160 回ヒット (それぞれ XNUMX ミリ秒と XNUMX ミリ秒) が発生します。。

したがって、最適化はレイテンシの短縮に向けて前進するための鍵となります。すべてのフレームにわたる統合最適化はプロセスに重大なオーバーヘッドを追加し、init スタイルの最適化 (最初のフレームからの話者のその後の一貫した ID を前提とする) は異常を引き起こす可能性があるため、著者らは係数を計算するためにスパーススキーマを採用しました。実際の間隔でサンプリングされたフレームの数。

次に、このフレームのサブセットに対してジョイント最適化が実行され、より無駄のない再構築プロセスが実現します。

面のワーピング

このプロジェクトで使用されているワーピング技術は、著者の 2020 年の研究を応用したものです。 深みのある形の良いポートレート （DSP）。

Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。この論文は、ZJU-Tencent Game および Intelligent Graphics Innovation Technology Joint Lab の研究者が主導しています。出典: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

著者らは観察している 「私たちはこの方法を、XNUMX つの単眼画像の再形成から画像シーケンス全体の再形成まで拡張します。」