Connect with us

拡張現実

TikTok開発者、拡張現実アプリケーション向けに顔を消去

mm

TikTokを運営する中国の多国籍インターネット企業ByteDanceは、拡張現実(AR)アプリケーションにおいて人物にアイデンティティの歪曲やその他の奇妙な効果を付与できるように、ビデオから顔を消去する新手法を開発した。同社は、この技術が既に商用モバイル製品に統合されていると主張しているが、具体的な製品名は明らかにしていない。 ビデオ内の顔が「ゼロ化」されると、目を見張るような歪曲や、潜在的に他のアイデンティティを重ね合わせるのに十分な「顔のキャンバス」が得られる。ByteDanceの研究者による新論文で提供された例は、その可能性を示しており、「消去された」特徴を様々な滑稽な(そして確かにグロテスクな)構成で復元している:

ByteDanceの論文に含まれる顔の再構成の可能性の一部。出典: https://arxiv.org/pdf/2109.10760.pdf

ByteDanceの論文に含まれる顔の再構成の可能性の一部。 出典: https://arxiv.org/pdf/2109.10760.pdf

8月下旬、明らかになったように、30億インストールを達成した初の非FacebookアプリであるTikTokは、TikTokコンテンツストリーム向けのAR効果を作成するためのプラットフォーム、TikTok Effect Studio(現在クローズドベータ版)を立ち上げた。 実質的に、同社はFacebookのAR StudioSnap ARの同様の開発者コミュニティに追いつこうとしており、Appleの由緒あるAR研究開発コミュニティも、今後1年で新ハードウェアによって間もなく活性化される見込みだ。

無表情な顔

論文FaceEraser: Removing Facial Parts for Augmented Reality』は、NVIDIAのSPADEのような既存の画像修復/補完アルゴリズムは、この特異な「空白化」処理を実行するよりも、切り取られたまたは部分的に隠された画像を完成させることに重点が置かれており、既存のデータセット素材が予想通り乏しいと指摘している。 顔があるべき場所に広がる肌の領域を持つ人物の利用可能な正解データセットが存在しないため、研究者らは既存のニューラル画像修復モデルに重ね合わせることができ、StructureFlowEdgeConnectのような従来の手法が示す(論文が証明する)テクスチャや色の不一致に関連する問題を解決する、pixel-cloneと呼ばれる新しいネットワークアーキテクチャを作成した。

新しいパイプラインにおけるpixel-cloneの一般的なワークフロー。

新しいパイプラインにおけるpixel-cloneの一般的なワークフロー。

「空白の」顔でモデルを訓練するために、研究者らは、額と眉の間の領域が通常、顔の中心的な特徴に「貼り付け」素材を提供できる最大の単一ピクセル群であるため、メガネをかけている画像や髪が額を隠している画像を除外した。

訓練画像の準備。顔の位置合わせ認識におけるキーポイントに基づいて額の領域が切り抜かれ、垂直方向に反転して縫い合わされる。

訓練画像の準備。顔の位置合わせ認識におけるキーポイントに基づいて額の領域が切り抜かれ、垂直方向に反転して縫い合わされる。

256×256ピクセルの画像が取得される。これは、一般化を達成するのに十分な大きさのバッチでニューラルネットワークの潜在空間に入力するのに十分な小ささである。後のアルゴリズムによるアップスケーリングにより、AR空間で動作するために必要な解像度が復元される。

アーキテクチャ

このネットワークは、エッジ補完、Pixel-Clone、およびリファインメントネットワークからなる3つの内部ネットワークで構成されている。エッジ補完ネットワークは、EdgeConnect(上記参照)および最も人気のある2つのDeepfakeアプリケーションで使用されているものと同じ種類のエンコーダー-デコーダーアーキテクチャを使用する。エンコーダーは画像コンテンツを2回ダウンサンプリングし、デコーダーは元の画像サイズを復元する。 Pixel-Cloneは修正されたエンコーダー-デコーダー手法を使用し、リファインメント層はU-Netアーキテクチャを使用する。これは元々生体医学画像処理のために開発された技術で、画像合成研究プロジェクトによく登場する。 訓練ワークフローでは、変換の精度を評価し、必要に応じて収束するまで反復的に試行を繰り返す必要がある。この目的のために、PatchGANに基づく2つの識別器が使用され、それぞれが70×70ピクセルのパッチの局所的なリアリズムを評価し、画像全体のリアリズム値は考慮しない。

訓練とデータ

エッジ補完ネットワークは最初に独立して訓練され、他の2つのネットワークは、エッジ補完訓練から得られた重みに基づいて一緒に訓練される。これらの重みはこの手順中に固定され、凍結される。 論文は、最終的な特徴歪曲の例がモデルの主目的であるとは明示的に述べていないが、眉の除去、拡大された口、縮小された顔の一部、および「トゥーン化」効果(上記の最初の画像に示されている)を含む、システムの堅牢性をテストするために様々なコミック効果を実装している。 論文は、「消去された顔は、ユーザーがカスタマイズした任意の要素の配置を必要とする様々な拡張現実アプリケーションを可能にする」と主張し、サードパーティやユーザー提供の要素で顔をカスタマイズする可能性を示唆している。 このモデルは、NVIDIAが作成したFFHQデータセットのマスクで訓練されている。このデータセットには、有用な一般化を達成するのに十分な多様性の年齢、民族、照明、顔のポーズとスタイルが含まれている。データセットには、変換領域を delineate するための35,000枚の画像と10,000の訓練マスクが含まれており、検証目的で4,000枚の画像と1,000のマスクが確保されている。

訓練データサンプル。

訓練データサンプル。

訓練済みモデルは、2017年のCelebA-HQVoxCelebからのデータ、FFHQからの未見の顔、および提示されるその他の制約のない未見の顔に対して推論を実行できる。256×256画像は、PyTorchで実装され、Tesla V100 GPU上で動作するAdamオプティマイザを使用して、バッチサイズ8でネットワーク上で「2000,000エポック」訓練された。

実顔で得られた推論結果。

実顔で得られた推論結果。

顔ベースの画像合成研究で一般的なように、このシステムは、髪、周辺機器、メガネ、ひげなどの障害物やオクルージョンによって引き起こされる偶発的な失敗に対処しなければならない。 報告書は次のように結論付けている:

「我々のアプローチは商用化されており、制約のないユーザー入力に対して製品内でうまく機能している。」

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai