TikTok開発者がAugmented Realityアプリケーション用に顔の消去を行っている
ByteDance、TikTokを開発した中国の多国籍インターネット企業は、人々にアイデンティティの歪みやその他の奇妙な効果を与えるために、ビデオ内の顔を消去する新しい方法を開発しました。同社は、この技術がすでに商用モバイル製品に統合されていると主張していますが、どの製品に統合されたかは述べていません。一度ビデオ内の顔を「ゼロ化」すると、目を驚かせるような歪みや、他のアイデンティティを重ねることができる「顔のキャンバス」が十分に生まれます。ByteDanceの研究者による新しい論文に示されている例は、その可能性を示しています。包括して、さまざまなコミカル(そして確実にグロテスクな)構成で「消去された」機能を復元することができます。8月末、TikTok、最初の非Facebookアプリが3億インストールに達したことが明らかになりました。TikTok Effect Studio(現在クローズドベータ)は、TikTokコンテンツストリーム用のARエフェクトを作成するためのプラットフォームです。実質的に、同社は、FacebookのAR StudioやSnap ARなどの開発者コミュニティに追いついています。AppleのAR R&Dコミュニティも、新しいハードウェアによって近々活性化される予定です。空の表情論文では、FaceEraser:Augmented Realityのための顔の部分の消去というタイトルが付けられています。既存のインペインティング/インフィルアルゴリズム、たとえばNVIDIAのSPADEは、画像を完了または半分隠すことに向けられているため、このような「ブランキング」手順には適していません。したがって、既存のデータセット資料は予測可能に希薄です。顔が「ゼロ化」されると、テクスチャや色の不一致を示す古い方法、たとえばStructureFlowやEdgeConnectなどの問題を解決するために、研究者は新しいネットワークアーキテクチャ、pixel-cloneを作成しました。これは、既存のニューラルインペインティングモデルに重ねることができます。「ブランク」顔でモデルをトレーニングするには、研究者は、メガネをかけた画像や、髪が額を隠す画像を除外しました。髪の生え際と眉毛の間の領域は、通常、顔の中心的な特徴を「貼り付け」するための最大のピクセルグループを提供するためです。256×256ピクセルの画像が取得され、ニューラルネットワークの潜在的な空間に十分なサイズでフィードインすることができます。後でアルゴリズムによるアップスケーリングによって、AR空間で機能するために必要な解像度が回復されます。アーキテクチャネットワークは、エッジ補完、ピクセルクローン、そして精緻化ネットワークの3つの内部ネットワークで構成されています。エッジ補完ネットワークは、EdgeConnect(上記参照)や2つの最も人気のあるディープフェイクアプリケーションで使用されているエンコーダー-デコーダーのアーキテクチャを使用しています。エンコーダーは画像コンテンツを2回ダウンサンプリングし、デコーダーは元の画像の寸法を回復します。ピクセルクローンは、修正されたエンコーダー-デコーダー方式を使用し、精緻化レイヤーは、元々バイオメディカルイメージングのために開発されたU-Netアーキテクチャを使用しています。画像合成研究プロジェクトでは、この技術がよく使用されています。トレーニングワークフロー中に、変換の精度を評価し、必要に応じて繰り返し試行する必要があります。そのため、PatchGANに基づく2つのディスクリミネーターを使用します。各ディスクリミネーターは、70×70ピクセルのパッチのローカライズされたリアリズムを評価し、画像全体のリアリズムの価値を無視します。トレーニングとデータエッジ補完ネットワークは最初に独立してトレーニングされ、他の2つのネットワークは、エッジ補完トレーニングの結果である重みに基づいて一緒にトレーニングされます。これらの重みは、手順中固定および凍結されます。論文では、最終的な機能の歪みの例がモデルの主な目的であることを明示的に述べていませんが、システムの堅牢性をテストするために、さまざまなコミックエフェクトを実装しています。たとえば、眉毛の除去、大きな口、縮小されたサブ顔、または「トゥーン化」されたエフェクト(上記の画像に示されているもの)などです。論文では、「消去された」顔が「ユーザーがカスタマイズした要素を配置する必要がある」ARアプリケーションを可能にすることを主張しています。つまり、顔にサードパーティーのユーザー提供の要素をカスタマイズできる可能性があります。モデルは、NVIDIAが作成したFFHQデータセットのマスクでトレーニングされています。このデータセットには、有用な一般化を達成するために、年齢、民族、照明、顔のポーズやスタイルの多様性が含まれています。データセットには、35,000枚の画像と10,000枚のトレーニングマスクが含まれており、4,000枚の画像と1,000枚のマスクが検証のために設定されています。トレーニングされたモデルは、2017年のCelebA-HQやVoxCelebなどの、FFHQ、他の制限なしの顔、または提示された他の顔に対して推論を実行できます。256×256ピクセルの画像は、Adamオプティマイザを実装したPyTorchで、Tesla V100 GPUで「2000,000エポック」実行されたバッチサイズ8でネットワークにフィードされました。顔ベースの画像合成研究では、システムは、髪、周辺装置、メガネ、ひげなどの遮蔽や被覆によって引き起こされることがある失敗に直面する必要があります。報告書は以下のように結論付けています:「私たちのアプローチは商業化されており、制限のないユーザー入力の製品でうまく機能しています。」