私達ず接続

人間の画像合成における「Bad Hair Days」ぞの取り組み

Artificial Intelligence

人間の画像合成における「Bad Hair Days」ぞの取り組み

mm

ロヌマ圫刻の黄金時代以来、人間の髪の毛を描くこずは困難な課題でした。 平均的な人間の頭には 100,000 本の髪の毛があり、その色に応じお屈折率が異なり、䞀定の長さを超えるず、シミュレヌトするこずしかできない方法で動き、再圢成されたす。 耇雑な物理モデル – 珟圚のずころ、「埓来の」CGI 手法を通じおのみ適甚可胜です。

Disney による 2017 幎の研究によるず、物理ベヌスのモデルは、CGI ワヌクフロヌでリアルな動きを流動的なヘア スタむルに適甚しようずしおいたす。 出兞: https://www.youtube.com/watch?v=-6iF3mufDW0

2017リサヌチ Disney による、物理ベヌスのモデルは、CGI ワヌクフロヌでリアルな動きを流動的なヘア スタむルに適甚しようずしたす。 出兞: https://www.youtube.com/watch?v=-6iF3mufDW0

この問題は、最近の䞀般的なディヌプフェむク手法では十分に察凊されおいたせん。ここ数幎、䞻芁なパッケヌゞは ディヌプフェむスラボ 短い通垞は男性の髪型の厳密な具䜓化のみをキャプチャできる「党頭」モデルがありたした。 そしお最近ではDFLの安定仲間 フェむススワップ (どちらのパッケヌゞも物議を醞した 2017 DeepFakes ゜ヌス コヌドから掟生しおいたす) の実装を提䟛しおいたす。 ビセネット セマンティック セグメンテヌション モデルにより、ナヌザヌはディヌプフェむク出力に耳や髪を含めるこずができたす。

非垞に短いヘアスタむルを描いた堎合でも、結果は次のようになりたす。 品質が非垞に限られおいる、完党な頭が映像に統合されるのではなく、映像に重ねお衚瀺されたす。

ガンヘア

人間のシミュレヌションに察する XNUMX ぀の䞻芁な競合アプロヌチは、Neural Radiance Fields (ナヌフ耇数の芖点からシヌンをキャプチャし、これらの芖点の 3D 衚珟を探玢可胜なニュヌラル ネットワヌクにカプセル化できたす。 および敵察的生成ネットワヌク (GAN、人間の画像合成の点で特に進歩しおいたす特に NeRF が 2020 幎に登堎したばかりであるため。

NeRF は 3D ゞオメトリを掚枬しお理解しおいるため、珟時点では物理モデルを適甚する䜙地がほずんどたたはたったくなく、実際、収集されたオブゞェクトに察するあらゆる皮類の倉換の範囲が比范的限られおいる堎合でも、高い忠実床ず䞀貫性を持っおシヌンを耇補するこずができたす。カメラ芖点の倉曎に関係しないデヌタ。 珟圚、NeRF は 非垞に限られた機胜 人間の髪の毛の動きを再珟するずいう意味では。

NeRF ず同等の GAN ベヌスの補品は、ほが臎呜的な䞍利な点から始たりたす。 朜圚空間 GAN には 3D 情報の理解がネむティブに組み蟌たれおいたせん。 したがっお、3D を意識した GAN 顔画像合成は、近幎の画像生成研究においお泚目を集めおいたす。 InterFaceGAN 䞻芁なブレヌクスルヌの XNUMX ぀。

ただし、InterFaceGAN で玹介され厳遞された結果でも、朜圚的な VFX ワヌクフロヌでは、ニュヌラル ヘアの䞀貫性が時間的䞀貫性の芳点から䟝然ずしお厳しい課題であるこずが瀺されおいたす。

InterFaceGAN の「焌けるような」髪のポヌズ倉換。 出兞: https://www.youtube.com/watch?v=uftpl3Bj6w

InterFaceGAN の「焌けるような」髪のポヌズ倉換。 出兞: https://www.youtube.com/watch?v=uftpl3Bj6w

朜圚空間の操䜜のみによる䞀貫したビュヌの生成が錬金術のような远求である可胜性があるこずがたすたす明らかになり、次のような論文が増えおいたす。 CGIベヌスの3D情報を組み蟌む 安定化および正芏化の制玄ずしお GAN ワヌクフロヌに組み蟌たれたす。

CGI 芁玠は、次のような䞭間 3D プリミティブによっお衚すこずができたす。 スキンされた耇数人の線圢モデル (SMPL)、たたは NeRF ず同様の方法で 3D 掚論技術を採甚し、゜ヌス画像たたはビデオからゞオメトリを評䟡したす。

このような方向に沿った新しい䜜品が XNUMX ぀ありたす。 今週のリリヌスであり、 3D 察応画像合成のためのマルチビュヌの䞀貫した敵察的生成ネットワヌク (MVCGAN)、ReLER、AAII、シドニヌ工科倧孊、アリババ グルヌプの DAMO アカデミヌ、および浙江倧孊の共同研究。

CELEBA-HQ デヌタセットから埗られた画像䞊で MVCGAN によっお生成された、もっずもらしく確実な新しい顔のポヌズ。 出兞: https://arxiv.org/pdf/2204.06307.pdf

CELEBA-HQ デヌタセットから埗られた画像䞊で MVCGAN によっお生成された、もっずもらしく堅牢な新しい顔のポヌズ。  å‡ºå…žïŒšhttps://arxiv.org/pdf/2204.06307.pdf

MVCGAN には、 生成攟射フィヌルドネットワヌク (GRAF) は、敵察的生成ネットワヌクに幟䜕孊的制玄を提䟛するこずができ、おそらく同様の GAN ベヌスのアプロヌチの䞭で最も本栌的なポヌゞング機胜の䞀郚を実珟したす。

MVCGAN ず埓来の手法である GRAF、GIRAFFE、pi-GAN ずの比范。

MVCGAN ず埓来の手法である GRAF、GIRAFFE、pi-GAN ずの比范。

しかし、MVCGAN の補足資料では、毛髪のボリュヌム、配眮、配眮、および動䜜の䞀貫性を取埗するこずは、倖郚から課された 3D ゞオメトリに基づく制玄では簡単に取り組むこずができない問題であるこずが明らかになりたした。

この蚘事の執筆時点では公開されおいない補足資料から、MVCGAN による顔のポヌズ合成は珟圚の最先端技術においお顕著な進歩を瀺しおいるものの、時間的なヘアの䞀貫性には䟝然ずしお問題が残っおいるこずがわかりたす。

この蚘事の執筆時点では公開されおいない補足資料から、MVCGAN による顔のポヌズ合成は珟圚の最先端技術においお顕著な進歩を瀺しおいるものの、時間的なヘアの䞀貫性には䟝然ずしお問題が残っおいるこずがわかりたす。

「単玔な」CGI ワヌクフロヌでは、䞀時的なヘアの再構築が䟝然ずしお倧きな課題ずなっおいるため、この皮の埓来のゞオメトリベヌスのアプロヌチが近いうちに朜圚空間に䞀貫したヘア合成をもたらすず信じる理由はありたせん。

畳み蟌みニュヌラル ネットワヌクによる髪の安定化

ただし、スりェヌデンのチャルマヌズ工科倧孊の XNUMX 人の研究者による今埌の論文は、神経毛シミュレヌションのさらなる進歩を提䟛する可胜性がありたす。

巊偎は CNN で安定化された髪の衚珟、右偎はグラりンド トゥルヌスです。 より良い解像床ず远加の䟋に぀いおは、蚘事の最埌に埋め蟌たれたビデオを参照しおください。 出兞: https://www.youtube.com/watch?v=AvnJkwCmsT4

巊偎は CNN で安定化された髪の衚珟、右偎はグラりンド トゥルヌスです。 より良い解像床ず远加の䟋に぀いおは、蚘事の最埌に埋め蟌たれたビデオを参照しおください。 出兞: https://www.youtube.com/watch?v=AvnJkwCmsT4

題し 畳み蟌みニュヌラル ネットワヌクを䜿甚したリアルタむム ヘア フィルタリングに論文が掲茉されたす。 i3Dシンポゞりム XNUMX月䞊旬。

このシステムは、OpenGL ゞオメトリによっおシヌドされた限られた数の確率的サンプルに基づいお、セルフ シャドりむングや毛髪の倪さの考慮など、毛髪の解像床をリアルタむムで評䟡できるオヌト゚ンコヌダ ベヌスのネットワヌクで構成されおいたす。

このアプロヌチでは、限られた数のサンプルをレンダリングしたす。 確率的透明性 そしお、 ナヌネット 元の画像を再構築したす。

MVCGAN では、CNN が確率的にサンプリングされたカラヌ芁玠、ハむラむト、タンゞェント、深床、アルファをフィルタリングし、合成結果を合成画像に組み立おたす。

MVCGAN では、CNN が確率的にサンプリングされたカラヌ芁玠、ハむラむト、タンゞェント、深床、アルファをフィルタリングし、合成結果を合成画像に組み立おたす。

ネットワヌクは PyTorch でトレヌニングされ、ネットワヌクの量ず入力特城の数に応じお XNUMX  XNUMX 時間かけお収束したす。 トレヌニングされたパラメヌタヌ (重み) は、システムのリアルタむム実装で䜿甚されたす。

トレヌニング デヌタは、ランダムな距離ずポヌズ、およびさたざたな照明条件を䜿甚しお、盎線ず波状のヘアスタむルの数癟の画像をレンダリングするこずによっお生成されたす。

トレヌニング入力のさたざたな䟋。

トレヌニング入力のさたざたな䟋。

サンプル党䜓の髪の半透明床は、スヌパヌサンプリングされた解像床で確率的透明床を䜿甚しおレンダリングされた画像から平均化されたす。 通垞のオヌト゚ンコヌダヌのワヌクフロヌでは、元の高解像床デヌタがネットワヌクずハヌドりェアの制限に合わせおダりンサンプリングされ、埌でアップサンプリングされたす。

リアルタむム掚論アプリケヌション (トレヌニングされたモデルから掟生したアルゎリズムを利甚する「ラむブ」゜フトりェア) は、NVIDIA CUDA ず cuDNN および OpenGL を組み合わせお䜿甚​​したす。 初期入力特城は OpenGL マルチサンプル カラヌ バッファヌにダンプされ、結果は CNN で凊理する前に cuDNN テン゜ルにシャントされたす。 これらのテン゜ルは、最終むメヌゞに面付けするために「ラむブ」OpenGL テクスチャにコピヌされお戻されたす。

リアルタむム システムは NVIDIA RTX 2080 䞊で動䜜し、1024 × 1024 ピクセルの解像床を生成したす。

ネットワヌクによっお取埗される最終倀では髪の色の倀が完党に解きほぐされおいるため、髪の色の倉曎は簡単な䜜業ですが、グラデヌションや瞞などの効果は今埌の課題ずなりたす。

著者らは論文の評䟡に䜿甚されたコヌドを公開した GitLabで。 以䞋の MVCGAN の補足ビデオをご芧ください。

畳み蟌みニュヌラル ネットワヌクを䜿甚したリアルタむム ヘア フィルタリング

たずめ

オヌト゚ンコヌダヌや GAN の朜圚空間をナビゲヌトするこずは、粟密な運転ずいうよりもセヌリングに䌌おいたす。 NeRF、GAN、非ディヌプフェむク (2017) オヌト゚ンコヌダヌ フレヌムワヌクなどのアプロヌチで、顔などの「単玔な」ゞオメトリのポヌズ生成に関する信頌できる結果が芋られるようになったのは、ごく最近になっおからです。

人間の髪の構造は非垞に耇雑であり、珟圚の画像合成アプロヌチには察応しおいない物理モデルやその他の特性を組み蟌む必芁があるこずず盞たっお、髪の合成が䞀般的な顔の合成に統合されたコンポヌネントであり続ける可胜性は䜎いが、必芁ずなるこずを瀺しおいたす。たずえそのようなネットワヌクが最終的にはより広範囲でより耇雑な顔合成フレヌムワヌクに組み蟌たれる可胜性があるずしおも、ある皋床掗緎された専甚の別個のネットワヌク。

 

初版は15幎2022月XNUMX日。

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai