人工知能

ディズニーはCGIとニューラルレンダリングを組み合わせて「アンチャニー・バレー」を解決する

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

ディズニーのAI研究部門は、顔のシミュレーションを映画のクオリティで行うためのハイブリッド方法を開発しました。顔のニューラルレンダリングの強みと、CGIベースのアプローチの一貫性を組み合わせたものです。

まだ公開されていない論文は、スタイルでレンダリング: 伝統的なアプローチとニューラルアプローチを組み合わせた高品質の顔レンダリングというタイトルで、ディズニー・リサーチのYouTubeチャンネルにある新しい10分間のビデオで紹介されています。

メッシュとニューラル顔レンダリングの組み合わせ。詳細と品質の良いビデオは、この記事の最後に埋め込まれています。 ソース: https://www.youtube.com/watch?v=k-RKSGbWLng (以前にhttps://www.youtube.com/watch?v=TwpLqTmvqVkに置き換えられました)

ビデオでは、顔のニューラルレンダリング(ディープフェイクを含む)は、CGIでは実現できないほどリアルな目や口の中を生み出すことができると指摘しています。一方、CGI駆動の顔のテクスチャは、一貫性があり、シネマレベルのVFX出力に適しています。

したがって、ディズニーは、NVIDIAのStyleGan2ニューラルジェネレーターを使用して、顔の周囲の特徴や「生命に重要な」要素である目を処理し、CGIの顔の皮膚や関連要素を出力に重ねることを試みています。

ビデオ(記事の最後に埋め込まれています)から、ディズニーのハイブリッドアプローチのアーキテクチャ概念。ローグ・ワン(2016)で若いキャリー・フィッシャーと故ピーター・カッシングを再現するために使用されたタイプの旧来のCGIメッシュが、ニューラルレンダリングされた顔の環境に統合されています。

ビデオでは、Rogue One(2016)での故英国俳優ピーター・カッシングのCGI再現の非本質性と「アンチャニー・バレー」効果についての頻繁な批判に触れています。

‘[まだ] 人が簡単にキャプチャしてレンダリングできるものと、最終的な写真レアリスティックなデジタル・ダブルの間には、大きなギャップがあります。髪、目、口の中が含まれた完全なものです。このギャップを埋めるには、熟練したアーティストからの多大な手作業が必要です。’

実際、最も近代的な顔キャプチャシステムでは、目、口の中、髪の毛を再現しようとしません。目については本質的な問題があり、髪の毛については時間的一貫性の問題があります。

ビデオは、典型的な現代の顔キャプチャセッション後にVFXアーティストが得るものを示しています。目、髪、口の中、そして口の中は、すべてプロダクション・パイプラインで別々のチームによって処理される必要があります。また、テクスチャリングやライティングも必要です。

照明制御

ハイブリッドアプローチは、リライティングにも利点があります。リライティングは、顔のニューラルレンダリングにおける著名な課題です。CGIの皮膚の重ね合わせは、より簡単にリライトできます。

CGI/ニューラル・アプローチのアニメーション版。

より困難な環境、たとえば外部の撮影では、研究者は人物の周囲に「非武装地帯」を生成する方法を開発しました。

黒いマージンが生成され、外部のアイデンティティの周囲をインペイントし、CGIの皮膚をCGI/ニューラル出力に統合するための「キャンバス」を提供します。

ビデオでは：

‘[ニューラル]レンダリングは、背景の制約と完全に一致しません。目標は、人間のコンポーネントである髪、目、歯をリアルに表現することです。環境の照明を変更しながら、一貫したアイデンティティを維持することがより困難です。’

ニューラルレンダリングからCGIメッシュの作成

研究チームは、3D顔画像の大きなデータベースで訓練されたバリアショナル・オートエンコーダを開発しました。彼らは、グラウンド・トゥルース・データから「ランダムだが妥当な」3D顔メッシュを生成できるという主張しています。

この研究には、まだ克服すべき限界があります。たとえば、ニューラルレンダリングで髪の毛を時間的に一貫性を持たせるのが難しいという問題があります。ビデオ(以下参照)では、CGI/ニューラル顔の周囲を回転させているにもかかわらず、髪の毛が急速に変化するさまざまな例が示されています。

ニューラルビデオレンダリングにおける時間的一貫性は、ディズニーの問題だけでなく、より広範な問題です。将来のこのシステムのバージョンでは、髪の毛をポストプロダクションで追加するか、髪の毛の生成に対するさまざまなアプローチを使用する可能性があります。

データセット生成のための使用

この方法は、合成データを生成し、顔画像セットの風景を豊かにするための潜在的な方法としても提案されています。顔画像セットの風景は、近年、危険なほど単調になりました。

ディズニーは、新しいテクニックによって顔画像データセットが充実することを想定しています。

‘[私たちが生成する] 写真レアリスティックな結果は、すべて、下にある幾何学的対応と、外観マップ、既知の照明でレンダリングされた既知のカメラ視点を持っています。この「グラウンド・トゥルース」情報は、モノキュラー、3D顔再構成、顔認識、シーン理解などのダウンストリーム・アプリケーションの訓練に不可欠です。したがって、各レンダリング結果は、データ・サンプルと見なすことができ、さまざまな個人の多くのバリエーションを生成できます。 ‘

‘さらに、1人の人物を1つの表情、1つの視点、1つの照明でレンダリングする場合でも、最適化中にランダム化シードを変更することで、写真レアリスティックなレンダリングのランダムなバリエーションを生成できます。’

研究者は、この出力の構成可能な多様性は、顔認識アプリケーションの訓練に役立つ可能性があると指摘しています。彼らは以下のように結論付けています：

‘[私たちの] 方法は、現在の技術を利用して、顔の皮膚のキャプチャ、モデリング、レンダリングを自動的に行い、望ましいアイデンティティ、表情、シーン構成に一致する完全な写真レアリスティックな顔レンダリングを作成できます。このアプローチは、映画やエンターテインメントのための顔レンダリングに適用でき、手作業によるアーティストの労力を節約できます。さらに、さまざまなディープラーニング分野でのデータ生成にも適用できます。’

新しいアプローチの詳細については、今日公開された10分間のビデオをご覧ください：