Andersonの視点
AIでフィルムグレインをシミュレートする

『メイク・アメリカ・グレイニー・アゲイン』:新しいAIツールは、古い映像からフィルムグレインを除去し、サイズを大幅に圧縮した後、視聴者が気づかないようにグレインを戻す。既存のビデオ規格で動作し、ビンテージの質感を保ちながら帯域幅を最大90%削減する。 多くの人々にとって、映画や古いテレビ番組を見るときのフィルムグレインの「ザラつき」は安心感を与えるものだ。意識的に認識していなくても、グレインは私たちが見ているものがコードではなく化学物質で作られたものであることを伝え、その体験を物理的世界——フィルムの選択、露出、現像所のプロセス、そして過ぎ去った時代——に結びつける。

ハリウッドにおけるグレインへのアプローチは、文化と制作手法の変化とともに移り変わってきた。1960年代には、進化するカメラ用フィルムと写真技術が、その10年間の独特な視覚的アイデンティティに貢献した。その後、デジタルで作業する監督たちが意図的にグレインを再導入し始めた。1980年代半ば、監督のジェームズ・キャメロンは『エイリアンズ』(1986年、上図右下)のために特に粗いコダックのフィルムを選んだ。これはおそらく雰囲気を高めるためであり、また実用的なVFXミニチュア作業のワイヤーを隠すのにも役立ったと考えられる。 出典: https://archive.is/3ZSjN (このトピックに関する私自身の最新記事)
アナログの質感は、メディアを制作するのに実際のお金がかかり、アクセスが限られ、少なくとも最も有能な者や決意のある者だけが通り抜けられるという緩やかな感覚があった時代に由来する。それはリアリズムと信頼性の短縮表現として機能し、そして高解像度の撮影技術がそれを排除したとき、ノスタルジアの象徴となった。 クリストファー・ノランは決して切り替えなかった。業界の大半がスピードと柔軟性のためにデジタルを受け入れる中、この高名な監督は踏みとどまり、セルロイドを規律と美学の両方として主張した。 デニ・ヴィルヌーヴは、デジタルのワークフローの中で確固として作業しながらも、撮影した映像を光化学プロセスを通して処理する。デジタル撮影された『デューン』シリーズでは、映像はフィルムにプリントされ、その後、純粋に雰囲気と効果のためにデジタルにスキャンし戻された。
偽物のグレイン
映画やテレビの画質に精通した愛好家は、目に見えるグレインを高解像度と結びつける。そこではビットレート(各フレームに押し込まれるデータ量)が非常に高く、ハロゲン化銀粒子のような最小のディテールさえ保存される。 しかし、ストリーミングサービスが実際にその種のビットレートを提供すれば、ネットワーク容量に深刻な負荷がかかり、おそらくバッファリングやカクつきを引き起こすだろう。そのため、Netflixのようなプラットフォームはコンテンツの最適化されたAV1バージョンを作成し、AV1コーデックのグレイン追加機能を利用して、映画やエピソードに知的かつ適切な方法でグレインを加え、その過程で帯域幅を30%節約している。

AV1は、これらの例のように人工的なフィルムグレインを組み込むように設計されている。 出典: https://waveletbeam.com/index.php/av1-film-grain-synthesis
「グレイン崇拝」は、レコードの復活のような隔世遺伝的トレンドに相当する比較的珍しいデジタル版の現象であり、ストリーミングサービスがこれを、高度に最適化されたビデオを本当に高価な「生のビデオ」のように見せるため(それらの特性を無意識のうちに関連付けている視聴者向けに)、ビットレートを実際より高く見せかけるために使っているのか、あるいはストリーミングプロバイダーが古い4:3の番組をワイドスクリーンのアスペクト比にクロップするときに生じる知覚的品質の低下をそらすためなのか、あるいは単に一般的なレトロな「ノラン美学」に迎合するためなのか、判断するのは難しい。
分離されたグレイン
問題は、グレインがノイズでもあることだ。デジタルシステムはノイズを嫌い、AV1のようなストリーミングコーデックは帯域幅を節約するためにそれを除去する(グレイン設定が明示的に構成されていない限り)。同様に、Topaz GigapixelシリーズのようなAIアップスケーラーは、グレインを修正すべき欠陥として扱う。 拡散ベースの画像合成の分野では、グレインは極度のディテールを表すため、生成が非常に困難である。したがって、通常は大規模に過学習したモデルにのみ現れるだろう。なぜなら、潜在拡散モデル(LDM)アーキテクチャ全体が、グレインの斑点をメディアの暗黙的特性として扱うのではなく、ノイズ(グレインなど)を明確な画像に分解するように設計されているからだ。 したがって、機械学習を使って説得力のあるグレインを作成するのは難しい場合がある。たとえできたとしても、それを最適化されたビデオに直接レンダリングすると、ビデオのファイルサイズがすぐに元に戻って膨れ上がってしまう。 この後者の実務上の考慮から、Versatile Video Coding(VVC)のような最先端のビデオコーデックは、グレインを一種の「サイドカー」サービスとして提供している。 VVCは、クリーンでノイズ除去されたビデオを圧縮し、グレインを廃棄する。ランダムな高周波グレインパターンを保存しようとしてデータを浪費する代わりに、グレインを別々に分析し、再生時に類似のグレインを再生成する方法を記述する小さなパラメータセット(例:振幅、周波数、ブレンディングモード)をエンコードする。 これらのパラメータは、FGC-SEI(Film Grain Characteristics Supplemental Enhancement Information)ストリームに格納され、メインのビットストリームに沿って送られる。デコード後、合成モジュールはこれらの指示を使用して、オリジナルを模倣した合成グレインを再適用する。 これにより、エンコーダが予測不可能なノイズを保存するためにリソースを費やすことを強制されないため、実際のビットレートを低く保ちながら、高ビットレートでグレイン豊富なエマルジョンの「見た目」が保存される。 さらに、個別の字幕ファイルと同様に、この偽の「グレイン」コンテンツは対象のビデオに固有のものである。PhotoshopやAfter Effectsのようなプラットフォーム、または自動処理パイプラインで、無作為に一般的なグレインフィルターを適用しても、「フィットした」グレインは得られず、代わりに関連性のないノイズのオーバーレイが生じる。

左: オリジナル画像。中央: Photoshop Camera Rawのグレインを全チャンネルに均一に適用。右: 同じグレインフィルターを各チャンネルに個別に順番に適用。 ソース画像 (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (私自身の以前の記事より)
Photoshopの「グレイン」フィルターは均一なランダムノイズを追加する。しかし、実際のフィルムグレインはさまざまなサイズのハロゲン化銀結晶から生じる。フィルターを各チャンネルに個別に適用すると(上図参照)、リアリズムではなく、より混沌が生まれるだけだ。真のフィルムグレインは、光が積層エマルジョンに露光の瞬間にどのように当たるかを反映している。それをシミュレートするには、画像の異なる領域が各ハロゲン化銀層をどのように活性化したかを推定する必要があり、単に効果をRGB層に分割するだけでは不十分だ。
FGA-NN
この見せかけの追求に、フランスからの新しい研究論文が登場した。簡潔だが興味深い内容で、グレインを分析し再現する、量的・質的に優れた方法を提供する。

グランドトゥルース(正解)のグレインと、様々な分析・合成手法による結果の比較。 出典: https://arxiv.org/pdf/2506.14350
と名付けられたこの新しいシステムは、標準的なVVC互換の方法であるVersatile Film Grain Synthesis(VFGS)を通じた、従来のガウシアンベースのグレイン合成の従来の使用法から逸脱していない。このシステムが変えるのは分析の部分であり、ニューラルネットワークを使用して合成パラメータをより正確に推定する。 したがって、最終的なグレインは依然として同じ従来のガウシアンモデルを使用して合成されるが、ネットワークが標準的なルールベースのジェネレーターにより良いメタデータを供給し、最先端のモデルを実現する。 新しい論文はFGA-NN: Film Grain Analysis Neural Networkと題され、InterDigital R&D, Cesson-Sévignéの3人の研究者によるものだ。論文は長くないが、この新しい手法が提供する進歩の重要な側面をいくつか見てみよう。
手法
要約すると:FGA-NNシステムは、グレインのあるビデオを入力として受け取り、グレインのコンパクトな記述を抽出し、様々な最新コーデックで使用される標準化されたFGC-SEIフォーマットでパラメータを出力する。これらのパラメータはビデオと共に送信され、デコーダーがグレインを直接エンコードするのではなく、VFGSを使用してグレインを再構築できるようにする。

FGA-NNによるパラメータ抽出とVFGSによる合成を用いた、ビデオ配信におけるフィルムグレインの分析と再適用の図式。
ネットワークを訓練するために、著者らはグレインのあるビデオと対応するFGC-SEIメタデータのペアを必要とした。ほとんどのグレインのある映像にはこの種のメタデータがないため、研究者らはFGC-SEIパラメータを生成し、クリーンなビデオに合成グレインを適用し、これらを訓練例として使用することで、独自のデータセットを作成した。 FGA-NNの訓練データは、












