Sudut Anderson
Menggunakan AI untuk Mensimulasikan Film Grain

Make America Grainy Again: sebuah alat AI baru dapat menghilangkan film grain dari footage lama, mengompresi video menjadi sebagian kecil dari ukuran aslinya, lalu mengembalikan grain sehingga pemirsa tidak menyadari perbedaannya. Ini bekerja dengan standar video yang ada dan memotong bandwidth hingga 90 persen, sambil menjaga tampilan vintage.
Bagi banyak dari kita yang menonton film atau acara TV lama, ‘sizzle’ dari film grain sangat meyakinkan; bahkan ketika kita tidak secara sadar menyadari hal itu, grain memberitahu kita bahwa apa yang kita tonton dibuat dengan bahan kimia, bukan kode, dan mengikat pengalaman ke dunia fisik: ke pilihan stok, eksposur, proses lab, dan era yang telah berlalu:

Pendekatan Hollywood terhadap grain telah bergeser seiring dengan perubahan budaya dan metode produksi. Pada tahun 1960-an, kamera stok yang berkembang dan praktik fotografi menyumbang pada identitas visual dekade tersebut. Kemudian, sutradara yang bekerja dalam digital mulai mengenalkan kembali grain secara sengaja. Pada pertengahan 1980-an, sutradara James Cameron memilih stok Kodak yang sangat kasar untuk Aliens (1986, kanan bawah pada gambar di atas), kemungkinan untuk meningkatkan atmosfer serta membantu menyembunyikan kabel dari pekerjaan VFX miniatur yang praktis. Sumber: https://archive.is/3ZSjN (artikel terbaru saya pada topik ini)
Tekstur analog berasal dari masa ketika produksi media membutuhkan biaya nyata, akses terbatas, dan setidaknya ada kesadaran bahwa hanya mereka yang paling mampu atau bertekad yang bisa melakukannya, bertindak sebagai singkatan untuk realisme, dan kredibilitas – dan, ketika teknologi pengambilan resolusi tinggi menghilangkannya, nostalgia.
Christopher Nolan tidak pernah beralih. Sementara sebagian besar industri mengadopsi digital karena kecepatan dan fleksibilitasnya, sutradara terkenal itu mempertahankan celluloid sebagai disiplin dan estetika.
Denis Villeneuve, bekerja dalam pipa digital, masih memproses footage-nya melalui proses foto-kimia. Untuk Dune film, yang diambil secara digital, footage dicetak ke stok film dan kemudian dipindai kembali ke digital, semata-mata untuk atmosfer dan efek.
Grain Palsu
Penggemar film dan kualitas TV mengasosiasikan grain yang terlihat dengan resolusi tinggi, di mana bitrate (jumlah data yang dimasukkan ke dalam setiap frame) sangat tinggi sehingga bahkan detail terkecil, seperti kristal halida, dipertahankan.
Namun, jika jaringan streaming benar-benar membuat bitrate tersebut tersedia, itu akan menimbulkan beban berat pada kapasitas jaringan, dan kemungkinan akan menyebabkan buffering dan stuttering. Oleh karena itu, platform seperti Netflix membuat versi AV1 yang dioptimalkan dari konten mereka dan menggunakan kemampuan AV1 untuk menambahkan grain ke film atau episode dengan cara yang cerdas dan tepat, menghemat 30% bandwidth dalam prosesnya.

AV1 dirancang untuk menggabungkan grain film buatan, seperti dalam contoh ini. Sumber: https://waveletbeam.com/index.php/av1-film-grain-synthesis
‘Grain fetish’ adalah tren digital yang relatif jarang, setara dengan tren atavistik seperti kebangkitan kembali vinil, dan sulit untuk mengatakan apakah itu digunakan oleh streamer untuk membuat video yang sangat dioptimalkan terlihat seperti ‘raw video’ yang sangat mahal (untuk pemirsa yang telah mengasosiasikan karakteristik tersebut secara tidak sadar), membuat bitrate tampak lebih tinggi dari yang sebenarnya; atau untuk mengalihkan penurunan kualitas persepsi yang akan dialami oleh acara lama 4:3 ketika penyedia streaming memotongnya ke rasio aspek layar lebar; atau hanya untuk memanjakan estetika ‘Nolan’ retro secara umum.
Grain Siloed
Masalahnya adalah grain juga merupakan noise. Sistem digital membenci noise, dan codec streaming seperti AV1 menghilangkannya untuk menghemat bandwidth, kecuali jika pengaturan grain secara eksplisit dikonfigurasi. Demikian pula AI upscaler seperti seri Topaz Gigapixel mengobati grain sebagai kesalahan yang perlu diperbaiki.
Dalam bidang sintesis gambar berbasis difusi, grain sangat sulit untuk dibuat, karena itu mewakili detail ekstrem, dan biasanya hanya muncul dalam model yang sangat overfitted, karena arsitektur model difusi laten (LDM) dirancang untuk menghancurkan noise (seperti grain) menjadi gambar yang jelas, bukan mengobati grain sebagai properti implisit dalam media.
Oleh karena itu, sulit untuk membuat grain yang meyakinkan menggunakan pembelajaran mesin. Dan bahkan jika seseorang bisa melakukannya, merendernya kembali ke dalam video yang dioptimalkan hanya akan membuat ukuran file video membengkak kembali.
Karena pertimbangan logistik ini, codec video mutakhir seperti Versatile Video Coding (VVC) menawarkan grain sebagai layanan ‘sidecar’.
VVC mengompresi video yang bersih dan menghilangkan grain. Sebagai gantinya, VVC menganalisis grain secara terpisah dan mengkodekan satu set parameter (misalnya amplitudo, frekuensi, dan mode pencampuran) yang menjelaskan bagaimana meregenerasi grain yang serupa selama pemutaran.
Parameter ini disimpan dalam FGC-SEI (Film Grain Characteristics Supplemental Enhancement Information) stream, yang berjalan bersama dengan bit-stream utama. Setelah decoding, modul sintesis menggunakan instruksi ini untuk mengembalikan grain sintetis yang meniru aslinya.
Ini mempertahankan ‘tampilan’ dari bitrate tinggi, kaya grain, sementara menjaga bitrate yang sebenarnya rendah, karena encoder tidak terpaksa menghabiskan sumber daya untuk mempertahankan pola noise yang tidak terduga.
Selain itu, seperti halnya file subtitle diskrit, ‘grain’ palsu ini khusus untuk video yang bersangkutan; menerapkan filter grain generik secara sembarangan di platform seperti Photoshop atau After Effects, atau di pipeline pemrosesan otomatis, tidak akan menghasilkan ‘grain’ yang sesuai, tetapi malah lapisan noise yang tidak terkait:

Kiri: gambar asli. Tengah: Grain Camera Raw Photoshop diterapkan secara seragam di semua saluran. Kanan: filter Grain yang sama diterapkan secara individual pada setiap saluran secara berurutan. Sumber gambar (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (melalui artikel saya sebelumnya)
Filter ‘Grain’ Photoshop menambahkan noise acak seragam; tetapi grain film asli berasal dari kristal halida dengan ukuran yang bervariasi. Menerapkan filter ke setiap saluran secara terpisah (lihat gambar di atas) hanya menciptakan kekacauan, bukan realisme. Grain film asli mencerminkan bagaimana cahaya mengenai lapisan emulsi saat eksposur. Mensimulasikan itu akan memerlukan estimasi tentang bagaimana area yang berbeda dari sebuah gambar akan mengaktifkan setiap lapisan halida, bukan hanya membagi efek di seluruh lapisan RGB.
FGA-NN
Dalam upaya yang spekulatif ini, sebuah makalah penelitian baru dari Prancis – sebuah outing singkat tapi menarik yang menawarkan metode yang lebih unggul secara kuantitatif dan kualitatif untuk menganalisis dan merekreasikan grain:

Perbandingan antara grain asli dan hasil dari berbagai metode analisis dan sintesis. Sumber: https://arxiv.org/pdf/2506.14350
Sistem baru, yang berjudul FGA-NN, tidak berbeda dari penggunaan konvensional sintesis grain Gaussian melalui metode VVC yang kompatibel, Versatile Film Grain Synthesis (VFGS). Yang berubah adalah analisis, menggunakan jaringan saraf untuk memperkirakan parameter sintesis dengan lebih akurat
Oleh karena itu, grain akhir masih disintesis menggunakan model Gaussian konvensional – tetapi jaringan memberikan metadata yang lebih baik ke generator berbasis aturan, mendapatkan model mutakhir.
Makalah baru ini berjudul FGA-NN: Film Grain Analysis Neural Network, dan berasal dari tiga peneliti di InterDigital R&D, Cesson-Sévigné. Meskipun makalah ini tidak panjang, mari kita lihat beberapa aspek utama dari kemajuan yang ditawarkan oleh metode baru ini.
Metode
Untuk mengingatkan: sistem FGA-NN mengambil video yang berisi grain sebagai input dan mengekstrak deskripsi kompak dari grain, mengeluarkan parameter dalam format FGC-SEI yang distandarisasi yang digunakan oleh codec modern yang beragam. Parameter ini ditransmisikan bersama dengan video, memungkinkan decoder untuk merekonstruksi grain menggunakan VFGS, bukan mengkodekan grain secara langsung.

Skema untuk menganalisis dan mengembalikan film grain dalam distribusi video, menggunakan FGA-NN untuk ekstraksi parameter dan VFGS untuk sintesis.
Untuk melatih jaringan, penulis memerlukan pasangan video yang berisi grain dan metadata FGC-SEI yang sesuai. Karena sebagian besar footage yang berisi grain tidak memiliki metadata semacam itu, peneliti membuat dataset mereka sendiri dengan menghasilkan parameter FGC-SEI, menerapkan grain sintetis ke video yang bersih, dan menggunakan ini sebagai contoh pelatihan.
Data pelatihan untuk FGA-NN dibuat dengan menerapkan grain sintetis ke footage yang bersih dari dataset BVI-DVC dan DIV2K. Parameter FGC-SEI yang diacak dibuat dan digunakan dengan alat sintesis VFGS, memungkinkan setiap video yang berisi grain untuk dipasangkan dengan metadata yang diketahui.

Ikhtisar dari parameter FGC-SEI yang diacak yang digunakan untuk menghasilkan grain sintetis untuk pelatihan, diterapkan ke footage yang bersih dari dataset BVI-DVC dan DIV2K. Parameter dibatasi untuk memastikan hasil visual yang masuk akal di seluruh saluran luma dan chroma.
Model penyaringan frekuensi, satu-satunya metode sintesis yang saat ini didukung dalam implementasi codec seperti VVC Test Model (VTM), digunakan sepanjang waktu. Parameter dibatasi untuk mempertahankan hasil visual yang masuk akal di seluruh saluran luma dan chroma.
Efek Jaringan
FGA-NN memiliki dua model yang terkordinasi, untuk luma dan chroma, masing-masing dirancang untuk memprediksi parameter spesifik yang diperlukan untuk merekreasikan grain film yang realistis.
Untuk setiap input gambar, sistem memperkirakan satu set interval intensitas, faktor skala yang terkait dengan setiap interval, frekuensi cut-off horizontal dan vertikal, dan penyesuaian skala secara keseluruhan yang dikenal sebagai faktor Log2Scale. Untuk menangani ini, model menggunakan ekstraktor fitur yang dibagikan yang memproses input yang berisi grain dan memberikan input ke empat cabang output yang terpisah, masing-masing bertanggung jawab untuk tugas prediksi yang berbeda:

Arsitektur versi luma dari FGA-NN. Sebuah backbone yang dibagikan mengekstrak fitur dari input yang berisi grain, diikuti oleh empat cabang output yang disesuaikan dengan tugas prediksi parameter yang spesifik: batas interval, faktor skala, frekuensi cut-off, dan penyesuaian skala global Log2Scale. Jaringan chroma menggunakan struktur yang sama dengan dimensi input dan output yang disesuaikan.
Batas interval diprediksi menggunakan regresi, sedangkan faktor skala, frekuensi cut-off, dan penyesuaian skala global diperlakukan sebagai masalah klasifikasi.
Arsitektur disesuaikan untuk mencerminkan kompleksitas setiap tugas, dengan lapisan internal yang lebih besar digunakan untuk prediksi yang lebih halus; khususnya, model chroma mencerminkan struktur luma, tetapi disesuaikan dengan karakteristik data warna.
Pelatihan dan Pengujian
FGA-NN dilatih menggunakan empat fungsi objek, masing-masing sejalan dengan salah satu tugas prediksinya. Untuk output klasifikasi, kerugian entropi silang kategoris digunakan untuk mengurangi kesenjangan antara label yang diprediksi dan label sebenarnya.
Batas interval dinormalisasi ke rentang 0-1 dan dioptimalkan menggunakan kerugian yang digabungkan: kerugian L1 yang diperbesar secara eksponensial (expL1) yang menghukum kesalahan yang lebih besar lebih berat, dan hukuman monotonisitas yang mencegah tren menurun. Semua keempat kerugian digabungkan, dengan bobot yang tinggi diberikan pada faktor skala dan frekuensi cut-off, sedangkan batas interval dan Log2Scale diberi bobot 1 dan 0,1.
Pelatihan dilakukan di bawah optimizer Adam, pada tingkat pembelajaran 5e-4, selama 10.000 iterasi, dengan ukuran batch 64.
Alat yang paling sesuai untuk pengujian perbandingan adalah FGA-CONVENT, yang juga menghasilkan nilai dalam format FGC-SEI, dan digunakan untuk pengolahan grain. Kedua sistem diuji pada urutan UHD dari set evaluasi subjektif JVET, menggunakan footage yang mengandung grain film asli.

Garis vertikal yang putus-putus menunjukkan batas interval intensitas, sedangkan gain Log2Scale dicatat pada label sumbu.
Dalam gambar di atas, kita dapat melihat bingkai yang identik dihasilkan oleh VFGS menggunakan parameter dari setiap metode, dibandingkan dengan aslinya. Perkiraan luma mereka juga digambarkan terhadap nilai sebenarnya yang ditetapkan secara manual menggunakan VFGS, yang menggambarkan intensitas piksel pada sumbu X (0–255), faktor skala pada sumbu Y biru (0–255), dan frekuensi cut-off pada sumbu Y hijau (2–14).
Para penulis menyatakan:
‘Satu dapat mengamati bahwa FGA-NN secara akurat menangkap tren keseluruhan pola grain film dan amplitudo, menghasilkan gambar yang disintesis dengan grain film yang secara perseptual mirip dengan yang asli.
‘Di sisi lain, FGA-CONVENT memprediksi faktor skala yang lebih rendah, dikompensasikan oleh faktor Log2Scale yang lebih rendah sebagai hasil dari desainnya, dan cenderung menghasilkan pola grain film yang lebih kasar daripada referensi, menghasilkan penampilan yang berbeda namun secara visual konsisten.’
Mereka mencatat bahwa perbandingan langsung dengan parameter grain sebenarnya tidak dapat diandalkan, karena skala dan Log2Scale dapat saling mengkompensasi, dan kesalahan kecil sering memiliki dampak visual yang kecil.
Ujian Iman
Kesetiaan grain film diuji melintasi empat alur kerja: FGA-NN dengan VFGS; FGA-CONVENT plus VFGS; Style-FG; dan 3R-INN. Pengujian menggunakan kedua dataset FGC-SEI dan FilmGrainStyle740k, membandingkan output dengan sebenarnya menggunakan Learned Perceptual Similarity Metrics (LPIPS); JSD-NSS; dan Kullback–Leibler (KL) divergensi.

Hasil benchmark pada dataset FilmGrainStyle740k. Style-FG dan 3R-INN outperform yang lain karena dilatih pada set ini, dengan FGA-NN mengikuti dari dekat. FGA-CONVENT underperforms, mencerminkan ketergantungannya pada analisis multi-frame dan wilayah homogen – kondisi yang tidak dipenuhi oleh input kecil yang kaya tekstur yang digunakan dalam kasus ini.
Dari hasil ini, para penulis menyatakan:
‘Pada dataset FilmGrainStyle740k, Style-FG dan 3R-INN mencapai hasil terbaik, karena metode ini secara khusus dilatih pada dataset ini, dengan FGA-NN mengikuti dari dekat. Kinerja FGA-CONVENT yang digabungkan dengan VFGS adalah suboptimal pada kedua set pengujian.
‘Hal ini semata-mata karena analisis tersebut bergantung pada wilayah homogen dan memanfaatkan informasi dari beberapa frame dalam kasus penggunaan analisis grain film yang sebenarnya, sedangkan dalam evaluasi ini analisis diberikan dengan satu gambar beresolusi rendah (256×256 hingga maksimal 768×512), yang sering mengandung tekstur yang signifikan.
‘Hal ini lebih mempersulit tantangan bagi metode analisis konvensional, membuatnya mustahil untuk menerapkan FGA-CONVENT pada gambar-gambar kecil seperti itu.’
Akhirnya, para penulis mencatat bahwa meskipun metode berbasis pembelajaran seperti 3R-INN dan Style-FG menghasilkan hasil visual yang kuat pada dataset yang dikurasi, biaya komputasi yang tinggi membuatnya tidak cocok untuk penerapan pada perangkat pengguna akhir.

Perbandingan bingkai dengan bitrate rendah yang ditingkatkan menggunakan alur kerja analisis dan sintesis yang berbeda (kolom ketiga hingga terakhir).
Dibandingkan dengan itu, pendekatan yang diusulkan dalam makalah baru ini menggabungkan modul analisis FGA-NN yang ringan dengan metode sintesis VFGS yang efisien perangkat keras, yang para penulis deskripsikan sebagai solusi yang lebih layak dan dapat diterapkan untuk mengembalikan grain film dalam video yang dikompresi.
Mereka menyatakan lebih lanjut bahwa manfaat FGA-NN berpotensi sangat besar, pada skala besar:
‘[Mengkode] video UHD dengan grain film pada bitrate menengah hingga rendah menggunakan alur kerja analisis dan sintesis grain film kami memungkinkan penghematan bitrate hingga 90% dibandingkan dengan pengkodean bitrate tinggi.’
Kesimpulan
Obsesi dengan grain film adalah salah satu konsep paling aneh dan paling menarik dari era pasca-analog, dan menarik untuk dicatat bahwa apa yang dulunya dianggap sebagai keterbatasan medium telah menjadi simbol keaslian dan otentisitas itu sendiri, bahkan (mungkin secara tidak sadar) bagi generasi baru pemirsa yang lahir setelah kemunduran emulsi.
Perlu dicatat bahwa tidak ada metode rekreasi grain mutakhir, termasuk inovasi terbaru ini, dapat menangkap efek sebenarnya dari cara cahaya mempengaruhi lapisan halida dalam proses foto-kimia yang sebenarnya, di seluruh kondisi.
Pertama kali diterbitkan pada hari Rabu, 18 Juni 2025












