Unghiul lui Anderson

Utilizarea inteligenței artificiale pentru a simula granulația filmului

Published June 18, 2025

Updated April 26, 2026

Martin Anderson

Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

Fă-o din nou granulosă în America: un nou instrument AI poate extrage granulația filmului din vechile înregistrări, comprima videoul la o fracțiune din dimensiune, apoi pune granulația înapoi, astfel încât spectatorii să nu observe niciodată. Funcționează cu standardele video existente și reduce lățimea de bandă cu până la 90 la sută, păstrând în același timp aspectul vintage.

Pentru mulți dintre noi, care urmărim filme sau emisiuni TV vechi, “sizzlingul” granulației filmului este liniștitor; chiar și atunci când nu conștientizăm acest lucru, granulația ne spune că ceea ce urmărim a fost realizat cu substanțe chimice, nu cu cod, și leagă experiența de lumea fizică: de alegerea stocului, expunere, procese de laborator și epoci trecute:

Abordarea Hollywood-ului față de granulație s-a schimbat odată cu modificările culturale și metodele de producție. În anii 1960, evoluția stocurilor de camere și practicilor fotografice a contribuit la identitatea vizuală distinctă a deceniului. Mai târziu, regizorii care lucrau în digital au reintrodus intenționat granulația. La mijlocul anilor 1980, regizorul James Cameron a selectat un stoc Kodak particular de gros pentru filmul Aliens (1986, în partea de jos a imaginii de mai sus), probabil pentru a îmbunătăți atmosfera și, de asemenea, pentru a ascunde firele de la lucrările de efecte vizuale practice. Sursă: https://archive.is/3ZSjN (ultimul meu articol pe această temă)

Textura analogică provine dintr-o perioadă în care producerea de conținut media costa bani reali, accesul era limitat, și exista cel puțin o idee vagă că doar cei mai capabili sau hotărâți puteau reuși, servind ca o prescurtare pentru realism și credibilitate – și, atunci când tehnologiile de captură de înaltă rezoluție au eliminat-o, nostalgie.

Christopher Nolan nu a schimbat. În timp ce cea mai mare parte a industriei a adoptat digitalul pentru viteza și flexibilitatea sa, regizorul aclamat s-a încăpățânat, insistând pe celuloid atât ca disciplină, cât și ca estetică.

Denis Villeneuve, care lucrează în cadrul unor fluxuri de lucru digitale, încă parcurge imaginile sale prin procese fotochimice. Pentru filmele Dune, filmate digital, imaginile au fost tipărite pe stocuri de film și apoi scaneate înapoi în digital, pur și simplu pentru atmosferă și efect.

Granulație falsă

Adepții calității filmului și a TV asociază granulația vizibilă cu rezoluție înaltă, unde debitul (cantitatea de date introduse în fiecare cadru) este atât de ridicat încât chiar și cele mai mici detalii, cum ar fi granulațiile halide, sunt păstrate.

Cu toate acestea, dacă rețelele de streaming ar face disponibilă o astfel de rată de debit, ar pune o presiune severă asupra capacității rețelei și ar putea provoca bufferizare și întrerupere. Prin urmare, platforme precum Netflix creează versiuni AV1 optimizate ale conținutului lor și utilizează capacitățile codec-ului AV1 pentru a adăuga granulație la film sau episod într-un mod inteligent și potrivit, economisind 30% din lățimea de bandă în acest proces.

AV1 este proiectat pentru a incorpora granulație de film artificială, așa cum se arată în aceste exemple. Sursă: https://waveletbeam.com/index.php/av1-film-grain-synthesis

“Fetishul granulației” este un echivalent digital relativ rar al tendințelor atavice, cum ar fi renașterea vinilului, și este greu de spus dacă este utilizat de streameri pentru a face videourile foarte optimizate să arate ca “video brut” foarte scump (pentru cei care au asociat inconștient aceste caracteristici), făcând ca debitul să pară mai mare decât este; sau pentru a devia scăderea calității perceptive pe care ar lua-o emisiunile vechi de 4:3 atunci când furnizorii de streaming le recadrează la raportul de aspect larg; sau pur și simplu pentru a se conforma esteticii “Nolan” retro:

Granulație izolată

Problema este că granulația este, de asemenea, zgomot. Sistemele digitale urăsc zgomotul și codec-urile de streaming, cum ar fi AV1, le curăță pentru a economisi lățime de bandă, cu excepția cazului în care setările de granulație sunt configurate explicit. De asemenea, îmbunătățitorii AI cum ar fi seria Topaz Gigapixel tratează granulația ca o eroare care trebuie corectată.

În domeniul sintezei de imagini bazate pe difuzie, granulația este extrem de dificil de generat, deoarece reprezintă detalii extreme, și, prin urmare, ar apărea de obicei doar în modele supraînvățate, deoarece întreaga arhitectură a modelului de difuzie latentă (LDM) este proiectată pentru a deconstrui zgomotul (cum ar fi granulația) în imagini clare, și nu pentru a trata granulația ca proprietăți implicite în media.

Prin urmare, poate fi dificil să se creeze o granulație convingătoare utilizând învățarea automată. Și chiar dacă ar fi posibil, randarea acesteia direct într-un videoclip optimizat ar umfla din nou dimensiunea fișierului videoclipului.

Din cauza acestei considerații logistice, codec-urile video de ultimă generație, cum ar fi Versatile Video Coding (VVC) oferă granulație ca un fel de “serviciu de transport”.

VVC comprimă videoclipul curat, fără granulație, și aruncă granulația. În loc de a irosi date pentru a păstra modelele de granulație de înaltă frecvență imprevizibile, analizează granulația separat și codifică un set mic de parametri (de exemplu, amplitudine, frecvență și mod de amestecare) care descriu cum să regenerați o granulație similară în timpul redării.

Acești parametri sunt stocați într-un flux FGC-SEI (Supliment de caracteristici de granulație de film), care însoțește fluxul principal. După decodare, un modul de sinteză utilizează aceste instrucțiuni pentru a reaplica o granulație sintetică care imită granulația originală.

Acest lucru păstrează “aspectul” de înaltă calitate, bogat în granulație, în timp ce menține bitrate-ul real scăzut, deoarece encoder-ul nu este forțat să cheltuiască resurse pentru a păstra zgomotul imprevizibil.

În plus, așa cum se întâmplă cu fișierele de subtitluri discrete, acest conținut “de granulație” este specific videoclipului în cauză; aplicarea haotică a filtrelor de granulație generice în platforme precum Photoshop sau After Effects, sau în fluxuri de procesare automate, nu ar rezulta într-o “granulație potrivită”, ci mai degrabă într-un strat de zgomot neconectat:

Stânga: imaginea originală. Centru: filtrul de granulație Camera Raw aplicat uniform pe toate canalele. Dreapta: același filtru de granulație aplicat individual pe fiecare canal, în secvență. Sursă imagine (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (prin intermediul articolului meu anterior)

Filtrul “Granulație” din Photoshop adaugă zgomot aleator uniform; dar granulația filmului real provine de la cristale de halide de mărimi variabile. Aplicarea filtrului pe fiecare canal separat (a se vedea imaginea de mai sus) creează doar mai mult haos, nu realism. Granulația filmului real reflectă modul în care lumina lovește straturi de emulsii în momentul expunerii. Simularea acestui lucru ar necesita estimarea modului în care diferitele părți ale unei imagini ar fi activat fiecare strat de halide, și nu doar împărțirea efectului pe straturi RGB.

FGA-NN

În această căutare suspectă vine un nou articol de cercetare din Franța – o ieșire scurtă, dar interesantă, care oferă o metodă cantitativ și calitativ superioară de analiză și recreare a granulației:

Comparație între granulația reală și rezultatele obținute prin diverse metode de analiză și sinteză. Sursă: https://arxiv.org/pdf/2506.14350

Noul sistem, intitulat FGA-NN, nu se abate de la utilizarea convențională a sintezei de granulație bazate pe Gaussian prin metoda standard, compatibilă cu VVC, Versatile Film Grain Synthesis (VFGS). Ceea ce schimbă sistemul este analiza, utilizând o rețea neuronală pentru a estima parametrii de sinteză cu mai mare acuratețe.

Prin urmare, granulația finală este încă sintetizată utilizând același model Gaussian convențional – dar rețeaua alimentează metadate mai bune într-un generator bazat pe reguli standard, obținând un model de ultimă generație.

Noul articol se intitulează FGA-NN: Rețea Neuronală de Analiză a Granulației de Film și provine de la trei cercetători de la InterDigital R&D, Cesson-Sévigné. Deși articolul nu este lung, să aruncăm o privire asupra unor aspecte cheie ale progreselor oferite de noua metodă.

Metodă

Pentru a rezuma: sistemul FGA-NN ia un videoclip cu granulație ca intrare și extrage o descriere compactă a granulației, generând parametri în formatul standardizat FGC-SEI utilizat de codec-uri moderne. Acești parametri sunt transmiși alături de videoclip, permițând decodificatorului să reconstituie granulația utilizând VFGS, în loc de a codifica direct granulația.

Schema pentru analizarea și reaplicarea granulației de film în distribuția de videoclipuri, utilizând FGA-NN pentru extragerea parametrilor și VFGS pentru sinteză.

Pentru a antrena rețeaua, autorii au necesitat perechi de videoclipuri cu granulație și metadate FGC-SEI corespunzătoare. Deoarece cea mai mare parte a înregistrărilor cu granulație lipsește de acest tip de metadate, cercetătorii și-au creat propriul set de date prin generarea de parametri FGC-SEI, aplicarea de granulație sintetică la videoclipuri curate și utilizarea acestora ca exemple de antrenament.

Datele de antrenament pentru FGA-NN au fost create prin aplicarea de granulație sintetică la videoclipuri curate din seturile de date BVI-DVC și DIV2K. Parametri FGC-SEI au fost generați random și utilizați împreună cu instrumentul de sinteză VFGS, permițând fiecărui videoclip cu granulație să fie asociat cu metadate cunoscute.

Modelul bazat pe frecvență, susținut de standardele video actuale, a fost utilizat, cu game de parametri limitate pentru a menține plauzibilitatea vizuală pe canalele luma și croma.

Datele de antrenament pentru noua colecție au fost create prin aplicarea de granulație sintetică la videoclipuri curate din seturile de date BVI-DVC și DIV2K. Parametri FGC-SEI au fost generați random și utilizați împreună cu instrumentul de sinteză VFGS, permițând fiecărui videoclip cu granulație să fie asociat cu metadate cunoscute.

Prezentare generală a gamei de parametri FGC-SEI randomizați utilizați pentru generarea de granulație sintetică pentru antrenament, aplicată la videoclipuri curate din seturile de date BVI-DVC și DIV2K. Parametrii au fost limitați pentru a asigura rezultate vizuale plauzibile pe ambele canale luma și croma.

Modelul de filtrare pe frecvență, singura metodă de sinteză curent susținută în implementări de codec, cum ar fi Modelul de test VVC (VTM), a fost utilizat pe tot parcursul. Gamele de parametri au fost limitate pentru a păstra plauzibilitatea vizuală pe ambele canale luma și croma.

Efectul rețelei

FGA-NN prezintă două modele coordonate, pentru luma și croma, respectiv, fiecare proiectat pentru a prezice parametrii specifici necesari pentru a recrea o granulație realistă de film.

Pentru fiecare imagine de intrare, sistemul estimează un set de intervale de intensitate, factorii de scalare legați de fiecare interval, frecvențele de tăiere orizontale și verticale și o ajustare generală de scară numită factorul Log2Scale. Pentru a gestiona acest lucru, modelul utilizează un extractor de caracteristici comun care prelucrează intrarea cu granulație și se conectează la patru ramuri de ieșire separate, fiecare responsabilă de o sarcină de predicție specifică:

Arhitectura versiunii luma a FGA-NN. Un spate comun extrage caracteristici din cadrul de intrare cu granulație, urmat de patru ramuri de ieșire specializate pentru sarcini de predicție specifice: limite de interval, factori de scalare, frecvențe de tăiere și ajustare globală Log2Scale. Rețeaua croma utilizează aceeași structură, cu dimensiuni de intrare și ieșire ajustate.

Limitele de interval sunt prezise utilizând regresie, în timp ce factorii de scalare, frecvențele de tăiere și setarea globală de scară sunt tratate ca probleme de clasificare.

Arhitectura este ajustată pentru a reflecta complexitatea fiecărei sarcini, cu straturi interne mai mari utilizate pentru predicții mai fine; în special, modelul croma oglindește structura luma, dar se adaptează la caracteristicile diferite ale datelor de culoare.

Antrenament și teste

FGA-NN a fost antrenat utilizând patru funcții obiectiv, fiecare aliniat cu una dintre sarcinile sale de predicție. Pentru ieșirile de clasificare, o pierdere de entropie cruză cruză a fost utilizată pentru a reduce decalajul dintre etichetele prezise și valorile reale.

Limitele de interval au fost normalizate la o gamă de la 0 la 1 și optimizate utilizând o pierdere combinată: o pierdere L1 exponențială (expL1) care penaliza erorile mai mari mai puternic, și o penalitate de monotonie care a descurajat tendințele descendente. Toate cele patru pierderi au fost combinate, cu greutăți mari atribuite factorilor de tăiere și de scalare, în timp ce limitele de interval și Log2Scale au fost ponderate la 1 și 0,1.

Antrenamentul a fost efectuat sub optimizerul Adam, la o rată de învățare de 5e-4, pe parcursul a 10.000 de iterații, cu o dimensiune a lotului de 64.

Singurul instrument comparabil potrivit pentru teste a fost FGA-CONVENT, care produce, de asemenea, valori în formatul FGC-SEI, și este utilizat pentru prelucrarea granulației. Ambele sisteme au fost testate pe secvențe UHD din setul de evaluare subiectivă JVET, utilizând imagini care conțin granulație de film reală.

Linii verticale întrerupte indică limitele de interval, în timp ce câștigul Log2Scale este notat în eticheta axei.

În imaginea de mai sus, vedem cadre decupate identice generate de VFGS utilizând parametrii de la fiecare metodă, comparate cu originalele. Estimările lor luma sunt, de asemenea, reprezentate grafic împotriva valorilor reale stabilite manual utilizând VFGS, care aici reprezintă intensitatea pixelului pe axa X (0–255), factorii de scalare pe axa Y albastră (0–255) și frecvențele de tăiere pe axa Y verde (2–14).

Autorii afirmă:

‘Se poate observa că FGA-NN captează cu acuratețe tendința generală a modelului de granulație de film și a amplitudinii, rezultând imagini sintetizate cu granulație de film perceptual similară cu cea a imaginilor reale.

‘Pe de altă parte, FGA-CONVENT prezice un factor de scalare mai mic, compensat de un factor Log2Scale corespunzător mai mic ca urmare a proiectării sale, și are tendința de a genera un model de granulație de film mai grosier decât cel de referință, rezultând într-un aspect distinct, dar vizual consistent.’

Ei notează că comparația directă cu parametrii de granulație reali este nerelevantă, deoarece scalarea și Log2Scale pot compensa una pe alta, și erorile minore au adesea un impact vizual minor.

Test de credință

Fidelitatea granulației de film a fost testată pe patru fluxuri de lucru: FGA-NN cu VFGS; FGA-CONVENT plus VFGS; Style-FG; și 3R-INN. Testele au utilizat atât seturile de date FGC-SEI, cât și FilmGrainStyle740k, comparând ieșirile cu valorile reale utilizând Metrici de similaritate perceptuală învățate (LPIPS); JSD-NSS; și divergență Kullback–Leibler (KL).

Rezultatele benchmark-ului pe setul de date FilmGrainStyle740k. Style-FG și 3R-INN depășesc celelalte, datorită faptului că au fost antrenate pe acest set, cu FGA-NN urmând îndeaproape. FGA-CONVENT subperformează, reflectând dependența sa de analiza multi-cadru și regiunile omogene – condiții care nu sunt îndeplinite de intrările mici și texturate utilizate în acest caz.

Dintre aceste rezultate, autorii afirmă:

‘Pe setul de test FilmGrainStyle740k, Style-FG și 3R-INN obțin cele mai bune rezultate, deoarece aceste metode au fost special antrenate pe acest set de date, cu FGA-NN urmând îndeaproape. Performanța FGA-CONVENT combinată cu VFGS este suboptimală pe ambele seturi de test.

‘Acest lucru se datorează faptului că analiza se bazează pe regiuni omogene și exploatează informații din multiple cadre într-un caz real de analiză a granulației de film, în timp ce în evaluarea prezentă analiza este furnizată cu o singură imagine de joasă rezoluție (256×256 până la 768×512), care conține adesea textură semnificativă.

‘Acest lucru complică și mai mult provocarea pentru metoda convențională de analiză, făcând imposibilă aplicarea FGA-CONVENT asupra unor astfel de imagini mici.’

În cele din urmă, autorii notează că, deși metodele bazate pe învățare, cum ar fi 3R-INN și Style-FG, produc rezultate vizuale puternice pe seturi de date curate, costul lor computațional ridicat le face nepotrivite pentru implementarea pe dispozitive finale.

Comparație a cadrului de joasă calitate îmbunătățit utilizând diferite fluxuri de lucru de analiză și sinteză (coloanele a treia și a patra de la sfârșit).

Prin comparație, abordarea propusă în noul articol combină modulul de analiză ușor FGA-NN cu metoda de sinteză eficientă din punct de vedere al hardware-ului VFGS, pe care autorii o descriu ca o soluție mai viabilă și mai ușor de implementat pentru reintroducerea granulației de film în videoclipurile comprimate.

Ei afirmă, în continuare, că beneficiile FGA-NN sunt considerabile, la scară largă:

‘[Codificarea] videoclipurilor UHD cu granulație de film la debite medii sau joase, utilizând fluxul nostru de lucru de analiză și sinteză a granulației de film, permite economii de bitrate de până la 90% comparativ cu codificarea la înaltă calitate.’

Concluzie

Obsesia pentru granulația de film este una dintre cele mai ciudate și mai curioase concepții ale epocii post-analog, și este interesant de remarcat că ceea ce a fost odată considerat o limitare a mediului a devenit acum un simbol al veridicității și autenticității în sine, chiar și (poate subconștient) pentru o nouă generație de spectatori născuți după declinul efectiv al emulsiunii.

Ar trebui să se remarce că niciuna dintre metodele actuale de ultimă generație de recreare a granulației, inclusiv această inovație recentă, nu poate captura exact efectul real al modului în care lumina afectează straturile de halide într-un proces fotochimic adevărat, pe o gamă de condiții.

Publicat pentru prima dată miercuri, 18 iunie 2025