Conectează-te cu noi

Unghiul lui Anderson

Utilizarea inteligenței artificiale pentru simularea granulației filmului

mm
Niveluri variabile de granulație în „Fălci” (1976) – sursa: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 și https://www.britannica.com/topic/Jaws-film-by-Spielberg

Refaceți granulația imaginilor din America: un nou instrument de inteligență artificială poate elimina granulația filmului din filmările vechi, poate comprima videoclipul la o fracțiune din dimensiune, apoi poate reda granulația astfel încât spectatorii să nu observe niciodată. Funcționează cu standardele video existente și reduce lățimea de bandă cu până la 90%, păstrând în același timp aspectul vintage.

 

Pentru mulți dintre noi, cei care urmăresc filme sau seriale TV vechi, „sfârâitul” granulației filmului este liniștitor; chiar și atunci când nu o înregistrăm în mod conștient, granulația ne spune că ceea ce urmărim a fost realizat cu substanțe chimice, nu cu cod, și leagă experiența de lumea fizică: de alegerea acțiunilor, expunere, procese de laborator și epoci trecute:

Abordarea Hollywood-ului față de granulație s-a schimbat odată cu schimbările culturale și ale metodelor de producție. În anii 1960, evoluția suporturilor de filmat și a practicilor fotografice a contribuit la identitatea vizuală distinctă a deceniului. Mai târziu, regizorii care lucrau în domeniul digital au început să reintroducă granulația în mod deliberat. La mijlocul anilor 1980, regizorul James Cameron a selectat un suport Kodak deosebit de gros pentru Aliens (1986, dreapta jos în imaginea de mai sus), probabil pentru a îmbunătăți atmosfera, ajutând în același timp la ascunderea firelor de la lucrările practice de efecte vizuale miniaturale. Sursa: https://archive.is/3ZSjN (cel mai recent articol al meu pe această temă)

Abordarea Hollywood-ului față de granulație s-a schimbat odată cu schimbările culturale și ale metodelor de producție. În anii 1960, evoluția suporturilor de filmat și a practicilor fotografice a contribuit la identitatea vizuală distinctă a deceniului. Mai târziu, regizorii care lucrau în domeniul digital au început să reintroducă granulația în mod deliberat. La mijlocul anilor 1980, regizorul James Cameron a selectat un suport Kodak deosebit de gros pentru Aliens (1986, dreapta jos în imaginea de mai sus), probabil pentru a îmbunătăți atmosfera, ajutând în același timp la ascunderea firelor de la lucrările practice de miniaturizare VFX.  Sursă: https://archive.is/3ZSjN (cel mai recent articol al meu pe această temă)

Textura analogică provine dintr-o perioadă în care producerea de conținut media costa bani reali, accesul era limitat și exista cel puțin un sentiment vag că doar cei mai capabili sau hotărâți puteau trece, acționând ca o prescurtare pentru realism și credibilitate - și, când tehnologiile de captură de înaltă rezoluție au eliminat-o, nostalgie.

Christopher Nolan niciodată nu a schimbatÎn timp ce majoritatea industriei a adoptat tehnologia digitală pentru viteza și flexibilitatea sa, aclamatul regizor a insistat asupra celuloidului atât ca... disciplină și o estetică.

Denis Villeneuve, lucrând direct în cadrul unor canale digitale, își analizează în continuare materialele video prin procese fotochimice. Pentru Dună filme, filmate digital, materialul filmat a fost imprimat pe folie de film și apoi scanat înapoi în format digital, pur și simplu pentru atmosferă și efect.

Cereale false

Pasionații de calitate a filmelor și televiziunilor asociază granulația vizibilă cu rezoluția înaltă, unde bitrate (cantitatea de date introduse în fiecare cadru) este atât de mare încât chiar și cele mai mici detalii, cum ar fi granulele de halogenuri, sunt păstrate.

Totuși, dacă rețelele de streaming ar pune la dispoziție cu adevărat un astfel de bitrate, acest lucru ar pune o presiune semnificativă asupra capacității rețelei și ar cauza probabil buffering și stuttering. Prin urmare, platforme precum Netflix creați versiuni AV1 optimizate conținutului lor și să utilizeze codecurile AV1 capacități de adăugare a cerealelor la film sau episod într-un mod inteligent și pertinent, economisind 30% din lățimea de bandă în proces.

AV1 este conceput pentru a încorpora o granulație artificială a filmului, ca în aceste exemple. Sursa: https://waveletbeam.com/index.php/av1-film-grain-synthesis

AV1 este conceput pentru a încorpora granulație artificială a peliculei, ca în aceste exemple. Sursă: https://waveletbeam.com/index.php/av1-film-grain-synthesis

„Fetișul cerealelor” este un echivalent digital relativ rar al tendințelor atavice, cum ar fi renașterea vinilului, și este greu de spus dacă este folosit de streameri pentru a face ca videoclipurile extrem de optimizate să pară „video brut” foarte scumpe (pentru acei spectatori care au asociat inconștient aceste caracteristici), făcând ca rata de biți să pară mai mare decât este; sau pentru a devia scăderea calității perceptive pe care vechile emisiuni 4:3 ar fi suferit-o altfel atunci când furnizorii de streaming. decupați-le la rapoarte de aspect pentru ecran lat; sau pur și simplu pentru a flata „estetica Nolan” retro în general.

Siloz de cereale

Problema este că granulația este și zgomot. Sistemele digitale urăsc zgomotul, iar codecurile de streaming precum AV1 îl elimină pentru a economisi lățime de bandă, cu excepția cazului în care setările de granulație sunt configurate explicit. În mod similar Upscalere AI cum ar fi seria Topaz Gigapixel, tratează granulația ca pe un defect care trebuie corectat.

În domeniul sintezei imaginilor bazate pe difuzie, generarea de granule este extrem de dificilă, deoarece reprezintă detalii extremeși, prin urmare, ar apărea de obicei doar în mod masiv suprainstalat modele, deoarece întreaga arhitectură a modelului de difuzie latentă (LDM) este conceput pentru a deconstrui zgomotul (cum ar fi granulația) în imagini clare, în loc să trateze petele de granulație ca proprietăți implicite în media.

Prin urmare, poate fi dificil să creezi o granulație convingătoare folosind învățarea automată. Și chiar dacă s-ar putea face acest lucru, randarea directă într-un videoclip optimizat ar umfla din nou dimensiunea fișierului videoclipului.

Din cauza acestei ultime considerații logistice, codecurile video de ultimă generație, cum ar fi Codare video versatilă (VVC) oferi cereale ca un fel de serviciu „adiacent”.

VVC comprimă videoclipul curat, fără zgomot, și elimină granulația. În loc să irosească date încercând să păstreze modele aleatorii de granulație de înaltă frecvență, analizează granulația. separat și codifică un set mic de parametri (de exemplu, amplitudine, frecvență și mod de amestecare) care descriu modul de regenerare a unei granulații similare în timpul redării.

Acești parametri sunt stocați într-un FGC-SEI (Film Grain Characteristics Supplemental Enhancement Information - Informații suplimentare privind îmbunătățirea caracteristicilor granulației filmului), care circulă alături de fluxul de biți principal. După decodare, un modul de sinteză folosește aceste instrucțiuni pentru a reaplica granulația sintetică care imită originalul.

Acest lucru păstrează „aspectul” emulsiei bogate în granule și cu rată de biți ridicată, menținând în același timp rata de biți reală scăzută, deoarece codificatorul nu este obligat să cheltuiască resurse pentru a păstra zgomotul imprevizibil.

În plus, la fel ca în cazul fișierelor de subtitrări discrete, acest conținut fals cu „granulație” este specific videoclipului în cauză; aplicarea aleatorie a filtrelor generice de granulație în platforme precum Photoshop sau After Effects sau în procese automate de procesare nu ar duce la o granulație „potrivită”, ci la o suprapunere de zgomot fără legătură:

Stânga: imaginea originală. Centru: filtrul „Grain” din Photoshop Camera Raw aplicat uniform pe toate canalele. Dreapta: același filtru „Grain” aplicat individual fiecărui canal, în secvență. Imaginea sursă (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (prin intermediul propriului meu articol anterior)

Stânga: imaginea originală. Centru: filtrul „Grain” din Photoshop Camera Raw aplicat uniform pe toate canalele. Dreapta: același filtru „Grain” aplicat individual fiecărui canal, în secvență. Imagine sursă (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (prin intermediul propriului meu articol anterior)

Filtrul „Grain” din Photoshop adaugă zgomot aleatoriu uniform; dar granulația reală a filmului provine din cristale de halogenuri de diferite dimensiuniAplicarea filtrului pe fiecare canal separat (vezi imaginea de mai sus) creează doar mai mult haos, nu realism. Granulația reală a filmului reflectă modul în care lumina atinge emulsiile stratificate. în momentul expuneriiSimularea acestui lucru ar necesita estimarea modului în care diferite zone ale unei imagini ar fi activat fiecare strat de halogenură, nu doar împărțirea efectului pe straturile RGB.

FGA-NN

În cadrul acestei căutări iluzioase apare o nouă lucrare de cercetare din Franța – o scurtă, dar interesantă descoperire care oferă o metodă superioară din punct de vedere cantitativ și calitativ de analiză și recreare a cerealelor:

Comparație între granulația reală și rezultatele obținute din diverse metode de analiză și sinteză. Sursa: https://arxiv.org/pdf/2506.14350

Comparație între granulele de proveniență naturală și rezultatele obținute din diverse metode de analiză și sinteză. Sursa: https://arxiv.org/pdf/2506.14350

Noul sistem, intitulat FGA-NN, nu se abate de la utilizarea convențională a termenilor convenționali Sinteza granulară bazată pe principii gaussiene prin metoda standard compatibilă cu VVC, Sinteză versatilă a granulelor de film (VFGS). Ceea ce schimbă sistemul este analiză, utilizând o rețea neuronală pentru a estima mai precis parametrii de sinteză

Prin urmare, granularea finală este sintetizată în continuare folosind același model gaussian convențional - dar rețeaua alimentează metadate mai bune într-un generator standard, bazat pe reguli, obținând un model de ultimă generație.

hârtie nouă se intitulează FGA-NN: Rețea neuronală de analiză a granulației filmului... și provine de la trei cercetători de la InterDigital R&D, Cesson-Sévigné. Deși lucrarea nu este lungă, haideți să aruncăm o privire asupra unora dintre aspectele cheie ale progreselor oferite de noua metodă.

Metodă

Pe scurt: sistemul FGA-NN preia un videoclip granulat ca intrare și extrage o descriere compactă a granulației, generând parametri în formatul standardizat FGC-SEI utilizat de diverse codecuri moderne. Acești parametri sunt transmiși odată cu videoclipul, permițând decodorului să reconstruiască granulația folosind VFGS, în loc să o codifice direct.

Schema pentru analiza și reaplicarea granulației filmului în distribuția video, utilizând FGA-NN pentru extragerea parametrilor și VFGS pentru sinteză.

Schema pentru analiza și reaplicarea granulației filmului în distribuția video, utilizând FGA-NN pentru extragerea parametrilor și VFGS pentru sinteză.

Pentru a antrena rețeaua, autorii au avut nevoie de perechi de videoclipuri granulate și de metadate FGC-SEI corespunzătoare. Întrucât majoritatea filmărilor granulate nu au acest tip de metadate, cercetătorii și-au creat propriul set de date prin generarea de parametri FGC-SEI, aplicarea de granulație sintetică videoclipurilor curate și utilizarea acestora ca exemple de antrenament.

Datele de antrenament pentru FGA-NN au fost create prin aplicarea de granulație sintetică pe materialele curate din BVI-DVC și DIV2K seturi de date. Au fost generați parametri FGC-SEI randomizați și utilizați cu instrumentul de sinteză VFGS, permițând asocierea fiecărui videoclip granulat cu metadate cunoscute.

A fost utilizat modelul bazat pe frecvență, acceptat de standardele video actuale, cu intervale de parametri constrânse pentru a menține plauzibilitatea vizuală pe canalele de luminanță și cromă.

Datele de antrenament pentru noua colecție au fost create prin aplicarea de granulație sintetică pe materialele video curate din... BVI-DVC și DIV2K seturi de date. Parametrii FGC-SEI randomizați au fost generați și utilizați cu instrumentul Versatile Film Grain Synthesis (VFGS), permițând asocierea fiecărui videoclip granulat cu metadate cunoscute.

Prezentare generală a intervalelor de parametri FGC-SEI randomizați utilizate pentru a genera granulație sintetică pentru antrenament, aplicată la materiale video curate din seturile de date BVI-DVC și DIV2K. Parametrii au fost constrânși pentru a asigura rezultate vizuale plauzibile atât pe canalele de luminanță, cât și pe cele de cromă.

Prezentare generală a intervalelor de parametri FGC-SEI randomizați utilizate pentru a genera granulație sintetică pentru antrenament, aplicată la materiale video curate din seturile de date BVI-DVC și DIV2K. Parametrii au fost constrânși pentru a asigura rezultate vizuale plauzibile atât pe canalele de luminanță, cât și pe cele de cromă.

Modelul de filtrare a frecvenței, singura metodă de sinteză acceptată în prezent în implementările de codecuri, cum ar fi Model de testare VVC (VTM), a fost utilizat pe tot parcursul. Intervalele de parametri au fost restricționate pentru a păstra plauzibilitatea vizuală în ambele luminanță și cromă canale.

Efectul rețelei

FGA-NN prezintă două modele coordonate, respectiv pentru luminanță și cromă, fiecare conceput pentru a prezice parametrii specifici necesari pentru recrearea granulației realiste a filmului.

Pentru fiecare imagine de intrare, sistemul estimează un set de intervale de intensitate, factorii de scalare asociați fiecărui interval, frecvențele de delimitare orizontale și verticale și o ajustare generală a scalei cunoscută sub numele de factor Log2Scale. Pentru a gestiona acest lucru, modelul utilizează un extractor de caracteristici partajat care procesează intrarea granulată și o alimentează în patru ramuri de ieșire separate, fiecare responsabilă pentru o sarcină de predicție diferită:

Arhitectura versiunii luma a FGA-NN. O rețea principală partajată extrage caracteristici din cadre de intrare granulate, urmată de patru ramuri de ieșire adaptate la sarcini specifice de predicție a parametrilor: limite de interval, factori de scalare, frecvențe de delimitare și Log2Scale global. Rețeaua chroma folosește aceeași structură cu dimensiuni de intrare și ieșire ajustate.

Arhitectura versiunii luma a FGA-NN. O rețea principală partajată extrage caracteristici din cadre de intrare granulate, urmată de patru ramuri de ieșire adaptate la sarcini specifice de predicție a parametrilor: limite de interval, factori de scalare, frecvențe de delimitare și Log2Scale global. Rețeaua chroma folosește aceeași structură cu dimensiuni de intrare și ieșire ajustate.

Limitele intervalelor sunt prezise folosind regres, în timp ce factorii de scalare, frecvențele de delimitare și setarea scalei globale sunt tratate ca probleme de clasificare.

Arhitectura este ajustată pentru a reflecta complexitatea fiecărei sarcini, cu straturi interne mai mari utilizate pentru predicții mai precise; mai exact, modelul chroma oglindește structura luma, dar se adaptează la diferitele caracteristici ale datelor de culoare.

Instruire și teste

FGA-NN a fost antrenat folosind patru funcții obiectiv, fiecare aliniată cu una dintre sarcinile sale de predicție. Pentru rezultatele clasificării, se utilizează o funcție categorică pierderi de entropie încrucișată a fost utilizată pentru a reduce decalajul dintre etichetele prezise și adevărul de la fața locului.

Limitele intervalelor au fost normalizate la un interval de la 0 la 1 și optimizate folosind o pierdere combinată: o variabilă scalată exponențial L1 de pe (expL1) care penaliza mai puternic erorile mai mari și o penalizare de monotonie care au descurajat tendințele descendente. Toate cele patru pierderi au fost combinate, cu ponderi mari atribuite factorilor de limitare și de scalare, în timp ce limitele intervalelor și Log2Scale au fost ponderate la 1 și 0.1.

Instruirea a fost efectuată în cadrul Adam optimizator, la un rata de învățare de 5e-4, pe parcursul a 10,000 de iterații, cu un dimensiunea lotului din 64.

Singurul instrument comparabil potrivit pentru teste comparative a fost CONVENTUL FGA, care produce și valori în formatul FGC-SEI și este utilizat pentru procesarea cerealelor. Ambele sisteme au fost testate pe secvențe UHD din Set de evaluare subiectivă JVET, folosind materiale video care conțin granulație reală a filmului.

Liniile punctate verticale indică limitele intervalului de intensitate, în timp ce câștigul Log2Scale este notat în eticheta axei.

Liniile punctate verticale indică limitele intervalului de intensitate, în timp ce câștigul Log2Scale este notat în eticheta axei.

În imaginea de mai sus, vedem cadre decupate identice generate de VFGS folosind parametri din fiecare metodă, comparativ cu originalul. Estimările lor de luminanță sunt, de asemenea, reprezentate grafic în raport cu valorile de referință stabilite manual folosind VFGS, care aici reprezintă intensitatea pixelilor pe axa X (0–255), factorii de scalare pe axa Y albastră (0–255) și frecvențele de delimitare pe axa Y verde (2–14).

Autorii afirmă:

„Se poate observa că FGA-NN surprinde cu precizie tendința generală a modelului și amplitudinii granulației peliculei obținute prin metoda ground-truth, rezultând imagini sintetizate cu granulație a peliculei similară din punct de vedere perceptiv cu cea a imaginilor obținute prin metoda ground-truth.”

„Pe de altă parte, FGA-CONVENT prezice un factor de scalare mai mic, compensat de un factor Log2Scale corespunzător mai mic, ca urmare a designului său, și tinde să genereze un model de granulație a filmului mai grosier decât referința, rezultând un aspect distinct, dar consistent din punct de vedere vizual.”

Aceștia observă că compararea directă cu parametrii granulari stabiliți la sol nu este fiabilă, deoarece scalarea și Log2Scale se pot compensa reciproc, iar erorile minore au adesea un impact vizual redus.

Testul credinței

peliculă de cereale fidelitate a fost evaluat în patru fluxuri de lucru: FGA-NN cu VFGS; FGA-CONVENT plus VFGS; Stil-FGŞi 3R-INNTestele au folosit atât FGC-SEI, cât și FilmGrainStyle740k seturi de date, comparând rezultatul cu datele reale folosind Metricurile de similitudine perceptivă învățate (LPIPS); JSD-NSSŞi Kullback–Leibler Divergență (KL).

Rezultate comparative pe setul de date FilmGrainStyle740k. Style-FG și 3R-INN le depășesc pe celelalte datorită faptului că sunt antrenate pe acest set, FGA-NN urmând îndeaproape. FGA-CONVENT are performanțe sub așteptări, reflectând dependența sa de analiza multi-frame și regiunile omogene - condiții neîndeplinite de intrările mici, bogate în texturi, utilizate în acest caz.

Rezultate comparative pe setul de date FilmGrainStyle740k. Style-FG și 3R-INN depășesc performanțele altora datorită faptului că sunt antrenate pe acest set, FGA-NN urmând îndeaproape. FGA-CONVENT are performanțe sub așteptări, reflectând dependența sa de analiza multi-frame și regiunile omogene - condiții neîndeplinite de intrările mici, bogate în texturi, utilizate în acest caz.

Dintre aceste rezultate, autorii afirmă:

„Pe setul de teste FilmGrainStyle740k, Style-FG și 3R-INN obțin cele mai bune rezultate, deoarece aceste metode au fost antrenate special pe acest set de date, FGA-NN fiind la mică distanță. Performanța FGA-CONVENT combinată cu VFGS este suboptimă pe ambele seturi de teste.”

„Acest lucru se datorează exclusiv faptului că analiza se bazează pe regiuni omogene și exploatează informații din mai multe cadre într-un caz de utilizare real de analiză a granulației filmului, în timp ce în evaluarea prezentă analiza este furnizată cu o singură imagine de rezoluție mică (256×256 până la maximum 768×512), care conține adesea o textură semnificativă.”

„Acest lucru complică și mai mult dificultatea metodei convenționale de analiză, făcând imposibilă aplicarea FGA-CONVENT unor imagini atât de mici.”

În cele din urmă, autorii notează că, deși metodele bazate pe învățare, cum ar fi 3R-INN și Style-FG, produc rezultate vizuale puternice pe seturi de date selectate, costul lor computațional ridicat le face nepotrivite pentru implementarea pe dispozitivele utilizatorilor finali.

Compararea cadrelor cu rată de biți redusă, îmbunătățite folosind diferite fluxuri de lucru de analiză și sinteză (penultima coloană).

Compararea cadrelor cu rată de biți redusă, îmbunătățite folosind diferite fluxuri de lucru de analiză și sinteză (penultima coloană).

Prin comparație, abordarea propusă în noua lucrare combină modulul ușor de analiză FGA-NN cu metoda de sinteză VFGS eficientă din punct de vedere hardware, pe care autorii o descriu ca o soluție mai viabilă și mai ușor de implementat pentru reintroducerea granulației filmului în videoclipurile comprimate.

Aceștia afirmă în plus că beneficiile FGA-NN sunt potențial considerabile, la scară largă:

„[Codarea] videoclipurilor UHD cu granulație a filmului la rate de biți medii spre mici, utilizând fluxul nostru de lucru de analiză și sinteză a granulației filmului, permite economii de până la 90% la rata de biți în comparație cu codarea cu rată de biți mare.”

Concluzie

Obsesia pentru granulația filmului este una dintre cele mai ciudate și mai curioase idei ale erei post-analogice și este interesant de observat că ceea ce era considerat odată o limitare a mediului a devenit acum un totem al verosimilității și autenticității în sine, chiar (poate subconștient) pentru o nouă generație de spectatori născuți după declinul efectiv al emulsiei.

Trebuie menționat că niciunul dintre cele mai avansate tipuri de granulațiemetode de recreere, inclusiv această ultimă inovație, poate captura exact adevăratul efect al modului în care lumina afectează straturile de halogenuri într-un proces fotochimic real, într-o gamă largă de condiții.

 

Publicat pentru prima dată miercuri, 18 iunie 2025