Connect with us

Anderson’un Açısı

AI’ı Film Grain’i Simüle Etmek için Kullanma

mm
Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

Amerika’yı Again Grainy Yap: bir yeni AI aracı eski görüntüden film grain’i çıkarabilir, videoyu boyutunun bir kısmında sıkıştırabilir ve sonra grain’i geri koyabilir, böylece izleyiciler hiçbir şey fark etmez. Mevcut video standartları ile çalışır ve bant genişliğini %90’a kadar azaltırken, vintage görünümü korur.

 

Çoğu insan için film veya eski TV şovları izlerken, ‘sizzle’ film grain’i rahatlatıcıdır; bilinçli olarak kaydedilmeden bile, grain bize izlediğimiz şeyin kimyasallarla, değil kodla yapıldığını ve deneyimi fiziksel dünyaya, stok seçimine, pozlama, laboratuvar işlemlerine ve geçmiş dönemlere bağladığını söyler:

Hollywood'un grain'e yaklaşımı, kültür ve üretim yöntemlerindeki değişikliklerle birlikte değişti. 1960'larda, gelişen kamera stokları ve fotoğrafik uygulamalar on yılın belirgin görsel kimliğine katkıda bulundu. Daha sonra, dijital olarak çalışan yönetmenler kasıtlı olarak grain'i yeniden tanıttı. 1980'lerin ortalarında yönetmen James Cameron, Aliens (1986, yukarıdaki resmin sağ alt köşesinde) için özellikle kaba bir Kodak stok seçti, muhtemelen atmosferi tăngtırırken aynı zamanda pratik VFX miniatur işinin tellerini gizlemek için yardımcı oldu. Kaynak: https://archive.is/3ZSjN (bu konuda en son makalem)

Hollywood’un grain’e yaklaşımı, kültür ve üretim yöntemlerindeki değişikliklerle birlikte değişti. 1960’larda, gelişen kamera stokları ve fotoğrafik uygulamalar on yılın belirgin görsel kimliğine katkıda bulundu. Daha sonra, dijital olarak çalışan yönetmenler kasıtlı olarak grain’i yeniden tanıttı. 1980’lerin ortalarında yönetmen James Cameron, Aliens (1986, yukarıdaki resmin sağ alt köşesinde) için özellikle kaba bir Kodak stok seçti, muhtemelen atmosferi tăngtırırken aynı zamanda pratik VFX miniatur işinin tellerini gizlemek için yardımcı oldu. Kaynak: https://archive.is/3ZSjN (bu konuda en son makalem)

Analog tekstür, medyayı üretmenin gerçek para maliyeti olduğu, erişimin sınırlı olduğu ve en azından yetenekli veya kararlı olanların geçebileceği bir zamanda gelir. Gerçekçilik ve güvenilirlik için bir kısaltma işlevi görür ve yüksek çözünürlüklü kamera teknolojileri ortadan kaldırdığında, nostalji olur.

Christopher Nolan asla değişmedi. Endüstrinin çoğunun dijitali hız ve esnekliği için benimsediğinde, ünlü yönetmen selüloidi hem disiplin hem de estetik olarak savundu.

Denis Villeneuve, dijital işlem hatları içinde çalışırken, masihlerini fotoğrafik işlemlerden geçirir. Dune filmleri için, dijital olarak çekilen görüntüler film stoklarına basılır ve sonra dijital olarak tarama yapılır, sadece atmosfer ve efekt için.

Sahte Grain

Film ve TV kalitesi tutkunları, görünen grain’i yüksek çözünürlükle ilişkilendirir; burada bit hızı (her kareye yüklenen veri miktarı) o kadar yüksektir ki, en küçük ayrıntılar, örneğin halid kristalleri, korunur.

Ancak, akış ağları gerçekten bu tür bir bit oranını sunarlarsa, bu, ağ kapasitesini ciddi şekilde zorlayacak ve muhtemelen arabellek ve kekeme oluşturacaktır. Bu nedenle, Netflix gibi platformlar optimize edilmiş AV1 sürümleri oluşturur ve AV1 kodunun özelliklerini film veya bölümde akıllı ve uygun bir şekilde grain eklemek için kullanır, %30 bant genişliği tasarrufu sağlar.

AV1, bu örneklerde olduğu gibi yapay film grain'i içerecek şekilde tasarlanmıştır. Kaynak: https://waveletbeam.com/index.php/av1-film-grain-synthesis

AV1, bu örneklerde olduğu gibi yapay film grain’i içerecek şekilde tasarlanmıştır. Kaynak: https://waveletbeam.com/index.php/av1-film-grain-synthesis

‘Grain fetişi’ , vinil canlanması gibi atavistik trendlerin dijital eşdeğeri olup, bu özelliğin, yüksek optimize edilmiş videoyu gerçekten pahalı ‘ham video’ gibi göstermek için akış sağlayıcılar tarafından kullanılıp kullanılmadığı, ya da eski 4:3 gösterilerin akış sağlayıcıları tarafından geniş ekran oranlarına kesilmesini önlemek için kullanılıp kullanılmadığı, veya sadece genel olarak ‘Nolan estetiği’ne özen gösterilip gösterilmediği bilinmez.

Grain Siloed

Sorun, grain’in aynı zamanda gürültü olmasıdır. Dijital sistemler gürültüyü sevmez ve akış kodları gibi AV1, bant genişliğini kaydetmek için gürültüyü temizler, trừ ki grain ayarları açıkça yapılandırılmış olsun. Aynı şekilde AI upscaler gibi Topaz Gigapixel serisi, grain’i düzeltilmesi gereken bir hata olarak ele alır.

Diffüzyon tabanlı görüntü sentezinin alanında, grain çok zorlu bir görevdir, çünkü extreme detail temsil eder ve bu nedenle genellikle sadece aşırı uyarlama modellerinde ortaya çıkardı, çünkü tüm latent diffüzyon modeli (LDM) mimarisi, grain gibi gürültüyü açık görsellere dönüştürmek için tasarlanmıştır, grain fleklerini medyadaki örtük özellikler olarak ele alması yerine.

FGA-NN

Bu şüpheli takipçiye, Fransa’dan yeni bir araştırma makalesi geliyor – bir araştırma makalesi, film grain’i analiz etme ve yeniden yaratma yönteminin nicel ve nitel olarak üstün bir yöntemini sunuyor:

Çeşitli analiz ve sentez yöntemlerinden ground-truth grain ve sonuçların karşılaştırması. Kaynak: https://arxiv.org/pdf/2506.14350

Çeşitli analiz ve sentez yöntemlerinden ground-truth grain ve sonuçların karşılaştırması. Kaynak: https://arxiv.org/pdf/2506.14350

Yeni sistem, FGA-NN olarak adlandırılmaktadır, geleneksel Gaussian tabanlı grain sentezi kullanımından ayrılmaz, VVC uyumlu standart yöntem olan Versatile Film Grain Synthesis (VFGS) kullanır. Sistemde değişen, analizdir, daha doğru sentez parametrelerini tahmin etmek için bir sinir ağı kullanır

Sonuç olarak, sentezlenen grain hala aynı geleneksel Gaussian modeli kullanır – ancak ağ, standart, kural tabanlı bir jeneratöre daha iyi metadata besler, durum-of-the-art bir model elde eder.

Yeni makale FGA-NN: Film Grain Analysis Neural Network olarak adlandırılmaktadır, ve üç araştırmacıdan gelir, InterDigital R&D, Cesson-Sévigné. Makale uzun değil, ancak yeni yöntemin sunduğu bazı önemli gelişmelere göz atalım.

Yöntem

Özetle: FGA-NN sistemi, grainli bir video alır ve grain’in kompakt bir tanımını çıkarır, standart FGC-SEI formatında parametreler üretir, modern kodlar tarafından kullanılan format. Bu parametreler video ile birlikte iletilir, böylece dekoder grain’i VFGS kullanarak yeniden oluşturabilir, grain’i doğrudan kodlamak yerine.

Video dağıtımında film grain'i analiz etme ve yeniden uygulama şeması, FGA-NN için parametre çıkarma ve VFGS için sentez.

Video dağıtımında film grain’i analiz etme ve yeniden uygulama şeması, FGA-NN için parametre çıkarma ve VFGS için sentez.

Ağı eğitmek için, yazarlar grainli videolar ve karşılık gelen FGC-SEI meta verileri olan çiftlere ihtiyaç duyuyorlar. Çoğu grainli görüntünün bu tür meta verilere sahip olmaması nedeniyle, araştırmacılar kendi veri setlerini oluşturdular, FGC-SEI parametrelerini oluşturdular, sentetik grain’i temiz videolara uyguladılar ve bunları eğitim örnekleri olarak kullandılar.

FGA-NN için eğitim verileri, BVI-DVC ve DIV2K veri setlerinden temiz görüntülere sentetik grain uygulayarak oluşturuldu. Rastgele FGC-SEI parametreleri oluşturuldu ve VFGS sentez aracı ile kullanıldı, her grainli videoyu bilinen meta verilerle eşleştirmeye izin verdi.

Eğitim verisi için, BVI-DVC ve DIV2K veri setlerinden temiz görüntülere sentetik grain uygulandı. Rastgele FGC-SEI parametreleri oluşturuldu ve VFGS aracı ile kullanıldı, her grainli videoyu bilinen meta verilerle eşleştirmeye izin verdi.

Eğitim için kullanılan rastgele FGC-SEI parametre aralıklarının özeti, BVI-DVC ve DIV2K veri setlerinden temiz görüntülere uygulandı. Parametreler, luma ve kroma kanalları boyunca görsel olarak plausible sonuçlar sağlamak için kısıtlandı.

Eğitim için kullanılan rastgele FGC-SEI parametre aralıklarının özeti, BVI-DVC ve DIV2K veri setlerinden temiz görüntülere uygulandı. Parametreler, luma ve kroma kanalları boyunca görsel olarak plausible sonuçlar sağlamak için kısıtlandı.

Sentez methodu olarak, yalnızca VVC Test Model (VTM) gibi kod uygulamalarında desteklenen frekans filtreleme modeli kullanıldı. Parametre aralıkları, luma ve kroma kanalları boyunca görsel olarak plausible sonuçlar sağlamak için kısıtlandı.

Ağ Etkisi

FGA-NN, luma ve kroma için koordine edilmiş iki model içerir, her biri gerçekçi film grain’i yeniden yaratmak için gereken parametreleri tahmin etmek üzere tasarlanmıştır.

Her giriş görüntüsü için, sistem bir dizi yoğunluk aralığını tahmin eder, her aralıkla ilgili ölçekleme faktörlerini, yatay ve dikey kesme frekanslarını ve Log2Scale faktörü olarak bilinen bir genel ölçekleme ayarını tahmin eder. Bunu yapmak için, model bir paylaşılan özellik çıkarıcı kullanır, grainli girişi işler ve dört ayrı çıktı dalına besler, her biri farklı bir tahmin görevinden sorumludur:

FGA-NN'nin luma versiyonunun mimarisi. Paylaşılan bir backbone, grainli giriş çerçevesinden özellikler çıkarır, ardından dört çıktı dali, aralık sınırları, ölçekleme faktörleri, kesme frekansları ve genel Log2Scale gibi özel parametre tahmin görevlerine uyarlanır. Kroma ağı, aynı yapıyı, girdi ve çıktı boyutları ayarlanmış olarak kullanır.

FGA-NN’nin luma versiyonunun mimarisi. Paylaşılan bir backbone, grainli giriş çerçevesinden özellikler çıkarır, ardından dört çıktı dali, aralık sınırları, ölçekleme faktörleri, kesme frekansları ve genel Log2Scale gibi özel parametre tahmin görevlerine uyarlanır. Kroma ağı, aynı yapıyı, girdi ve çıktı boyutları ayarlanmış olarak kullanır.

Aralık sınırları regresyon kullanılarak tahmin edilir, जबकi ölçekleme faktörleri, kesme frekansları ve genel ölçekleme ayarı sınıflandırma problemleri olarak ele alınır.

Mimari, her görevin karmaşıklığını yansıtmak için uyarlanır, daha ince tahminler için daha büyük iç katmanlar kullanılır; özellikle, kroma modeli luma yapısını taklit eder, ancak renk verilerinin farklı özelliklerine uyarlanır.

Eğitim ve Testler

FGA-NN, dört nesne fonksiyonu kullanarak eğitilir, her biri dört tahmin görevinden birine karşılık gelir. Sınıflandırma çıktıları için, predicted etiketlerle gerçek etiketler arasındaki farkı azaltmak için kategorik cross-entropy kaybı kullanılır.

Aralık sınırları 0 ile 1 aralığına normalize edilir ve birleşik bir kayıp kullanarak optimize edilir: büyük hataları daha ağır bir şekilde cezalandıran L1 kaybı (expL1) ve aşağı yönlü eğilimlere karşı monotonicity cezası. Dört kayıp birleştirilir, kesme ve ölçekleme faktörlerine yüksek ağırlıklar atanırken, aralık sınırları ve Log2Scale 1 ve 0.1 olarak ağırlıklandırılır.

Eğitim, Adam optimizatörü altında, 5e-4’lik bir öğrenme hızında, 10.000 iterasyon boyunca, 64’lik bir toplu işleme boyutunda yapılır.

Karşılaştırılabilir tek araç, FGA-NN ile karşılaştırılabilecek FGA-CONVENT’tir, bu da FGC-SEI formatında değerler üreten ve grain işlemede kullanılan bir araçtır. Her iki sistem de, gerçek film grain’i içeren UHD dizileri üzerinde test edilmiştir, JVET subjektif değerlendirme setinden görüntüler kullanılmıştır.

Dikey çizgiler yoğunluk aralık sınırlarını gösterir, mentre Log2Scale kazancı eksen etiketinde belirtilir.

Dikey çizgiler yoğunluk aralık sınırlarını gösterir, mentre Log2Scale kazancı eksen etiketinde belirtilir.

Yazarlar şunları belirtir:

‘FGA-NN’nin, film grain’i deseninin ve genliğinin genel eğilimini doğru bir şekilde yakaladığını gözlemleyebiliriz, sentezlenen görüntülerin algılanabilir film grain’i, gerçek grain’e benzer.’

‘Öte yandan, FGA-CONVENT, daha düşük bir ölçekleme faktörü öngörür, bu, tasarımının bir sonucu olarak, daha düşük bir Log2Scale faktörü ile telafi edilir ve daha kaba bir film grain deseni üretme eğilimindedir, bu da réfénsle aynı ancak görsel olarak tutarlı bir görünüm sağlar.’

Onlar ayrıca, doğrudan ground-truth grain parametreleri ile karşılaştırmanın güvenilmez olduğunu belirtirler, çünkü ölçekleme ve Log2Scale birbirini telafi edebilir ve küçük hatalar genellikle görsel olarak önemli bir etkiye sahip olmaz.

İnanç Testi

Film grain fidelity dört iş akışında ölçülür: FGA-NN ile VFGS; FGA-CONVENT ile VFGS; Style-FG; ve 3R-INN. Testler, FGC-SEI ve FilmGrainStyle740k veri setlerini kullanır, çıktı ile ground-truth arasındaki benzerliği Öğrenilen Algısal Benzerlik Ölçümleri (LPIPS); JSD-NSS; ve Kullback–Leibler (KL) divergence kullanarak karşılaştırır.

FilmGrainStyle740k veri setinde benchmark sonuçları. Style-FG ve 3R-INN, bu veri setinde eğitildikleri için diğerlerini geride bırakır, FGA-NN yakın takip eder. FGA-CONVENT, bu durumda kullanılan küçük, tekstürlü girişlerin karşılanmayan koşulları nedeniyle, çok çerçeveli analiz ve homojen bölgelere dayanması nedeniyle düşük performans gösterir.

FilmGrainStyle740k veri setinde benchmark sonuçları. Style-FG ve 3R-INN, bu veri setinde eğitildikleri için diğerlerini geride bırakır, FGA-NN yakın takip eder. FGA-CONVENT, bu durumda kullanılan küçük, tekstürlü girişlerin karşılanmayan koşulları nedeniyle, çok çerçeveli analiz ve homojen bölgelere dayanması nedeniyle düşük performans gösterir.

Yazarlar şunları belirtir:

‘FilmGrainStyle740k test setinde, Style-FG ve 3R-INN en iyi sonuçları elde eder, çünkü bu yöntemler bu veri setinde eğitilmiştir, FGA-NN yakın takip eder. FGA-CONVENT’in performansı, her iki test setinde de düşükdür.

‘Bu, FGA-CONVENT’in analizinin, homojen bölgelere ve gerçek bir film grain analizi kullanım durumunda birden fazla çerçeveden gelen bilgilere dayanması nedeniyle, bu değerlendirmede kullanılan küçük, tekstürlü girişlerin karşılanmayan koşulları nedeniyle oluşur.

‘Bu, geleneksel analiz yönteminin, bu küçük resimlere uygulanmasını imkansız kılar.’

Son olarak, yazarlar, öğrenme tabanlı yöntemlerin (3R-INN ve Style-FG) yüksek görsel sonuçlar ürettiğini, ancak bunların yüksek hesaplama maliyeti nedeniyle son kullanıcı cihazlarında dağıtıma uygun olmadığını belirtirler.

Farklı analiz ve sentez iş akışlarını kullanarak düşük bit hızı çerçevelerinin karşılaştırması (üçüncü son sütun).

Farklı analiz ve sentez iş akışlarını kullanarak düşük bit hızı çerçevelerinin karşılaştırması (üçüncü son sütun).

Karşılaştırıldığında, önerilen yaklaşım, hafif FGA-NN analiz modülünü, donanım verimli VFGS sentez yöntemi ile birleştirir, yazarlar bunu film grain’in sıkıştırılmış videoda yeniden tanıtıldığı daha uygulanabilir ve dağıtılabilir bir çözüm olarak tanımlar.

Onlar ayrıca, FGA-NN’nin faydalarının önemli olabileceğini belirtirler:

‘Orta ila düşük bit hızlarında film grain’i ile UHD videoları kodlamak, bizim film grain analiz ve sentez iş akışımızı kullanarak, yüksek bit hızında kodlamaya kıyasla %90’a varan bit hızı tasarrufu sağlar.’

Sonuç

Film grain’i takıntısı, post-analog çağın en ilginç ve en tuhaf yanılgılarından biridir ve dikkat çekici bir şekilde, bir zamanlar medium’un bir kısıtlaması olarak kabul edilen şey, şimdi kendiliğinden gerçeklik ve otantiklik simgesi haline gelmiştir, hatta (belki bilinçaltında) emülsiyonun etkili olarak gerilemesinden sonra doğan yeni bir izleyici nesline.

Devamını oku…

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]