Погляд Anderson

Використання штучного інтелекту для симуляції зерна плівки

mm
Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

Зробіть Америку зернистою знову: новий інструмент штучного інтелекту може видалити зерно плівки зі старих кадрів, стиснути відео до частини його початкового розміру, а потім повернути зерно, щоб глядачі нічого не помітили. Він працює з існуючими відеостандартами та зменшує пропускну здатність до 90 відсотків, зберігаючи при цьому винтажний вигляд.

 

Для багатьох з нас, хто дивиться фільми або старі телешоу, “шум” зерна плівки є заспокійливим; навіть якщо ми не свідомо реєструємо це, зерно говорить нам, що те, що ми дивимося, було зроблено за допомогою хімічних речовин, а не коду, і пов’язує досвід з фізичним світом: з вибором матеріалу, експозицією, лабораторними процесами та минулими епохами:

<img class="size-full wp-image-219345" src="https://www.unite.ai/wp-content/uploads/2025/06/grain-styles-in-hollywood.jpg" alt="Підхід Голлівуду до зерна змінився разом із змінами в культурі та методах виробництва. У 1960-х роках розвиток камер та фотографічних практик сприяв появі особливої візуальної ідентичності десятиліття. Пізніше режисери, які працювали в цифровому форматі, знову ввели зерно навмисно. У середині 1980-х років режисер Джеймс Кемерон вибрав особливо грубу плівку Kodak для фільму "Чужий" (1986, нижче праворуч на зображенні вище), ймовірно, щоб підвищити атмосферу та допомогти приховати дроти від практичних спецефектів. Джерело: https://archive.is/3ZSjN (моя остання стаття на цю тему)” width=”897″ height=”628″ /> Підхід Голлівуду до зерна змінився разом із змінами в культурі та методах виробництва. У 1960-х роках розвиток камер та фотографічних практик сприяв появі особливої візуальної ідентичності десятиліття. Пізніше режисери, які працювали в цифровому форматі, знову ввели зерно навмисно. У середині 1980-х років режисер Джеймс Кемерон вибрав особливо грубу плівку Kodak для фільму “Чужий” (1986, нижче праворуч на зображенні вище), ймовірно, щоб підвищити атмосферу та допомогти приховати дроти від практичних спецефектів. Джерело: https://archive.is/3ZSjN (моя остання стаття на цю тему)

Текстура аналогового зображення походить з часів, коли виробництво медіа коштувало реальні гроші, доступ був обмежений, і було хоча б приблизне відчуття, що тільки найбільш здатні або визначені могли зробити це, діючи як скорочення для реалізму та достовірності – і, коли високоякісні технології захоплення ліквідували його, ностальгія.

Крістофер Нолан ніколи не перейшов. Хоча більшість індустрії прийняла цифрові технології за їхню швидкість та гнучкість, знаний режисер наполягав на використанні плівки як дисципліни та естетики.

Денис Вільнев, працюючи в цифрових трубопроводах, все ж таки обробляє свій матеріал через фотохімічні процеси. Для фільмів про “Дюну”, знятих цифровим способом, кадри були надруковані на плівку, а потім оскановані назад у цифровий формат, просто для атмосфери та ефекту.

Фальшиве зерно

Фанати фільмів і телебачення асоціюють видиме зерно з високою роздільною здатністю, де бітрейт (кількість даних, що передаються в кожному кадрі) настільки високий, що навіть найменші деталі, такі як гранули галогенідів, зберігаються.

Однак, якщо стрімінгові мережі дійсно зробили б такий бітрейт доступним, це поставило б великий тиск на мережеву здатність, і, ймовірно, спричинило б буферизацію та тріпотіння. Тому платформи, такі як Netflix створюють оптимізовані версії AV1 свого контенту та використовують можливості кодека AV1 для додавання зерна до фільму або епізоду розумним і доречним чином, зберігаючи 30% пропускної здатності в процесі.

AV1 призначений для включення штучного зерна плівки, як у цих прикладах. Джерело: https://waveletbeam.com/index.php/av1-film-grain-synthesis

AV1 призначений для включення штучного зерна плівки, як у цих прикладах. Джерело: https://waveletbeam.com/index.php/av1-film-grain-synthesis

“Фетиш зерна” – це відносно рідкісний цифровий аналог атавістичних тенденцій, таких як відродження вінілу, і важко сказати, чи використовується він стрімінговими сервісами, щоб зробити високооптимізоване відео схожим на дуже дорогу “сировину” (для тих глядачів, які несвідомо асоціюють ці характеристики), роблячи бітрейт вищим, ніж він є насправді; чи щоб відвести перцептивне зниження якості старих шоу 4:3, коли стрімінгові сервіси обрізають їх до широкоекранного формату; чи просто, щоб пандерити ретро-“естетиці Нолана” взагалі.

Зерно ізольоване

Проблема полягає в тому, що зерно також є шумом. Цифрові системи ненавидять шум, і стрімінгові кодеки, такі як AV1, видаляють його, щоб зберегти пропускну здатність, якщо налаштування зерна не сконфігуровані явно. Аналогічно інструменти підвищення якості зображення на основі штучного інтелекту, такі як серія Topaz Gigapixel, обробляють зерно як помилку, яку потрібно виправити.

У сфері синтезу зображень на основі дифузії зерно дуже складно генерувати, оскільки воно представляє екстремальну деталь, і, таким чином, зазвичай з’являється лише в сильно переобучених моделях, оскільки вся архітектура моделі дифузії (LDM) призначена для видалення шуму (такого як зерно) для отримання чіткого зображення, а не для обробки зерна як імпліцитної властивості медіа.

Отже, створення переконливого зерна за допомогою машинного навчання дуже складно. І навіть якщо це можливо, рендеринг його назад у оптимізоване відео просто збільшить розмір файлу відео.

Через ці логістичні міркування сучасні відеокодеки, такі як Видовжувальний відеокодек (VVC) пропонують зерно як一种 “допоміжну” послугу.

VVC стискає чисте, очищене відео та видалить зерно. Замість того, щоб марнувати дані, намагаючись зберегти випадкові високочастотні шаблони зерна, він аналізує зерно окремо та кодує малий набір параметрів (наприклад, амплітуду, частоту та режим змішування), які описують, як регенерувати подібне зерно під час відтворення.

Ці параметри зберігаються в потоці FGC-SEI (Додаткова інформація про характеристики зерна плівки), який супроводжує основний потік біт. Після декодування синтезний модуль використовує ці інструкції для повторного застосування синтетичного зерна, яке імітує оригінал.

Це зберігає “вигляд” високобітрейдового, зернистого зображення, зберігаючи при цьому низький бітрейт, оскільки кодер не змушений витрачати ресурси на збереження непередбачуваного шуму.

Крім того, як і окремі файли субтитрів, цей фальшивий “зерновий” контент є специфічним для відео; застосування загальних фільтрів зерна в платформах, таких як Photoshop або After Effects, або в автоматизованих процесах обробки, не призведе до “прилаштованого” зерна, а лише до нанесення шуму.

Ліворуч: оригінальне зображення. Центр: фільтр зерна Camera Raw застосовано однаково до всіх каналів. Праворуч: той самий фільтр зерна застосовано окремо до кожного каналу послідовно. Джерело зображення (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (з моєї попередньої статті)

Ліворуч: оригінальне зображення. Центр: фільтр зерна Camera Raw застосовано однаково до всіх каналів. Праворуч: той самий фільтр зерна застосовано окремо до кожного каналу послідовно. Джерело зображення (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (з моєї попередньої статті)

Фільтр “Зерно” в Photoshop додає однаковий випадковий шум; але справжнє зерно плівки походить від кристалів галогенідів різного розміру. Застосування фільтра до кожного каналу окремо (див. зображення вище) лише створює більше хаосу, а не реалізму. Справжнє зерно плівки відображає, як світло впливає на шари емульсій у момент експозиції. Сімуляція цього вимагала б оцінки того, як різні області зображення активували б кожен шар галогеніду, а не просто розділення ефекту по каналам RGB.

FGA-NN

У цю сумнівну діяльність вступає нова дослідницька робота з Франції – коротка, але цікава робота, яка пропонує кількісно та якісно кращий метод аналізу та відтворення зерна:

Порівняння між справжнім зерном та результатами різних методів аналізу та синтезу. Джерело: https://arxiv.org/pdf/2506.14350

Порівняння між справжнім зерном та результатами різних методів аналізу та синтезу. Джерело: https://arxiv.org/pdf/2506.14350

Нова система, названа FGA-NN, не відходить від традиційного використання традиційного синтезу зерна на основі Гаусса через стандартний метод, сумісний з VVC, Видовжувальний синтез зерна плівки (VFGS). Що змінює система, це аналіз, використовуючи штучну нейронну мережу для більш точної оцінки параметрів синтезу

Отже, кінцеве зерно все ще синтезується за допомогою того ж традиційного моделі Гаусса – але мережа подає кращі метадані в стандартний генератор, заснований на правилах, отримуючи модель рівня стану мистецтва.

Нова робота названа FGA-NN: Нейронна мережа аналізу зерна плівки, і походить від трьох дослідників з InterDigital R&D, Cesson-Sévigné. Хоча робота не довга, давайте розглянемо деякі ключові аспекти досягнень, які пропонує новий метод.

Метод

Підсумуймо: система FGA-NN приймає зернисте відео як вхідні дані та витягує компактний опис зерна, видаючи параметри у стандартному форматі FGC-SEI, який використовується різними сучасними кодеками. Ці параметри передаються поряд з відео, дозволяючи декодеру відтворити зерно за допомогою VFGS, а не кодувати зерно безпосередньо.

Схема аналізу та повторного застосування зерна плівки у розподілі відео, використовуючи FGA-NN для витягування параметрів та VFGS для синтезу.

Схема аналізу та повторного застосування зерна плівки у розподілі відео, використовуючи FGA-NN для витягування параметрів та VFGS для синтезу.

Для навчання мережі автори потребували пари зернистого відео та відповідних метаданих FGC-SEI. Оскільки більшість зернистого матеріалу не має такого метаданих, дослідники створили自己的 набір даних, генеруючи параметри FGC-SEI, застосовуючи синтетичне зерно до чистого відео, та використовуючи їх як навчальні приклади.

Навчальні дані для FGA-NN були створені шляхом застосування синтетичного зерна до чистого матеріалу з наборів даних BVI-DVC та DIV2K. Випадкові параметри FGC-SEI були згенеровані та використані разом з інструментом синтезу VFGS, дозволяючи кожному зернистому відео бути спарованим з відомими метаданими.

Частотна модель, підтримувана поточними відеостандартами, була використана, з діапазонами параметрів, обмеженими для збереження візуальної правдоподібності по каналам луми та хроми.

Навчальні дані для нового зібрання були створені шляхом застосування синтетичного зерна до чистого матеріалу з наборів даних BVI-DVC та DIV2K. Випадкові параметри FGC-SEI були згенеровані та використані разом з інструментом синтезу VFGS, дозволяючи кожному зернистому відео бути спарованим з відомими метаданими.

Перегляд випадкових діапазонів параметрів FGC-SEI, використаних для генерації синтетичного зерна для навчання, застосованих до чистого матеріалу з наборів даних BVI-DVC та DIV2K. Параметри були обмежені для збереження візуально правдоподібних результатів по каналам луми та хроми.

Перегляд випадкових діапазонів параметрів FGC-SEI, використаних для генерації синтетичного зерна для навчання, застосованих до чистого матеріалу з наборів даних BVI-DVC та DIV2K. Параметри були обмежені для збереження візуально правдоподібних результатів по каналам луми та хроми.

Модель частотного фільтрування, єдина методика синтезу, підтримувана в реалізації кодеків, таких як VVC Test Model (VTM), була використана протягом усього процесу. Діапазони параметрів були обмежені для збереження візуальної правдоподібності по каналам луми та хроми.

Ефект мережі

FGA-NN має дві координовані моделі, для луми та хроми відповідно, кожна з яких призначена для передбачення конкретних параметрів, необхідних для відтворення реалістичного зерна плівки.

Для кожного вхідного зображення система оцінює набір інтервалів інтенсивності, коефіцієнтів масштабування, пов’язаних з кожним інтервалом, горизонтальних та вертикальних частот розрізнення, а також загального коефіцієнту масштабування, відомого як Log2Scale. Для цього модель використовує спільний екстрактор особливостей, який обробляє зернистий вхід та подає дані в чотири окремі гілки виводу, кожна з яких відповідає за окреме завдання передбачення:

Архітектура луминісцентної версії FGA-NN. Спільний бекбон витягує особливості з зернистого вхідного зображення, після чого слідують чотири гілки виводу, призначені для конкретних завдань передбачення: межі інтервалів, коефіцієнти масштабування, частоти розрізнення та глобальний Log2Scale. Хроматична мережа використовує ту ж структуру з зміненими розмірами вхідних та вихідних даних.

Архітектура луминісцентної версії FGA-NN. Спільний бекбон витягує особливості з зернистого вхідного зображення, після чого слідують чотири гілки виводу, призначені для конкретних завдань передбачення: межі інтервалів, коефіцієнти масштабування, частоти розрізнення та глобальний Log2Scale. Хроматична мережа використовує ту ж структуру з зміненими розмірами вхідних та вихідних даних.

Межі інтервалів передбачаються за допомогою регресійного аналізу, тоді як коефіцієнти масштабування, частоти розрізнення та глобальний коефіцієнт масштабування обробляються як задачі класифікації.

Архітектура змінена для відображення складності кожного завдання, з більшіми внутрішніми шарами, використовуваними для більш детальних передбачень; зокрема, хроматична модель дзеркально відображає структуру луминісцентної моделі, але адаптується до різних характеристик кольорових даних.

Навчання та тести

FGA-NN була навчена за допомогою чотирьох об’єктивних функцій, кожна з яких відповідає одному з її завдань передбачення. Для виводів класифікації використовувалася категоріальна функція втрат cross-entropy, щоб зменшити розрив між передбаченими мітками та справжніми значеннями.

Межі інтервалів були нормалізовані до діапазону 0-1 та оптимізовані за допомогою комбінованої втрати: експоненційно масштабованої L1 втрат (expL1), яка карала більші помилки сильніше, та монотонної пенальти, яка перешкоджала зниженню трендових значень. Всі чотири втрати були поєднані, з високими вагами, призначеними для частот розрізнення та коефіцієнтів масштабування, тоді як межі інтервалів та Log2Scale мали ваги 1 та 0,1.

Навчання проводилось під оптимізатором Adam з швидкістю навчання 5e-4, протягом 10 000 ітерацій, з розміром партії 64.

Єдиним порівнюваним інструментом, придатним для порівняльних тестів, була FGA-CONVENT, який також виробляє значення у форматі FGC-SEI, та використовується для обробки зерна. Обидві системи були протестовані на послідовностях UHD з набору даних JVET subjective evaluation set, використовуючи кадри зі справжнім зерном плівки.

Вертикальні пунктирні лінії вказують межі інтервалів інтенсивності, тоді як коефіцієнт Log2Scale позначений у мітці осі.

Вертикальні пунктирні лінії вказують межі інтервалів інтенсивності, тоді як коефіцієнт Log2Scale позначений у мітці осі.

На зображенні вище ми бачимо ідентичні обрізані кадри, згенеровані VFGS за допомогою параметрів кожного методу, порівняні з оригіналом. Їхні відповідні оцінки луми також нанесені на графік разом із справжніми значеннями, встановленими вручну за допомогою VFGS, який тут зображує інтенсивність пікселів на осі X (0–255), коефіцієнти масштабування на синій осі Y (0–255), та частоти розрізнення на зеленій осі Y (2–14).

Автори заявляють:

‘Відмічається, що FGA-NN точно захоплює загальний тренд справжнього шаблону зерна плівки та його амплітуду, в результаті чого синтезовані зображення мають перцептивно подібне зерно до тих, що мають справжнє зерно.

‘З іншого боку, FGA-CONVENT передбачає нижчий коефіцієнт масштабування, компенсуючи це нижчим коефіцієнтом Log2Scale внаслідок свого дизайну, та схильна генерувати грубіше зерно, ніж референс, що призводить до відмінного, але візуально узгодженого вигляду.’

Вони відзначають, що пряме порівняння зі справжніми параметрами зерна плівки є ненадійним, оскільки коефіцієнти масштабування та Log2Scale можуть компенсувати одне одного, а незначні помилки часто мають мало візуального впливу.

Тест віри

Вірність зерна плівки була протестована за чотирма робочими процесами: FGA-NN з VFGS; FGA-CONVENT плюс VFGS; Style-FG; та 3R-INN. Тести проводились за допомогою наборів даних FGC-SEI та FilmGrainStyle740k, порівнюючи вихідні дані з справжніми за допомогою оцінок перцептивної подібності (LPIPS); JSD-NSS; та розходження Кульбака-Лейблера (KL).

Результати тестування на наборі даних FilmGrainStyle740k. Style-FG та 3R-INN показують кращі результати, оскільки вони були навчені на цьому наборі, тоді як FGA-NN слідує за ними. FGA-CONVENT показує нижчі результати, що пояснюється її залежністю від багатофреймового аналізу та однорідних регіонів – умов, яких не дотримується малий, текстурно-багатий вхід, використаний у цьому випадку.

Результати тестування на наборі даних FilmGrainStyle740k. Style-FG та 3R-INN показують кращі результати, оскільки вони були навчені на цьому наборі, тоді як FGA-NN слідує за ними. FGA-CONVENT показує нижчі результати, що пояснюється її залежністю від багатофреймового аналізу та однорідних регіонів – умов, яких не дотримується малий, текстурно-багатий вхід, використаний у цьому випадку.

З цих результатів автори заявляють:

‘На наборі даних FilmGrainStyle740k Style-FG та 3R-INN показують кращі результати, оскільки вони були спеціально навчені на цьому наборі, тоді як FGA-NN слідує за ними. Виступ FGA-CONVENT у поєднанні з VFGS є субоптимальним на обидвох тестових наборах.

‘Це пояснюється тим, що аналіз залежить від однорідних регіонів та використовує інформацію з кількох кадрів у реальному випадку аналізу зерна плівки, тоді як у цьому оцінюванні аналіз проводиться з одним низькорозширеним зображенням (256×256 до максимального 768×512), яке часто містить значну текстуру.

‘Це ще більше ускладнює завдання для традиційного методу аналізу, роблячи неможливим застосування FGA-CONVENT до таких малих зображень.’

Нарешті, автори відзначають, що хоча методи, засновані на навчанні, такі як 3R-INN та Style-FG, демонструють сильні візуальні результати на кураторських наборах даних, їхня висока обчислювальна вартість робить їх непридатними для розгортання на пристроях кінцевих користувачів.

Порівняння кадрів низької якості, покращених за допомогою різних методів аналізу та синтезу (третій до останнього стовпці).

Порівняння кадрів низької якості, покращених за допомогою різних методів аналізу та синтезу (третій до останнього стовпці).

Натомість запропонований у новій роботі підхід поєднує легкий модуль аналізу FGA-NN з ефективним методом синтезу VFGS, який автори описують як більш життєздатне та розгортальне рішення для повторного введення зерна плівки у стиснуте відео.

Вони заявляють далі, що переваги FGA-NN можуть бути суттєвими у масштабі:

‘[Кодування] UHD-відео з зерном плівки на середніх до низьких бітрейтах за допомогою нашого робочого процесу аналізу та синтезу зерна плівки дозволяє економити до 90% бітрейту порівняно з високобітрейтовим кодуванням.’

Висновок

Одержимість зерном плівки є однією з най дивніших та най куріозніших конвульсій постаналогової епохи, і цікаво відзначити, що те, що колись вважалося обмеженням медіа, тепер стало тотемом реалізму та автентичності сам по собі, навіть (можливо підсвідомо) для нового покоління глядачів, народжених після фактичного занепаду емульсій.

Відмітьте, що жоден з методів рекреації зерна плівки, включаючи цю останню інновацію, не може точно захопити справжній ефект того, як світло впливає на шари галогенідів у справжньому фотохімічному процесі, у діапазоні умов.

 

Перше опубліковано середу, 18 червня 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]