Connect with us

Використання штучного інтелекту для симуляції зерна плівки

Погляд Anderson

Використання штучного інтелекту для симуляції зерна плівки

mm
Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

Зробіть Америку зернистою знову: новий інструмент штучного інтелекту може видалити зерно плівки зі старих кадрів, стиснути відео до частини його розміру, а потім повернути зерно, щоб глядачі нічого не помітили. Це працює з існуючими відеостандартами та зменшує пропускну здатність до 90 відсотків, зберігаючи при цьому винтажний вигляд.

 

Для багатьох з нас перегляд фільмів або старих телешоу “шипіння” зерна плівки є заспокійливим; навіть коли ми не свідомо реєструємо це, зерно говорить нам, що те, що ми дивимося, було зроблено за допомогою хімічних речовин, а не коду, і зв’язує досвід з фізичним світом: з вибором матеріалів, експозицією, процесами лабораторії та минулими епохами:

Підхід Голлівуду до зерна змінився разом із змінами культури та методів виробництва. У 1960-х роках розвиток камер та фотографічних практик сприяв появі особливої візуальної ідентичності десятиліття. Пізніше режисери, які працювали в цифровому форматі, знову ввели зерно навмисно. У середині 1980-х років режисер Джеймс Кемерон вибрав особливо грубе зерно Kodak для фільму “Чужі” (1986, нижче праворуч на зображенні вище), ймовірно, для посилення атмосфери, а також для приховування дротів від практичних мініатюрних робіт зі спецефектами. Джерело: https://archive.is/3ZSjN (моя остання стаття на цю тему)

Аналоговий текстур прийшов з часів, коли виробництво медіа коштувало справжні гроші, доступ був обмежений, і була хоча б певна впевненість, що тільки найбільш здатні або рішучі могли пройти, діючи як скорочення для реалізму, і авторитетності – і, коли високороздільна технологія захоплення ліквідувала його, ностальгія.

Крістофер Нолан ніколи не перейшов. Хоча більшість індустрії прийняла цифровий формат за його швидкість та гнучкість, відомий режисер наполягав на целулоїді як на дисципліні та естетиці.

Дені Вільнев, працюючи в цифрових трубопроводах, все ж таки проходить свої кадри через фотохімічні процеси. Для фільмів “Дюна”, знятих цифровим способом, кадри були надруковані на плівку, а потім оскановані назад у цифровий формат, просто для атмосфери та ефекту.

Фальшиве зерно

Фанати якості фільмів і телебачення асоціюють видиме зерно з високою роздільністю, де бітрейт (кількість даних, що передаються в кожному кадрі) настільки високий, що навіть найменші деталі, такі як гранули галогенідів, зберігаються.

Однак, якщо стрімінгові мережі дійсно надавали такий бітрейт, це поставило б серйозний тиск на мережеву здатність, і, ймовірно, викликало б буферизацію та стрибки. Тому платформи, такі як Netflix створюють оптимізовані версії AV1 свого контенту та використовують можливості кодека AV1 для додавання зерна до фільму або епізоду розумним і відповідним чином, зберігаючи 30% пропускної здатності в процесі.

AV1 призначений для включення штучного зерна плівки, як на цих прикладах. Джерело: https://waveletbeam.com/index.php/av1-film-grain-synthesis

AV1 призначений для включення штучного зерна плівки, як на цих прикладах. Джерело: https://waveletbeam.com/index.php/av1-film-grain-synthesis

“Фетиш зерна” – це відносно рідкісний цифровий аналог атавістичних тенденцій, таких як відродження вінілу, і важко сказати, чи це використовується стрімінговими сервісами для того, щоб зробити високооптимізоване відео схожим на дуже дороге “сире відео” (для тих глядачів, які несвідомо асоціюють ці характеристики), роблячи бітрейт вищим, ніж він є насправді; або для того, щоб відвести перцептивне зниження якості старих шоу 4:3, коли стрімінгові провайдери обрізують їх до широкоекранного формату; або просто для того, щоб потурати ретро-“естетиці Нолана” в цілому.

Зерно сховане

Проблема полягає в тому, що зерно також є шумом. Цифрові системи ненавидять шум, і стрімінгові кодеки, такі як AV1, видаляють його, щоб зберегти пропускну здатність, якщо тільки налаштування зерна не сконфігуровані явно. Аналогічно інструменти підвищення роздільності на основі штучного інтелекту, такі як серія Topaz Gigapixel, обробляють зерно як помилку, яку потрібно виправити.

У сфері синтезу зображень на основі дифузії зерно надзвичайно складно генерувати, оскільки воно представляє екстремальну деталь, і, таким чином, зазвичай з’являлося б тільки в сильно переобучених моделях, оскільки вся архітектура моделі дифузійної латентності (LDM) призначена для розбирання шуму (такого як зерно) на чисті зображення, а не для обробки зернистості як імпліцитних властивостей медіа.

Отже, створення переконливого зерна за допомогою машинного навчання є складним завданням. І навіть якщо це було б можливо, відтворення його прямо назад у оптимізоване відео просто збільшувало б розмір файлу відео назад до норми.

Через цю останню логістичну увагу, сучасні відеокодеки, такі як Вершатний відеокодек (VVC) пропонують зерно як一种 “супутню” службу.

VVC стискає чисте, денойзоване відео та викидає зерно. Замість того, щоб марнувати дані, намагаючись зберегти випадкові високочастотні зернистості, він аналізує зерно окремо та кодує малий набір параметрів (наприклад, амплітуду, частоту та режим змішування), які описують, як регенерувати подібне зерно під час відтворення.

Ці параметри зберігаються у потоці FGC-SEI (Додаткова інформація про характеристики зерна плівки), який супроводжує основний біт-потік. Після декодування синтезатор використовує ці інструкції для повторного застосування синтетичного зерна, яке імітує оригінальне.

Це зберігає “вигляд” високобітового, зернистого емульсію, зберігаючи при цьому фактичний бітрейт низьким, оскільки кодер не змушений витрачати ресурси на збереження непередбачуваного шуму.

Крім того, як і у випадку з окремими файлами субтитрів, це фальшиве “зерно” вміст є специфічним для відео, яке розглядається; хаотичне застосування загальних фільтрів зерна в платформах, таких як Photoshop чи After Effects, або в автоматизованих потоках обробки, не призведе до “прилаштованого” зерна, а лише до не пов’язаного наложення шуму:

Зліва: оригінальне зображення. Посередині: фільтр зерна Camera Raw, застосований однорідно до всіх каналів. Праворуч: той самий фільтр зерна, застосований окремо до кожного каналу послідовно. Джерело зображення (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (з моєї попередньої статті)

Зліва: оригінальне зображення. Посередині: фільтр зерна Camera Raw, застосований однорідно до всіх каналів. Праворуч: той самий фільтр зерна, застосований окремо до кожного каналу послідовно. Джерело зображення (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (з моєї попередньої статті)

Фільтр “Зерно” в Photoshop додає однорідний випадковий шум; проте справжнє зерно плівки походить від галогенідних кристалів різного розміру. Застосування фільтра до кожного каналу окремо (див. зображення вище) тільки створює більше хаосу, а не реалізму. Справжнє зерно плівки відображає, як світло впливає на шаруваті емульсії у момент експозиції. Сімуляція цього вимагала б оцінки того, як різні області зображення б активували кожен галогенідний шар, а не просто розділення ефекту по RGB-каналах.

FGA-NN

У цю підозрілу справу вступає нова дослідницька робота з Франції – коротка, але цікава робота, яка пропонує кількісно та якісно кращий метод аналізу та відновлення зерна:

Порівняння між справжнім зерном та результатами різних методів аналізу та синтезу. Джерело: https://arxiv.org/pdf/2506.14350

Порівняння між справжнім зерном та результатами різних методів аналізу та синтезу. Джерело: https://arxiv.org/pdf/2506.14350

Нова система, означена як FGA-NN, не відходить від традиційного використання традиційного синтезу зерна на основі Гаусса через стандартний метод, сумісний з VVC, Вершатний синтез зерна плівки (VFGS). Що змінює система, так це аналіз, який використовує нейронну мережу для більш точної оцінки параметрів синтезу

Отже, остаточне зерно все ще синтезується за допомогою того ж традиційного моделі Гаусса – проте мережа подає кращі метадані в стандартний, заснований на правилах генератор, отримуючи модель рівня стану мистецтва.

Нова робота називається FGA-NN: Нейронна мережа аналізу зерна плівки, і походить від трьох дослідників з InterDigital R&D, Cesson-Sévigné. Хоча робота не довга, давайте розглянемо деякі ключові аспекти вдосконалень, які пропонує новий метод.

Метод

Щоб повторити: система FGA-NN приймає зернисте відео як вхід та витягує компактний опис зерна, видаючи параметри у стандартному форматі FGC-SEI, який використовується різними сучасними кодеками. Ці параметри передаються поряд з відео, дозволяючи декодеру відновити зерно за допомогою VFGS, а не кодувати зерно безпосередньо.

Схема аналізу та повторного застосування зерна плівки у розподілі відео, використовуючи FGA-NN для витягування параметрів та VFGS для синтезу.

Схема аналізу та повторного застосування зерна плівки у розподілі відео, використовуючи FGA-NN для витягування параметрів та VFGS для синтезу.

Щоб навчити мережу, автори потребували пари зернистого відео та відповідних метаданих FGC-SEI. Оскільки більшість зернистого кадру не має такого метаданих, дослідники створили自己的 набір даних, генеруючи параметри FGC-SEI, застосовуючи синтетичне зерно до чистого відео, та використовуючи ці як навчальні приклади.

Навчальні дані для FGA-NN були створені шляхом застосування синтетичного зерна до чистого відео з наборів даних BVI-DVC та DIV2K. Випадкові параметри FGC-SEI були згенеровані та використані з інструментом синтезу VFGS, дозволяючи кожному зернистому відео бути спарованим з відомими метаданими.

Огляд випадкових діапазонів параметрів FGC-SEI, використаних для генерації синтетичного зерна для навчання, застосованих до чистого відео з наборів даних BVI-DVC та DIV2K. Параметри були обмежені для забезпечення візуально правдоподібних результатів по лумі та хромі.

Огляд випадкових діапазонів параметрів FGC-SEI, використаних для генерації синтетичного зерна для навчання, застосованих до чистого відео з наборів даних BVI-DVC та DIV2K. Параметри були обмежені для забезпечення візуально правдоподібних результатів по лумі та хромі.

Частотна модель, єдина синтезна методика, яка зараз підтримується в реалізації кодеків, таких як VVC Test Model (VTM), була використана протягом усього процесу. Діапазони параметрів були обмежені для збереження візуальної правдоподібності по лумі та хромі.

Ефект мережі

FGA-NN включає дві координовані моделі, для луми та хроми, відповідно, кожна з яких призначена для передбачення конкретних параметрів, необхідних для відновлення реалістичного зерна плівки.

Для кожного вхідного зображення система оцінює набір інтервалів інтенсивності, фактори масштабування, пов’язані з кожним інтервалом, горизонтальні та вертикальні частотні пороги, та загальний фактор масштабування, відомий як Log2Scale-фактор. Для цього модель використовує спільний витягувач особливостей, який обробляє зернистий вхід та подає інформацію у чотири окремі гілки виводу, кожна з яких відповідає за окреме завдання передбачення:

Архітектура луми-версії FGA-NN. Спільний бекбон витягує особливості з зернистого входу, після чого слідують чотири гілки виводу, призначені для конкретних завдань передбачення параметрів: межі інтервалів, фактори масштабування, частотні пороги та глобальний Log2Scale-фактор. Хрома-мережа використовує ту ж структуру з зміненими розмірами входу та виходу.

Архітектура луми-версії FGA-NN. Спільний бекбон витягує особливості з зернистого входу, після чого слідують чотири гілки виводу, призначені для конкретних завдань передбачення параметрів: межі інтервалів, фактори масштабування, частотні пороги та глобальний Log2Scale-фактор. Хрома-мережа використовує ту ж структуру з зміненими розмірами входу та виходу.

Межі інтервалів передбачаються за допомогою регресії, тоді як фактори масштабування, частотні пороги та глобальний масштабний фактор обробляються як задачі класифікації.

Архітектура змінена для відображення складності кожного завдання, з більшіми внутрішніми шарами, використовуваними для більш детальних передбачень; зокрема, хрома-модель дзеркально відображає структуру луми, але адаптується до різних характеристик кольорових даних.

Навчання та тести

FGA-NN була навчена за допомогою чотирьох об’єктивних функцій, кожна з яких відповідає одному з завдань передбачення.

Для виводів класифікації використовувалася категоріальна функція втрат cross-entropy для зменшення розриву між передбачуваними мітками та справжніми значеннями.

Межі інтервалів були нормалізовані до діапазону 0-1 та оптимізовані за допомогою комбінованої втрати: експоненційно масштабованої L1 втрати (expL1), яка покарала більші помилки сильніше, та монотонної пенальти, яка перешкоджала зниженню тренди. Всі чотири втрати були об’єднані, з високими вагами, призначеними для частотних порогів та факторів масштабування, тоді як межі інтервалів та Log2Scale мали ваги 1 та 0,1.

Навчання проводилось під оптимізатором Adam зі швидкістю навчання 5e-4, протягом 10 000 ітерацій, з розміром партії 64.

Єдиним порівнюваним інструментом, придатним для порівняльних тестів, був FGA-CONVENT, який також виробляє значення у форматі FGC-SEI, та використовується для обробки зерна.

Обидві системи були протестовані на UHD-послідовностях з JVET суб’єктивної оцінки набору, використовуючи кадри зі справжнім зерном плівки.

Вертикальні пунктирні лінії вказують межі інтервалів інтенсивності, тоді як Log2Scale-коефіцієнт позначений у мітці осі.

Вертикальні пунктирні лінії вказують межі інтервалів інтенсивності, тоді як Log2Scale-коефіцієнт позначений у мітці осі.

У зображенні вище ми бачимо ідентичні обрізані кадри, згенеровані VFGS за допомогою параметрів з кожного методу, порівняні з оригіналом. Їхні відповідні оцінки луми також нанесені на графік проти справжніх значень, встановлених вручну за допомогою VFGS, який тут зображує інтенсивність пікселів на осі X (0–255), фактори масштабування на синій осі Y (0–255), та частотні пороги на зеленій осі Y (2–14).

Автори заявляють:

‘Видно, що FGA-NN точно захоплює загальну тенденцію справжнього зернистого шаблону та амплітуди, що призводить до синтезованих зображень з перцептивно подібним зерном до тих, що мають справжнє зерно.

‘З іншого боку, FGA-CONVENT передбачає нижчий фактор масштабування, компенсований відповідним нижчим Log2Scale-фактором внаслідок його конструкції, та схильний генерувати більш грубе зернисте шаблон, ніж посилання, що призводить до відмінного, проте візуально узгодженого вигляду.’

Вони відзначають, що прямий порівняльний аналіз з параметрами справжнього зерна є ненадійним, оскільки масштабування та Log2Scale можуть компенсувати одне одного, а незначні помилки часто мають мало візуального впливу.

Тест віри

Вірність зерна плівки була протестована за чотирма робочими процесами: FGA-NN з VFGS; FGA-CONVENT плюс VFGS; Style-FG; та 3R-INN. Тести проводились на наборах даних FGC-SEI та FilmGrainStyle740k, порівнюючи вихід з справжнім за допомогою Перцептивної метрики подібності, заснованої на навчанні (LPIPS); JSD-NSS; та Кульбака-Лейблера (KL) розбіжності.

Результати бенчмарку на наборі даних FilmGrainStyle740k. Style-FG та 3R-INN перевершують інші через навчання на цьому наборі, тоді як FGA-NN слідує близько. FGA-CONVENT показує нижчу продуктивність, що відображає його залежність від аналізу кількох кадрів та однорідних регіонів – умов, яких не задовольняють маленькі, текстурно-багаті входи, використані в цьому випадку.

Результати бенчмарку на наборі даних FilmGrainStyle740k. Style-FG та 3R-INN перевершують інші через навчання на цьому наборі, тоді як FGA-NN слідує близько. FGA-CONVENT показує нижчу продуктивність, що відображає його залежність від аналізу кількох кадрів та однорідних регіонів – умов, яких не задовольняють маленькі, текстурно-багаті входи, використані в цьому випадку.

З цих результатів автори заявляють:

‘На наборі тестів FilmGrainStyle740k Style-FG та 3R-INN досягають найкращих результатів, оскільки ці методи були спеціально навчені на цьому наборі, тоді як FGA-NN слідує близько. Продуктивність FGA-CONVENT, поєднаного з VFGS, є підоптимальною на обидвох наборах тестів.

‘Це відбувається лише через те, що аналіз залежить від однорідних регіонів та використовує інформацію з кількох кадрів у реальному випадку аналізу зерна плівки, тоді як у цьому оцінюванні аналіз надається з одного низькорозрізного зображення (256×256 до максимального 768×512), яке часто містить значну текстуру.

‘Це ще більше ускладнює завдання для традиційного методу аналізу, роблячи неможливим застосування FGA-CONVENT до таких малих зображень.’

Нарешті, автори відзначають, що хоча методи, засновані на навчанні, такі як 3R-INN та Style-FG, дають сильні візуальні результати на кураторських наборах даних, їхня висока обчислювальна вартість робить їх непридатними для розгортання на пристроях кінцевих користувачів.

Порівняння низькобітових кадрів, покращених за допомогою різних робочих процесів аналізу та синтезу (третій до останнього стовпчика).

Порівняння низькобітових кадрів, покращених за допомогою різних робочих процесів аналізу та синтезу (третій до останнього стовпчика).

На відміну від цього, підхід, запропонований у цій роботі, поєднує легкий модуль аналізу FGA-NN з ефективним синтезом VFGS, який автори описують як більш життєздатне та розгортальне рішення для повторного введення зерна плівки у стиснене відео.

Вони заявляють далі, що переваги FGA-NN можуть бути суттєвими, у масштабі:

‘[Кодування] UHD-відео з зерном плівки на середньому до низького бітрейті за допомогою нашого робочого процесу аналізу та синтезу зерна дозволяє зменшити бітрейт до 90% порівняно з високобітовим кодуванням.’

Висновок

Одержимість зерном плівки є однією з найдивніших та найбільш курйозних прикрас постаналогової епохи, і цікаво відзначити, що те, що колись вважалося обмеженням médіа, тепер стало талісманом реалізму та автентичності сам по собі, навіть (можливо підсвідомо) для нового покоління глядачів, народжених після фактичного занепаду емульсій.

Відзначимо, що жоден з сучасних методів відновлення зерна, включаючи це останнє інноваційне рішення, не може точно захопити справжній ефект того, як світло впливає на шари галогенідів у справжньому фотохімічному процесі, у діапазоні умов.

 

Перша публікація у середу, 18 червня 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]