Connect with us

Взгляд Anderson

Использование ИИ для симуляции зерна пленки

mm
Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

Сделайте Америку зернистой снова: новый инструмент ИИ может удалить зерно пленки из старых кадров, сжать видео до доли его размера, а затем вернуть зерно, так что зрители не заметят. Он работает с существующими видеостандартами и снижает пропускную способность до 90 процентов, сохраняя при этом винтажный вид.

 

Для многих из нас просмотр фильмов или старых телешоу “шум” зерна пленки успокаивает; даже когда мы не осознаем это сознательно, зерно говорит нам, что то, что мы смотрим, было сделано с помощью химических веществ, а не кода, и связывает опыт с физическим миром: с выбором запасов, экспозицией, лабораторными процессами и ушедшими эпохами:

Подход Голливуда к зерну изменился вместе с культурными и производственными методами. В 1960-х годах эволюционирующие камерные запасы и фотографические практики способствовали особой визуальной идентичности десятилетия. Позже режиссеры, работающие в цифровом формате, начали намеренно возвращать зерно. В середине 1980-х годов режиссер Джеймс Кэмерон выбрал особенно грубый запас Kodak для фильма “Чужие” (1986, нижний правый угол на изображении выше), вероятно, чтобы усилить атмосферу, а также помочь скрыть провода от практической работы с миниатюрами VFX. Источник: https://archive.is/3ZSjN (моя последняя статья на эту тему)

Аналоговая текстура происходит из времени, когда производство медиа стоило реальных денег, доступ был ограничен, и было хотя бы некоторое представление о том, что только наиболее способные или решительные люди могли добиться успеха, выступая в качестве сокращения для реализма и достоверности – и, когда технологии высокого разрешения устранили его, ностальгию.

Кристофер Нолан никогда не переключался. Хотя большая часть индустрии приняла цифровой формат за его скорость и гибкость, известный режиссер настаивал на использовании целлулоида как дисциплины и эстетики.

Денис Вильнев, работающий в цифровых трубопроводах, все еще проходит свою пленку через фотохимические процессы. Для фильмов “Дюна”, снятых цифровым способом, кадры были напечатаны на пленочном запасе, а затем отсканированы обратно в цифровой формат, исключительно для атмосферы и эффекта.

Фальшивое зерно

Конносьеры фильмов и телевизионного качества ассоциируют видимое зерно с высоким разрешением, где битрейт (количество данных, вводимых в каждый кадр) так высок, что даже самые мелкие детали, такие как галоидные зерна, сохраняются.

Однако, если стриминговые сети действительно сделали бы доступным такой битрейт, это поставило бы серьезную нагрузку на сеть, и, вероятно, вызвало бы буферизацию и заикание. Поэтому платформы, такие как Netflix создают оптимизированные версии AV1 своего контента и используют возможности кодека AV1 для добавления зерна к фильму или эпизоду умным и уместным образом, экономя 30% пропускной способности в процессе.

AV1 предназначен для включения искусственного зерна пленки, как в этих примерах. Источник: https://waveletbeam.com/index.php/av1-film-grain-synthesis

AV1 предназначен для включения искусственного зерна пленки, как в этих примерах. Источник: https://waveletbeam.com/index.php/av1-film-grain-synthesis

“Фетиш зерна” – это относительно редкий цифровой аналог атавистических тенденций, таких как возрождение винила, и трудно сказать, используется ли он стриминговыми сервисами, чтобы сделать высокооптимизированное видео похожим на очень дорогое “сырое видео” (для тех зрителей, которые бессознательно ассоциировали эти характеристики), делая битрейт более высоким, чем он есть; или чтобы отвлечь перцептивное качество, которое старые шоу 4:3 бы приняли, когда стриминговые провайдеры обрезают их до широкоэкранного формата; или просто чтобы потакать ретро-“эстетике Нолана” в целом.

Зерно в изоляции

Проблема заключается в том, что зерно также является шумом. Цифровые системы ненавидят шум, и стриминговые кодеки, такие как AV1, удаляют его, чтобы сэкономить пропускную способность, если настройки зерна не настроены явно. Аналогично AI-апгрейдеры, такие как серия Topaz Gigapixel, рассматривают зерно как ошибку, которую необходимо исправить.

В области синтеза изображений на основе диффузии зерно чрезвычайно сложно генерировать, поскольку оно представляет крайнюю деталь, и, следовательно, обычно появляется только в сильно переобученных моделях, поскольку вся архитектура модели диффузии (LDM) предназначена для разложения шума (такого как зерно) на четкие изображения, а не для рассмотрения зернистых флек как неявных свойств в медиа.

Поэтому создание убедительного зерна с помощью машинного обучения может быть сложной задачей. И даже если бы кто-то мог это сделать, рендеринг его прямо обратно в оптимизированное видео просто увеличил бы размер файла видео обратно.

Из-за этой логистической причины современные видеокодеки, такие как Универсальный видеокодек (VVC) предлагают зерно в качестве вида “сайдкара”.

VVC сжимает чистое, очищенное видео и удаляет зерно. Вместо того, чтобы тратить данные, пытаясь сохранить случайные высокочастотные закономерности зерна, он анализирует зерно отдельно и кодирует небольшой набор параметров (например, амплитуду, частоту и режим смешивания), которые описывают, как регенерировать подобное зерно во время воспроизведения.

Эти параметры хранятся в FGC-SEI (Дополнительная информация о характеристиках зерна пленки) потоке, который проходит вместе с основным бит-потоком. После декодирования синтетический модуль использует эти инструкции, чтобы повторно применить синтетическое зерно, имитирующее оригинальное.

Это сохраняет “вид” высокобитрейтового, богатого зерном эмульсии, сохраняя при этом фактический битрейт низким, поскольку кодировщик не вынужден тратить ресурсы на сохранение непредсказуемого шума.

Кроме того, как и дискретные файлы субтитров, это фальшивое “зерно” содержимое специфично для видео в вопросе; случайное применение общих фильтров зерна в платформах, таких как Photoshop или After Effects, или в автоматических процессах обработки, не приведет к “подогнанному” зерну, а вместо этого к наложению шума:

Слева: исходное изображение. В центре: фильтр зерна Camera Raw, примененный равномерно ко всем каналам. Справа: тот же фильтр зерна, примененный индивидуально к каждому каналу в последовательности. Источник изображения (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (из моей предыдущей статьи)

Слева: исходное изображение. В центре: фильтр зерна Camera Raw, примененный равномерно ко всем каналам. Справа: тот же фильтр зерна, примененный индивидуально к каждому каналу в последовательности. Источник изображения (CC0): https://stocksnap.io/photo/woman-beach-FJCOO6JWDP (из моей предыдущей статьи)

Фильтр “Зерно” в Photoshop добавляет равномерный случайный шум; но настоящее зерно пленки происходит от галоидных кристаллов разного размера. Применение фильтра к каждому каналу отдельно (см. изображение выше) просто создает больше хаоса, а не реализма. Настоящее зерно пленки отражает, как свет ударяет по слоям эмульсий в момент экспозиции. Симуляция этого потребует оценки того, как разные области изображения активировали бы каждый галоидный слой, а не просто разделения эффекта на RGB-каналы.

FGA-NN

В эту сомнительную погоню приходит новая исследовательская работа из Франции – краткая, но интересная поездка, которая предлагает количественно и качественно лучший метод анализа и реконструкции зерна:

Сравнение между зерном, полученным из реальных данных, и результатами различных методов анализа и синтеза. Источник: https://arxiv.org/pdf/2506.14350

Сравнение между зерном, полученным из реальных данных, и результатами различных методов анализа и синтеза. Источник: https://arxiv.org/pdf/2506.14350

Новая система, озаглавленная FGA-NN, не отклоняется от стандартного использования гауссовского синтеза зерна через стандартный метод, совместимый с VVC, Универсальный синтез зерна пленки (VFGS). Что меняет система, так это анализ, используя нейронную сеть для более точной оценки параметров синтеза.

Следовательно, окончательное зерно по-прежнему синтезируется с помощью того же гауссовского модели, но сеть подает лучшие метаданные в стандартный, основанный на правилах генератор, получая модель высшего уровня.

Новая статья озаглавлена FGA-NN: Нейронная сеть анализа зерна пленки, и исходит от трех исследователей из InterDigital R&D, Cesson-Sévigné. Хотя статья не длинная, давайте рассмотрим некоторые ключевые аспекты достижений, которые предлагает новый метод.

Метод

Чтобы повторить: система FGA-NN принимает зернистое видео в качестве входных данных и извлекает компактное описание зерна, выводя параметры в стандартизированном формате FGC-SEI, используемом различными современными кодеками. Эти параметры передаются вместе с видео, позволяя декодировщику реконструировать зерно с помощью VFGS, а не кодировать зерно напрямую.

Схема анализа и повторного применения зерна пленки в распределении видео, используя FGA-NN для извлечения параметров и VFGS для синтеза.

Схема анализа и повторного применения зерна пленки в распределении видео, используя FGA-NN для извлечения параметров и VFGS для синтеза.

Чтобы обучить сеть, авторам нужны были пары зернистых видео и соответствующих метаданных FGC-SEI. Поскольку большинство зернистых кадров не имеют такого метаданных, исследователи создали свою собственную базу данных, генерируя параметры FGC-SEI, применяя синтетическое зерно к чистым видео, и используя их в качестве примеров для обучения.

Данные для обучения FGA-NN были созданы путем применения синтетического зерна к чистым кадрам из BVI-DVC и DIV2K баз данных. Случайные параметры FGC-SEI были сгенерированы и использованы с инструментом синтеза VFGS, позволяя каждому зернистому видео быть сопоставленным с известными метаданными.

Частотная модель, поддерживаемая текущими видеостандартами, была использована, с ограниченными диапазонами параметров для сохранения визуальной правдоподобности на луминансных и хроминансных каналах.

Эффект сети

FGA-NN имеет две координированные модели, для луминанса и хроминанса соответственно, каждая из которых предназначена для прогнозирования конкретных параметров, необходимых для реконструкции реалистичного зерна пленки.

Для каждого входного изображения система оценивает набор интервалов интенсивности, масштабирующие коэффициенты, связанные с каждым интервалом, горизонтальные и вертикальные частоты среза, и общую корректировку масштаба, известную как фактор Log2Scale. Чтобы справиться с этим, модель использует общий извлекатель функций, который обрабатывает зернистый вход и подает в четыре отдельных выходных ветви, каждая из которых отвечает за конкретную задачу прогнозирования:

Архитектура версии луминанса FGA-NN. Общий бэкбон извлекает функции из зернистых входных кадров, за которыми следуют четыре выходных ветви, адаптированные для конкретных задач прогнозирования параметров: границы интервалов, масштабирующие коэффициенты, частоты среза и глобальный Log2Scale. Хроминансная сеть использует ту же структуру с измененными размерами входа и выхода.

Архитектура версии луминанса FGA-NN. Общий бэкбон извлекает функции из зернистых входных кадров, за которыми следуют четыре выходных ветви, адаптированные для конкретных задач прогнозирования параметров: границы интервалов, масштабирующие коэффициенты, частоты среза и глобальный Log2Scale. Хроминансная сеть использует ту же структуру с измененными размерами входа и выхода.

Границы интервалов прогнозируются с помощью регрессии, в то время как масштабирующие коэффициенты, частоты среза и глобальная корректировка масштаба рассматриваются как задачи классификации.

Архитектура адаптирована для отражения сложности каждой задачи, с использованием более крупных внутренних слоев для более тонких прогнозов; в частности, хроминансная модель отражает структуру луминанса, но адаптируется к различным характеристикам цветных данных.

Обучение и тестирование

FGA-NN была обучена с использованием четырех функций цели, каждая из которых соответствует одной из его задач прогнозирования. Для классификационных выходов использовалась категориальная функция потерь перекрестной энтропии, чтобы уменьшить разницу между предсказанными метками и реальными данными.

Границы интервалов были нормализованы до диапазона от 0 до 1 и оптимизированы с помощью комбинированной функции потерь: экспоненциально масштабированной L1 функции потерь (expL1), которая штрафовала более крупные ошибки сильнее, и монотонной штрафной функции, которая препятствовала снижению тренда. Все четыре функции потерь были объединены, с высокими весами, присвоенными частотам среза и масштабирующим коэффициентам, в то время как границы интервалов и Log2Scale были взвешены как 1 и 0,1 соответственно.

Обучение проводилось под оптимизатором Adam при скорости обучения 5e-4, в течение 10 000 итераций, с размером партии 64.

Единственный сравнимый инструмент, подходящий для сравнительных тестов, был FGA-CONVENT, который также производит значения в формате FGC-SEI, и используется для обработки зерна. Обе системы были протестированы на UHD-последовательностях из JVET набора субъективной оценки, используя кадры, содержащие реальное зерно пленки.

Вертикальные пунктирные линии указывают границы интервалов интенсивности, в то время как коэффициент Log2Scale указан в метке оси.

Вертикальные пунктирные линии указывают границы интервалов интенсивности, в то время как коэффициент Log2Scale указан в метке оси.

Авторы заявляют:

‘Можно наблюдать, что FGA-NN точно захватывает общий тренд реального узора зерна пленки и его амплитуды, в результате чего синтезированные изображения имеют перцептивно подобное зерно пленки, как и реальные.’

‘С другой стороны, FGA-CONVENT предсказывает более низкий масштабирующий коэффициент, компенсируемый соответствующим более низким коэффициентом Log2Scale в результате его конструкции, и склоняется к генерации более крупного узора зерна пленки, чем эталон, в результате чего получается отличный, но визуально последовательный вид.’

Они отмечают, что прямое сравнение с реальными параметрами зерна пленки ненадежно, поскольку масштаб и Log2Scale могут компенсировать друг друга, и незначительные ошибки часто имеют мало визуального влияния.

Тест веры

Верность зерна пленки была протестирована на четырех рабочих процессах: FGA-NN с VFGS; FGA-CONVENT плюс VFGS; Style-FG; и 3R-INN. Тесты использовали как набор FGC-SEI, так и FilmGrainStyle740k наборы данных, сравнивая выходные данные с реальными данными, используя Метрики перцептивного сходства (LPIPS); JSD-NSS; и расход Кульбака-Лейблера (KL).

Результаты тестирования на наборе данных FilmGrainStyle740k. Style-FG и 3R-INN превосходят других, поскольку они были обучены на этом наборе, в то время как FGA-NN следует близко за ними. FGA-CONVENT показывает худшие результаты, отражая его зависимость от многофреймового анализа и однородных областей – условий, не выполненных в этом случае.

Результаты тестирования на наборе данных FilmGrainStyle740k. Style-FG и 3R-INN превосходят других, поскольку они были обучены на этом наборе, в то время как FGA-NN следует близко за ними. FGA-CONVENT показывает худшие результаты, отражая его зависимость от многофреймового анализа и однородных областей – условий, не выполненных в этом случае.

Из этих результатов авторы заявляют:

‘На наборе тестов FilmGrainStyle740k Style-FG и 3R-INN достигают лучших результатов, поскольку эти методы были специально обучены на этом наборе, в то время как FGA-NN следует близко за ними. Производительность FGA-CONVENT в сочетании с VFGS является неоптимальной на обоих тестовых наборах. ‘

‘Это происходит исключительно из-за того, что анализ опирается на однородные области и использует информацию из нескольких кадров в реальном случае анализа зерна пленки, тогда как в настоящем тесте анализ предоставляется с одним низкокачественным изображением (256×256 до максимума 768×512), которое часто содержит значительную текстуру. ‘

‘Это еще больше осложняет задачу для традиционного метода анализа, что делает невозможным применение FGA-CONVENT к таким маленьким изображениям.’

Наконец, авторы отмечают, что хотя методы, основанные на обучении, такие как 3R-INN и Style-FG, производят сильные визуальные результаты на отобранных наборах данных, их высокая вычислительная стоимость делает их непригодными для развертывания на устройствах конечных пользователей.

Сравнение кадров с низким битрейтом, улучшенных с помощью различных рабочих процессов анализа и синтеза (третья до последней колонки).

Сравнение кадров с низким битрейтом, улучшенных с помощью различных рабочих процессов анализа и синтеза (третья до последней колонки).

В отличие от этого, подход, предложенный в новой статье, сочетает легкий модуль анализа FGA-NN с эффективным методом синтеза VFGS, который авторы описывают как более жизнеспособное и развертываемое решение для повторного введения зерна пленки в сжатых видео.

Они заявляют далее, что преимущества FGA-NN потенциально значительны, в масштабе:

‘[Кодирование] видео UHD с зерном пленки на среднем или низком битрейте, используя наш рабочий процесс анализа и синтеза зерна пленки, позволяет сэкономить до 90% битрейта по сравнению с кодированием высокого битрейта.’

Вывод

Одержимость зерном пленки – одна из самых странных и любопытных условностей постаналоговой эпохи, и интересно отметить, что то, что когда-то считалось ограничением среды, теперь стало символом правдоподобия и аутентичности само по себе, даже (может быть, бессознательно) для нового поколения зрителей, родившихся после фактического упадка эмульсии.

Следует отметить, что ни один из современных методов реконструкции зерна, включая это последнее нововведение, не может точно захватить истинный эффект того, как свет влияет на слои галоидов в реальном фотохимическом процессе, в диапазоне условий.

 

Опубликовано впервые в среду, 18 июня 2025

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.