Взгляд Anderson
JPEG AI стирает границу между реальным и синтетическим

В феврале этого года был опубликован международный стандарт JPEG AI, после нескольких лет исследований, направленных на использование методов машинного обучения для создания более компактного и легко передаваемого и хранимого кодека изображений, без потери перцептивного качества.

Из официального потока публикаций для JPEG AI, сравнение между пиковой сигнал-шумовым соотношением (PSNR) и подходом JPEG AI с помощью ML. Source: https://jpeg.org/jpegai/documentation.html
Одной из возможных причин, почему это событие не получило широкой огласки, является то, что основные PDF-файлы для этого объявления были (иронично) недоступны через бесплатные порталы, такие как Arxiv. Тем не менее, Arxiv уже опубликовал ряд исследований, изучающих значение JPEG AI с различных аспектов, включая необычные артефакты сжатия и его значимость для судебной экспертизы.

Одно исследование сравнило артефакты сжатия, включая те, которые были в более ранней версии JPEG AI, и обнаружило, что новый метод имеет тенденцию размыть текст – не незначительную проблему в случаях, когда кодек может способствовать цепочке доказательств. Source: https://arxiv.org/pdf/2411.06810
Поскольку JPEG AI изменяет изображения способами, имитирующими артефакты синтетических генераторов изображений, существующие судебные инструменты имеют трудности с различением реальных и фальшивых изображений:

После сжатия JPEG AI современные алгоритмы уже не могут надежно разделить аутентичный контент и манипулированные области на картах локализации, согласно недавней работе (март 2025). Источники примеров, видимые слева, являются манипулированными/фальшивыми изображениями, где манипулированные области четко очерчены при стандартных судебных методах (центральное изображение). Однако сжатие JPEG AI придает фальшивым изображениям слой достоверности (изображение справа). Source: https://arxiv.org/pdf/2412.03261
Одной из причин является то, что JPEG AI обучен с использованием модели архитектуры, подобной тем, которые используются генеративными системами, которые судебные инструменты стремятся обнаружить:

Новая работа иллюстрирует сходство между методологиями ай-драйвен сжатия изображений и фактическими ай-генерированными изображениями. Source: https://arxiv.org/pdf/2504.03191
Следовательно, обе модели могут производить некоторые подобные основные визуальные характеристики, с судебной точки зрения.
Квантование
Это пересечение происходит из-за квантования, общего для обеих архитектур, и которое используется в машинном обучении как метод преобразования непрерывных данных в дискретные точки, и как метод оптимизации, который может значительно уменьшить размер обученной модели (любители синтеза изображений будут знакомы с ожиданием между официальным выпуском модели и версией, оптимизированной сообществом, которая может работать на локальном оборудовании).
В этом контексте квантование относится к процессу преобразования непрерывных значений в латентном представлении изображения в фиксированные, дискретные шаги. JPEG AI использует этот процесс, чтобы уменьшить количество данных, необходимых для хранения или передачи изображения, упрощая внутреннее числовое представление.
Хотя квантование делает кодирование более эффективным, оно также налагает структурные регулярности, которые могут напоминать артефакты, оставленные генеративными моделями – достаточно тонкие, чтобы избежать восприятия, но нарушающие судебные инструменты.
В ответ, авторы новой работы, озаглавленной Три судебных подсказки для изображений JPEG AI, предлагают интерпретируемые, не-нейронные методы, которые обнаруживают сжатие JPEG AI; определяют, было ли изображение пересжато; и различают сжатые реальные изображения и те, которые были сгенерированы полностью ай-моделями.
Метод
Цветовые корреляции
Статья предлагает три ‘судебные подсказки’, адаптированные для изображений JPEG AI: цветовые канальные корреляции, введенные на этапе предобработки JPEG AI; измеримые искажения качества изображения при повторных сжатиях, которые раскрывают события пересжатия; и латентные пространственные квантовые закономерности, которые помогают различать изображения, сжатые JPEG AI, и те, которые были сгенерированы ай-моделями.
Что касается подхода, основанного на цветовых корреляциях, то предобработка JPEG AI вводит статистические зависимости между цветовыми каналами изображения, создавая сигнатуру, которая может служить судебной подсказкой.
JPEG AI преобразует изображения RGB в цветовое пространство YUV и выполняет 4:2:0 хрома-сабсэмплинг, который включает в себя понижение частоты хроминансных каналов до сжатия. Этот процесс приводит к тонким корреляциям между высокочастотными остатками красных, зеленых и синих каналов – корреляциям, которые не присутствуют в несжатых изображениях и которые отличаются по силе от тех, которые производятся традиционным сжатием JPEG или синтетическими генераторами изображений.

Сравнение того, как сжатие JPEG AI изменяет цветовые корреляции в изображениях..
Выше мы видим сравнение из статьи, иллюстрирующее, как сжатие JPEG AI изменяет цветовые корреляции в изображениях, используя красный канал в качестве примера.
Панель А сравнивает несжатые изображения с сжатыми JPEG AI, показывая, что сжатие значительно увеличивает межканальную корреляцию; панель Б изолирует эффект предобработки JPEG AI – только цветовое преобразование и сабсэмплинг – демонстрируя, что даже этот шаг alone повышает корреляции заметно; панель В показывает, что традиционное сжатие JPEG также увеличивает корреляции немного, но не в той же степени; и панель Г исследует синтетические изображения, с Midjourney-V5 и Adobe Firefly отображающими умеренные корреляционные увеличения, в то время как другие остаются ближе к несжатым уровням.
Скорость-искажение
Сигнал скорости-искажения выявляет пересжатие JPEG AI, отслеживая, как качество изображения, измеряемое пиковой сигнал-шумовым соотношением (PSNR), снижается в предсказуемом порядке на протяжении нескольких проходов сжатия.
Исследование утверждает, что повторное сжатие изображения с помощью JPEG AI приводит к постепенным, но все еще измеримым, потерям качества изображения, как количественно выражается в PSNR, и что это постепенное ухудшение образует основу судебной подсказки для обнаружения того, было ли изображение пересжато.
В отличие от традиционного JPEG, где ранее методы отслеживали изменения в конкретных блоках изображения, JPEG AI требует другого подхода, из-за своей нейронной архитектуры сжатия; поэтому авторы предлагают отслеживать, как bitrate и PSNR эволюционируют при последовательных сжатиях. Каждый раунд сжатия изменяет изображение меньше, чем предыдущий, и это уменьшающееся изменение (при построении против bitrate) может раскрыть, было ли изображение пересжато:

Иллюстрация того, как повторное сжатие влияет на качество изображения при разных кодеках, показывает, что JPEG AI и нейронный кодек, разработанный в https://arxiv.org/pdf/1802.01436, оба демонстрируют стабильное снижение PSNR при каждом дополнительном сжатии – даже при более низких битрейтах. Напротив, традиционное сжатие JPEG поддерживает относительно стабильное качество при нескольких сжатиях, если только bitrate не высок.
На изображении выше мы видим график скорости-искажения для JPEG AI; второго ай-базированного кодека; и традиционного JPEG, обнаруживая, что JPEG AI и нейронный кодек показывают стабильное снижение PSNR при всех битрейтах, в то время как традиционное сжатие JPEG показывает только заметное ухудшение при гораздо более высоких битрейтах. Это поведение обеспечивает количественный сигнал, который можно использовать для флагирования пересжатых изображений JPEG AI.
Выделив, как bitrate и качество изображения эволюционируют при нескольких раундах сжатия, авторы аналогично построили сигнатуру, которая помогает флагировать, было ли изображение пересжато, обеспечивая потенциальную практическую судебную подсказку в контексте JPEG AI.
Квантование
Как мы видели ранее, одной из более сложных судебных проблем, возбужденных JPEG AI, является его визуальное сходство с синтетическими изображениями, сгенерированными диффузионными моделями. Обе системы используют архитектуры кодирования-декодирования, которые обрабатывают изображения в сжатом латентном пространстве и часто оставляют после себя тонкие артефакты апсэмплинга.
Эти общие черты могут запутать детекторы – даже те, которые были переобучены на изображениях JPEG AI. Однако ключевое структурное различие остается: JPEG AI применяет квантование, шаг, который округляет латентные значения до дискретных уровней для эффективного сжатия, в то время как генеративные модели обычно не делают этого.
Новая статья использует это различие для разработки судебной подсказки, которая косвенно проверяет наличие квантования. Метод анализирует, как латентное представление изображения реагирует на округление, исходя из предположения, что если изображение уже было квантовано, его латентная структура будет демонстрировать измеримую закономерность, выравнивающуюся с округленными значениями.
Эти закономерности, хотя и невидимые для глаза, производят статистические различия, которые могут помочь разделить сжатые реальные изображения и полностью синтетические.

Пример средних спектров Фурье показывает, что как изображения, сжатые JPEG AI, так и те, которые были сгенерированы диффузионными моделями, такими как Midjourney-V5 и Stable Diffusion XL, демонстрируют регулярные сетчатые закономерности в частотной области – артефакты, обычно связанные с апсэмплингом. Напротив, реальные изображения не имеют этих закономерностей. Это совпадение в спектральной структуре помогает объяснить, почему судебные инструменты часто путают сжатые реальные изображения с синтетическими.
Важно отметить, что авторы показывают, что эта подсказка работает при разных генеративных моделях и остается эффективной даже тогда, когда сжатие достаточно сильное, чтобы обнулить целые разделы латентного пространства. Напротив, синтетические изображения показывают гораздо более слабые реакции на этот тест округления, предлагая практический способ различать между двумя.
Результат предназначен как легкий и интерпретируемый инструмент, нацеленный на основное различие между сжатием и генерацией, а не полагающийся на хрупкие поверхностные артефакты.
Данные и тесты
Сжатие
Чтобы оценить, может ли их цветовая корреляционная подсказка надежно обнаружить сжатие JPEG AI (т.е. первый проход от несжатого источника), авторы протестировали его на высококачественных несжатых изображениях из набора данных RAISE, сжимая их при различных битрейтах, используя референсную реализацию JPEG AI.
Они обучили простой рандомный лес на статистических закономерностях цветовых канальных корреляций (особенно на том, как остаточный шум в каждом канале выравнивается с другими) и сравнили его с ResNet50 нейронной сетью, обученной непосредственно на пикселях изображения.

Точность обнаружения сжатия JPEG AI с использованием цветовых корреляционных особенностей, сравниваемая при различных битрейтах. Метод наиболее эффективен при более низких битрейтах, где артефакты сжатия сильнее, и показывает лучшую обобщаемость на незнакомые уровни сжатия, чем базовая модель ResNet50.
Хотя ResNet50 достигла более высокой точности, когда тестовые данные тесно соответствовали условиям ее обучения, она испытывала трудности с обобщением на разные уровни сжатия. Подход, основанный на корреляциях, хотя и намного проще, оказался более последовательным при разных битрейтах, особенно при более низких скоростях сжатия, где предобработка JPEG AI имеет более сильный эффект.
Эти результаты предполагают, что даже без глубокого обучения возможно обнаружить сжатие JPEG AI, используя статистические подсказки, которые остаются интерпретируемыми и устойчивыми.
Пересжатие
Чтобы оценить, может ли пересжатие JPEG AI быть надежно обнаружено, исследователи протестировали сигнал скорости-искажения на наборе изображений, сжатых при различных битрейтах – некоторые только один раз, а другие второй раз, используя JPEG AI.
Этот метод включал в себя извлечение 17-мерного вектора особенностей для отслеживания того, как bitrate и PSNR изображения эволюционируют при трех проходах сжатия. Этот набор особенностей захватывал, сколько качества теряется на каждом шаге, и как латентные и гиперпriorные скорости ведут себя – метрики, которые традиционные пиксельные методы не могут легко получить.
Исследователи обучили рандомный лес на этих особенностях и сравнили его производительность с ResNet50, обученной на пикселях изображения:

Результаты классификационной точности рандомного леса, обученного на особенностях скорости-искажения для обнаружения того, было ли изображение JPEG AI пересжато. Метод работает лучше всего, когда первоначальное сжатие сильное (т.е. при более низких битрейтах), и затем последовательно превосходит пиксельную ResNet50 – особенно в случаях, когда второе сжатие мягче, чем первое.
Рандомный лес оказался заметно эффективным, когда первоначальное сжатие было сильным (т.е. при более низких битрейтах), выявляя явные различия между однократно и двукратно сжатыми изображениями. Как и в случае с предыдущей подсказкой, ResNet50 испытывала трудности с обобщением, особенно когда тестировалась на уровнях сжатия, которых она не видела во время обучения.
Особенности скорости-искажения, напротив, оставались стабильными при широком диапазоне сценариев. Заметно, что подход работал даже при применении к другому ай-базированному кодеку, что предполагает, что метод обобщается за пределы JPEG AI.
JPEG AI и синтетические изображения
Для окончательного раунда тестирования авторы проверили, могут ли их квантовые особенности различать изображения, сжатые JPEG AI, и полностью синтетические изображения, сгенерированные моделями, такими как Midjourney, Stable Diffusion, DALL-E 2, Glide и Adobe Firefly.
Для этого исследователи использовали подмножество набора данных Synthbuster, смешивая реальные фотографии из базы данных RAISE с сгенерированными изображениями из различных диффузионных и ГАН-базированных моделей.

Примеры синтетических изображений в Synthbuster, сгенерированных с помощью текстовых подсказок, вдохновленных натуральными фотографиями из набора данных RAISE-1k. Изображения были созданы с использованием различных диффузионных моделей, с подсказками, предназначенными для производства фотореалистичных контента и текстур, а не стилизованных или художественных представлений. Source: https://ieeexplore.ieee.org/document/10334046
Реальные изображения были сжаты с помощью JPEG AI при различных битрейтах, и классификация была поставлена как двусторонняя задача: либо JPEG AI против конкретного генератора, либо конкретный битрейт против Stable Diffusion XL.
Квантовые особенности (корреляции, извлеченные из латентных представлений) были рассчитаны из фиксированного региона 256×256 и поданы на вход классификатору рандомного леса. В качестве базовой модели была использована ResNet50, обученная на пикселях изображения.

Классификационная точность рандомного леса, использующего квантовые особенности для разделения изображений, сжатых JPEG AI, и синтетических изображений.
По большинству условий квантовый подход превосходил базовую ResNet50, особенно при низких битрейтах, где артефакты сжатия были сильнее.
Авторы заявляют:
‘Базовая ResNet50 работает лучше всего для изображений Glide с точностью 66,1%, но в остальных случаях она обобщается хуже, чем квантовые особенности. Квантовые особенности демонстрируют хорошую обобщаемость при разных силах сжатия и типах генераторов.
‘Важность коэффициентов, квантованных до нуля, показана в весьма достойной производительности усеченных [особенностей], которые во многих случаях работают сравнимо с классификатором ResNet50.
‘Однако квантовые особенности, использующие неусеченный, полный целочисленный [вектор], все еще работают заметно лучше. Эти результаты подтверждают, что количество нулей после квантования является важной подсказкой для различения ай-сжатых и ай-генерированных изображений.
‘Тем не менее, это также показывает, что другие факторы способствуют этому. Точность полного вектора для обнаружения JPEG AI составляет для всех битрейтов более 91,0%, и более сильное сжатие приводит к более высоким точностям.’
Проекция пространства особенностей с использованием UMAP показала четкое разделение между изображениями JPEG AI и синтетическими изображениями, с более низкими битрейтами, увеличивающими расстояние между классами. Одним из последовательных аутлиеров был Glide, чьи изображения кластеризовались по-другому и имели самую низкую точность обнаружения среди всех протестированных генераторов.

Двумерная визуализация UMAP изображений JPEG AI и синтетических изображений, на основе квантовых особенностей. Левая панель показывает, что более низкие битрейты JPEG AI создают большее разделение от синтетических изображений; правая панель показывает, как изображения из разных генераторов кластеризуются внутри пространства особенностей.
Наконец, авторы оценили, как хорошо особенности сохраняются при типичной постобработке, такой как пересжатие JPEG или понижение разрешения. Хотя производительность снижалась при более сильной обработке, спад был постепенным, что предполагает, что подход сохраняет некоторую устойчивость даже при ухудшенных условиях.

Оценка устойчивости квантовых особенностей при постобработке, включая пересжатие JPEG (JPG) и изменение размера изображения (RS).
Заключение
Не гарантируется, что JPEG AI получит широкое распространение. С одной стороны, существует достаточно инфраструктурного долга, чтобы наложить трение на любой новый кодек; и даже ‘конвенциональный’ кодек с хорошей репутацией и широким консенсусом относительно его ценности, такой как AV1, имеет трудности с вытеснением устоявшихся методов.
В отношении потенциального конфликта системы с ай-генераторами, характерные артефакты квантования, которые помогают текущему поколению детекторов ай-изображений, могут быть уменьшены или в конечном итоге заменены следами другого рода в более поздних системах (при условии, что ай-генераторы всегда будут оставлять судебные следы, что не определено).
Это будет означать, что собственные квантовые характеристики JPEG AI, возможно, вместе с другими подсказками, выявленными в новой статье, не будут сталкиваться с судебным следом наиболее эффективных новых генеративных ай-систем.
Если, однако, JPEG AI продолжит работать как де-факто ‘ай-стиратель’, значительно стирая различие между реальными и сгенерированными изображениями, будет трудно представить убедительный аргумент в пользу его принятия.
Опубликовано впервые во вторник, 8 апреля 2025












