Свяжитесь с нами:

JPEG AI стирает грань между реальным и синтетическим

Угол Андерсона

JPEG AI стирает грань между реальным и синтетическим

mm
Создано с помощью ChatGPT-4o и Adobe Firefly

В феврале этого года, Международный стандарт JPEG AI был опубликован после нескольких лет исследований, направленных на использование методов машинного обучения для создания более компактного и легко передаваемого и сохраняемого кодека изображений без потери качества восприятия.

Из официального потока публикаций для JPEG AI, сравнение пикового отношения сигнал-шум (PSNR) и подхода JPEG AI с дополненной машинным обучением. Источник: https://jpeg.org/jpegai/documentation.html

Из официальной публикации JPEG AI: сравнение пикового отношения сигнал/шум (PSNR) и подхода JPEG AI с дополненной машинным обучением. Источник: https://jpeg.org/jpegai/documentation.html

Одна из возможных причин, по которой это событие не попало в заголовки, заключается в том, что основные PDF-файлы для этого объявления (по иронии судьбы) не были доступны через порталы свободного доступа, такие как Arxiv. Тем не менее, Arxiv уже выдвинул ряд исследований, изучающих значимость JPEG AI в нескольких аспектах, включая необычные артефакты сжатия и ее значение для судебной экспертизы.

В одном исследовании сравнивались артефакты сжатия, в том числе и более раннего проекта JPEG AI, и было обнаружено, что новый метод имеет тенденцию к размытию текста — немалый вопрос в случаях, когда кодек может способствовать цепочке доказательств. Источник: https://arxiv.org/pdf/2411.06810

В одном исследовании сравнивались артефакты сжатия, в том числе и в более ранней версии JPEG AI, и было обнаружено, что новый метод имеет тенденцию к размытию текста — немаловажный фактор в случаях, когда кодек может способствовать формированию цепочки доказательств. Источник: https://arxiv.org/pdf/2411.06810

Поскольку JPEG AI изменяет изображения способами, имитирующими артефакты генераторов синтетических изображений, существующие криминалистические инструменты испытывают трудности с дифференциацией реальное от поддельного изображения:

Согласно недавней статье (март 2025 г.), после сжатия JPEG AI современные алгоритмы больше не могут надежно отделять подлинный контент от измененных областей на картах локализации. Исходные примеры, показанные слева, представляют собой измененные/поддельные изображения, в которых измененные области четко обозначены с помощью стандартных методов криминалистической экспертизы (центральное изображение). Однако сжатие JPEG AI придает поддельным изображениям слой достоверности (изображение справа). Источник: https://arxiv.org/pdf/2412.03261

Согласно недавней статье (март 2025 г.), после сжатия JPEG AI современные алгоритмы больше не могут надежно отделять подлинный контент от измененных областей на картах локализации. Исходные примеры, показанные слева, представляют собой измененные/поддельные изображения, в которых измененные области четко обозначены с помощью стандартных методов криминалистической экспертизы (центральное изображение). Однако сжатие JPEG AI придает поддельным изображениям слой достоверности (изображение справа). Источник: https://arxiv.org/pdf/2412.03261

Одна из причин заключается в том, что JPEG AI обучается с использованием архитектуры модели, аналогичной той, которая используется в генеративных системах, которые криминалистические инструменты призваны обнаруживать:

Новая статья иллюстрирует сходство между методологиями сжатия изображений с использованием ИИ и фактическими изображениями, сгенерированными ИИ. Источник: https://arxiv.org/pdf/2504.03191

В новой статье показано сходство между методологиями сжатия изображений с использованием искусственного интеллекта и фактическими изображениями, созданными с помощью искусственного интеллекта. Источник: https://arxiv.org/pdf/2504.03191

Таким образом, с точки зрения криминалистики обе модели могут давать некоторые схожие базовые визуальные характеристики.

квантование

Этот кроссинговер происходит из-за квантование, общий для обеих архитектур, и который используется в машинном обучении как метод преобразования непрерывные данные в дискретные точки данных, и как техника оптимизации что может значительно уменьшить размер файла обученной модели (энтузиасты синтеза изображений, работающие нерегулярно, знакомы с ожиданием между выпуском громоздкой официальной модели и созданием квантованной версии, созданной сообществом и способной работать на локальном оборудовании).

В этом контексте квантование относится к процессу преобразования непрерывных значений в изображении скрытое представление в фиксированные, дискретные шаги. JPEG AI использует этот процесс для уменьшить объем необходимых данных для хранения или передачи изображения путем упрощения внутреннего числового представления.

Хотя квантование делает кодирование более эффективным, оно также накладывает структурные закономерности, которые могут напоминать артефакты, оставленные генеративными моделями, — достаточно тонкие, чтобы ускользнуть от восприятия, но разрушительные для инструментов судебной экспертизы.

В ответ авторы новая работа титулованный Три криминалистических признака для изображений JPEG AI предложить интерпретируемые, ненейронные методы, которые обнаруживают сжатие JPEG с помощью ИИ; определяют, было ли изображение повторно сжато; и отличают сжатые реальные изображения от изображений, полностью сгенерированных ИИ.

Способ доставки

Цветовые корреляции

В статье предлагаются три «криминалистических признака», адаптированных для изображений JPEG AI: корреляции цветовых каналов, введенный на этапах предварительной обработки JPEG AI; измеримые искажения качества изображения через повторные компрессии, которые выявляют события рекомпрессии; и Модели квантования скрытого пространства которые помогают различать изображения, сжатые с помощью JPEG AI, и изображения, созданные с помощью моделей AI.

Что касается подхода, основанного на корреляции цветов, конвейер предварительной обработки JPEG AI вводит статистические зависимости между цветовыми каналами изображения, создавая сигнатуру, которая может служить криминалистической подсказкой.

JPEG AI преобразует изображения RGB в Цветовое пространство YUV и выполняет субдискретизацию цветности 4:2:0, которая включает в себя субдискретизацию каналы цветности до сжатия. Этот процесс приводит к тонким корреляциям между высокочастотными остатками красного, зеленого и синего каналов — корреляциям, которые отсутствуют в несжатых изображениях и которые отличаются по силе от тех, которые производятся традиционным сжатием JPEG или синтетическими генераторами изображений.

Сравнение того, как сжатие JPEG AI изменяет цветовые корреляции в изображениях, на примере красного канала. Панель (a) сравнивает несжатые изображения с изображениями, сжатыми JPEG AI, показывая, что сжатие значительно увеличивает межканальную корреляцию. Панель (b) изолирует эффект предварительной обработки JPEG AI — только преобразование цвета и субдискретизация — демонстрируя, что даже этот шаг сам по себе заметно повышает корреляции. Панель (c) показывает, что традиционное сжатие JPEG также немного увеличивает корреляции, но не в той же степени. Панель (d) рассматривает синтетические изображения, причем Midjourney-V5 и Firefly демонстрируют умеренное увеличение корреляции, в то время как другие остаются ближе к несжатым уровням.

Сравнение того, как сжатие JPEG AI изменяет цветовые корреляции в изображениях.

Выше мы видим сравнение из статьи, иллюстрирующее, как сжатие JPEG AI изменяет цветовые корреляции в изображениях, используя в качестве примера красный канал.

Панель A сравнивает несжатые изображения с изображениями, сжатыми JPEG AI, показывая, что сжатие значительно увеличивает межканальную корреляцию; панель B изолирует эффект предварительной обработки JPEG AI — только преобразование цветов и субдискретизацию — демонстрируя, что даже этот шаг сам по себе заметно увеличивает корреляции; панель C показывает, что традиционное сжатие JPEG также немного увеличивает корреляции, но не в той же степени; а панель D исследует синтетические изображения, с Середина пути-V5 и Adobe Firefly демонстрируют умеренный рост корреляции, в то время как другие остаются ближе к несжатым уровням.

Скорость-искажение

Сигнал «скорость-искажение» определяет повторное сжатие JPEG AI, отслеживая, как качество изображения, измеренное Пиковое отношение сигнал/шум (PSNR) снижается по предсказуемой схеме после нескольких проходов сжатия.

В исследовании утверждается, что многократное сжатие изображения с помощью JPEG AI приводит к постепенно уменьшающимся, но все же измеримым потерям качества изображения, количественно определяемым с помощью PSNR, и что это постепенное ухудшение формирует основу криминалистического признака для определения того, было ли изображение повторно сжато.

В отличие от традиционного JPEG, где более ранние методы отслеживали изменения в определенных блоках изображения, JPEG AI требует другого подхода из-за своей архитектуры нейронного сжатия; поэтому авторы предлагают отслеживать, как и битрейт, и PSNR развиваются в ходе последовательных сжатий. Каждый раунд сжатия изменяет изображение меньше, чем предыдущий, и это уменьшающееся изменение (при нанесении на график в зависимости от битрейта) может показать, прошло ли изображение несколько стадий сжатия:

Иллюстрация того, как повторное сжатие влияет на качество изображения в разных кодеках, показывает, что JPEG AI и нейронный кодек, разработанный на https://arxiv.org/pdf/1802.01436, оба демонстрируют устойчивое снижение PSNR с каждым дополнительным сжатием — даже при более низких битрейтах. Напротив, традиционный JPEG сохраняет относительно стабильное качество при нескольких сжатиях, если только битрейт не высок. Этот шаблон служит примером того, как повторное сжатие оставляет измеримый след в кодеках на основе AI, предлагая потенциальный криминалистический сигнал.

Иллюстрация того, как повторное сжатие влияет на качество изображения в разных кодеках, с результатами JPEG AI и нейронного кодека, разработанного на https://arxiv.org/pdf/1802.01436; оба демонстрируют устойчивое снижение PSNR с каждым дополнительным сжатием, даже при более низких битрейтах. Напротив, традиционное сжатие JPEG сохраняет относительно стабильное качество при нескольких сжатиях, если только битрейт не высокий.

На изображении выше мы видим нанесенные на график кривые зависимости скорости от искажения для JPEG AI; второго кодека на основе AI; и традиционного JPEG, обнаруживая, что JPEG AI и нейронный кодек показывают последовательное снижение PSNR при всех битрейтах, в то время как традиционный JPEG показывает заметное ухудшение только при гораздо более высоких битрейтах. Такое поведение обеспечивает количественный сигнал, который можно использовать для маркировки повторно сжатых изображений JPEG AI.

Извлекая информацию о том, как изменяется битрейт и качество изображения в ходе нескольких раундов сжатия, авторы аналогичным образом создали сигнатуру, которая помогает определить, было ли изображение повторно сжато, что дает потенциальную практическую подсказку для судебной экспертизы в контексте искусственного интеллекта JPEG.

квантование

Как мы видели ранее, одной из наиболее сложных криминалистических проблем, поднятых JPEG AI, является его визуальное сходство с синтетическими изображениями, созданными с помощью диффузионных моделей. Обе системы используют архитектуры кодировщика-декодера, которые обрабатывают изображения в сжатом скрытом пространстве и часто оставляют после себя едва заметные артефакты передискретизации.

Эти общие черты может сбить с толку детекторы – даже те, которые переобучены на изображениях JPEG AI. Однако ключевое структурное различие остается: JPEG AI применяет квантование, шаг, который округляет скрытые значения до дискретных уровней для эффективного сжатия, в то время как генеративные модели обычно этого не делают.

В новой статье это различие используется для разработки криминалистической подсказки, которая косвенно проверяет наличие квантования. Метод анализирует, как скрытое представление изображения реагирует на округление, исходя из предположения, что если изображение уже было квантовано, его скрытая структура будет демонстрировать измеримую модель выравнивания с округленными значениями.

Эти закономерности, хотя и невидимы для глаза, создают статистические различия, которые могут помочь отличить сжатые реальные изображения от полностью синтетических.

Пример средних спектров Фурье показывает, что как изображения, сжатые с помощью JPEG AI, так и изображения, созданные с помощью диффузионных моделей, таких как Midjourney-V5 и Stable Diffusion XL, демонстрируют регулярные сетчатые узоры в частотной области — артефакты, обычно связанные с повышением частоты дискретизации. Напротив, реальные изображения не имеют таких узоров. Это перекрытие в спектральной структуре помогает объяснить, почему криминалистические инструменты часто путают сжатые реальные изображения с синтетическими.

Пример средних спектров Фурье показывает, что как изображения, сжатые с помощью JPEG AI, так и изображения, созданные с помощью диффузионных моделей, таких как Midjourney-V5 и Stable Diffusion XL, демонстрируют регулярные сетчатые узоры в частотной области — артефакты, обычно связанные с повышением частоты дискретизации. Напротив, реальные изображения не имеют таких узоров. Это перекрытие в спектральной структуре помогает объяснить, почему криминалистические инструменты часто путают сжатые реальные изображения с синтетическими.

Важно отметить, что авторы показывают, что этот сигнал работает в различных генеративных моделях и остается эффективным даже при достаточно сильном сжатии, чтобы обнулить целые разделы скрытого пространства. Напротив, синтетические изображения показывают гораздо более слабые ответы на этот тест округления, предлагая практический способ различения этих двух.

Результат задуман как легкий и интерпретируемый инструмент, нацеленный на основное различие между сжатием и генерацией, а не полагающийся на хрупкие поверхностные артефакты.

Данные и тесты

компрессия

Чтобы оценить, может ли их цветовая корреляция надежно определять сжатие JPEG AI (т. е. первый проход из несжатого источника), авторы протестировали ее на высококачественных несжатых изображениях из Набор данных RAISE, сжимая их с различными битрейтами, используя эталонную реализацию JPEG AI.

Они обучили простого случайный лес на статистических закономерностях корреляций цветовых каналов (в частности, как остаточный шум в каждом канале согласуется с другими) и сравнил это с Реснет50 нейронная сеть, обученная непосредственно на пикселях изображения.

Точность обнаружения сжатия JPEG AI с использованием функций цветовой корреляции, сравниваемая для нескольких битрейтов. Метод наиболее эффективен при более низких битрейтах, где артефакты сжатия сильнее, и показывает лучшее обобщение для невидимых уровней сжатия, чем базовая модель ResNet50.

Точность обнаружения сжатия JPEG AI с использованием функций цветовой корреляции, сравниваемая для нескольких битрейтов. Метод наиболее эффективен при более низких битрейтах, где артефакты сжатия сильнее, и показывает лучшее обобщение для невидимых уровней сжатия, чем базовая модель ResNet50.

Хотя ResNet50 достигал более высокой точности, когда тестовые данные близко соответствовали условиям обучения, он испытывал трудности обобщают при разных уровнях сжатия. Корреляционный подход, хотя и гораздо проще, оказался более стабильным при разных битрейтах, особенно при низких уровнях сжатия, где предварительная обработка JPEG AI оказывает более сильное влияние.

Эти результаты показывают, что даже без глубокого обучения можно обнаружить сжатие JPEG AI, используя статистические сигналы, которые остаются интерпретируемыми и устойчивыми.

Рекомпрессия

Чтобы оценить, является ли JPEG AI reсжатие может быть надежно обнаружено, исследователи протестировали сигнал скорости-искажения на наборе изображений, сжатых с разной скоростью передачи данных — некоторые только один раз, а другие — второй раз с использованием JPEG AI.

Этот метод включал извлечение 17-мерного вектора признаков для отслеживания того, как битрейт изображения и PSNR развивались в течение трех проходов сжатия. Этот набор признаков зафиксировал, насколько качество терялось на каждом этапе, и как скрытые и гиперприор показатели поведения — показатели, к которым традиционные методы на основе пикселей не могут легко получить доступ.

Исследователи обучили случайный лес на этих признаках и сравнили его производительность с ResNet50, обученной на фрагментах изображений:

Результаты по точности классификации случайного леса, обученного на признаках скорости-искажения для определения того, было ли изображение JPEG AI повторно сжато. Метод работает лучше всего, когда изначальное сжатие сильное (т. е. при более низких битрейтах), а затем последовательно превосходит ResNet50 на основе пикселей – особенно в случаях, когда второе сжатие мягче первого.

Результаты по точности классификации случайного леса, обученного на признаках скорости-искажения для определения того, было ли изображение JPEG AI повторно сжато. Метод работает лучше всего, когда изначальное сжатие сильное (т. е. при более низких битрейтах), а затем последовательно превосходит ResNet50 на основе пикселей – особенно в случаях, когда второе сжатие мягче первого.

Случайный лес оказался особенно эффективным, когда начальное сжатие было сильным (т. е. при более низких битрейтах), обнаружив четкие различия между одинарным и двойным сжатием изображений. Как и в случае с предыдущим сигналом, итерация ResNet50 с трудом обобщала, особенно при тестировании на уровнях сжатия, которые она не видела во время обучения.

Характеристики скорости-искажения, напротив, оставались стабильными в широком диапазоне сценариев. Примечательно, что сигнал сработал даже при применении к другому кодеку на основе ИИ, что говорит о том, что подход обобщается за пределами JPEG ИИ.

JPEG AI и синтетические изображения

В ходе последнего этапа тестирования авторы проверили, могут ли их функции на основе квантования различать изображения, сжатые с помощью ИИ в формате JPEG, и полностью синтетические изображения, созданные с помощью таких моделей, как Midjourney, Стабильная диффузия, ДАЛЛ-Э 2, Скольжениеи Adobe Firefly.

Для этого исследователи использовали подмножество Синтезатор набор данных, смешивающий реальные фотографии из базы данных RAISE с изображениями, сгенерированными с помощью ряда диффузионных и основанных на GAN моделей.

Примеры синтетических изображений в Synthbuster, созданных с использованием текстовых подсказок, вдохновленных естественными фотографиями из набора данных RAISE-1k. Изображения были созданы с использованием различных моделей диффузии, с подсказками, разработанными для создания фотореалистичного контента и текстур, а не стилизованных или художественных рендеров, что отражает фокус набора данных на тестировании методов для различения реальных и сгенерированных изображений.

Примеры синтетических изображений в Synthbuster, созданных с использованием текстовых подсказок, вдохновленных естественными фотографиями из набора данных RAISE-1k. Изображения были созданы с использованием различных моделей диффузии, с подсказками, разработанными для создания фотореалистичного контента и текстур, а не стилизованных или художественных рендеров. Источник: https://ieeexplore.ieee.org/document/10334046

Реальные изображения были сжаты с помощью JPEG AI на нескольких уровнях битрейта, и классификация была поставлена ​​как двусторонняя задача: либо JPEG AI против определенного генератора, либо определенный битрейт против Стабильная диффузия XL.

Квантование функции (корреляции, извлеченные из скрытых представлений) были рассчитаны из фиксированной области 256×256 и поданы в случайный лесной классификатор. В качестве базовой линии ResNet50 был обучен на пиксельных заплатках из тех же данных.

Точность классификации случайного леса с использованием функций квантования для отделения изображений, сжатых с помощью JPEG AI, от синтетических изображений.

Точность классификации случайного леса с использованием функций квантования для отделения изображений, сжатых с помощью JPEG AI, от синтетических изображений.

В большинстве условий подход, основанный на квантовании, превзошел базовый уровень ResNet50, особенно при низких скоростях передачи данных, когда артефакты сжатия были сильнее.

Авторы заявляют:

«Базовый ResNet50 лучше всего работает с изображениями Glide с точностью 66.1%, но в остальном он обобщает хуже, чем функции квантования. Функции квантования демонстрируют хорошее обобщение по силам сжатия и типам генераторов.

«Важность коэффициентов, квантованных до нуля, подтверждается весьма достойной производительностью усеченных [признаков], которая во многих случаях сопоставима с производительностью классификатора ResNet50».

«Однако функции квантования, использующие необрезанный, полный целочисленный [вектор], по-прежнему работают заметно лучше. Эти результаты подтверждают, что количество нулей после квантования является важным признаком для дифференциации сжатых с помощью ИИ и сгенерированных с помощью ИИ изображений.

«Тем не менее, это также показывает, что и другие факторы вносят свой вклад. Точность полного вектора для обнаружения JPEG AI составляет для всех битрейтов более 91.0%, а более сильное сжатие приводит к более высокой точности».

Проекция пространства признаков с использованием УМАП показал четкое разделение между JPEG AI и синтетическими изображениями, при этом более низкие битрейты увеличивали расстояние между классами. Одним из постоянных аномалий был Glide, чьи изображения кластеризовались по-разному и имели самую низкую точность обнаружения среди всех протестированных генераторов.

Двумерная визуализация UMAP изображений, сжатых JPEG AI и синтетических, на основе признаков квантования. Левый график показывает, что более низкие битрейты JPEG AI создают большее разделение с синтетическими изображениями; правый график показывает, как изображения от разных генераторов отчетливо кластеризуются в пространстве признаков.

Двумерная визуализация UMAP изображений, сжатых JPEG AI и синтетических, на основе признаков квантования. Левый график показывает, что более низкие битрейты JPEG AI создают большее разделение с синтетическими изображениями; правый график показывает, как изображения от разных генераторов отчетливо кластеризуются в пространстве признаков.

Наконец, авторы оценили, насколько хорошо характеристики сохранялись при типичной постобработке, такой как повторное сжатие JPEG или понижение частоты дискретизации. Хотя производительность снижалась при более интенсивной обработке, падение было постепенным, что говорит о том, что подход сохраняет некоторую надежность даже в ухудшенных условиях.

Оценка надежности функций квантования при постобработке, включая повторное сжатие JPEG (JPG) и изменение размера изображения (RS).

Оценка надежности функций квантования при постобработке, включая повторное сжатие JPEG (JPG) и изменение размера изображения (RS).

Заключение

Не гарантировано, что JPEG AI получит широкое распространение. Во-первых, есть достаточно долгов по инфраструктуре, чтобы наложить трение на любое новый кодек; и даже «обычный» кодек с хорошей родословной и широким консенсусом относительно его ценности, такой как AV1, у него тяжелые времена вытесняя давно устоявшиеся методы.

Что касается потенциального столкновения системы с генераторами ИИ, характерные артефакты квантования, которые помогают текущий Генерация детекторов изображений на основе ИИ может быть уменьшена или в конечном итоге заменена следами другого рода в более поздних системах (при условии, что генераторы ИИ всегда будут оставлять криминалистический след, что не является точным).

Это означало бы, что собственные характеристики квантования JPEG AI, возможно, вместе с другими признаками, выявленными в новой статье, могут не столкнуться с криминалистическим следом наиболее эффективных новых генеративных систем ИИ.

Однако если JPEG AI продолжит работать как де-факто «Искусственный интеллект» существенно размывает грань между реальными и сгенерированными изображениями, поэтому было бы трудно убедительно обосновать необходимость его внедрения.

 

Впервые опубликовано Вторник, 8 апреля 2025 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai