Угол Андерсона

ИИ может тайно ранжировать изображения по бренду устройства, а не по содержанию

опубликованный 20 августа 2025

Мартин Андерсон

Робот, предпочитающий Mac другим ненужным ноутбукам на размытом фоне. Flux 1D и Firefly, предоставлено Krita.

Новое исследование показывает, что популярные системы искусственного интеллекта, ориентированные на обработку изображений, не просто анализируют то, что изображено на фотографии, но и определяют, как она была сделана. Скрытые детали, такие как тип камеры или качество изображения, могут незаметно влиять на то, что видит ИИ, приводя к неверным результатам — просто потому, что фотография была сделана с другого устройства.

В 2012 году было показало, что туристический сайт регулярно показывал более высокие цены пользователям, которые, как можно было предположить, просматривали сайт с устройств Apple, тем самым отождествляя бренд Apple с более высокой покупательной способностью. Дальнейшее расследование в заключении исследования, финансируемого Центрами по контролю и профилактике заболеваний (CDC) и написанного бывшим начальником полиции Вермонта что этот «анализ кошельков», ориентированный на устройства, стал почти обыденностью для сайтов электронной коммерции.

Аналогичным образом можно определить, какой смартфон или устройство захвата сделал конкретную фотографию. выведено с помощью судебно-медицинской экспертизы, на основе известные характеристики ограниченного количества объективов в моделях. В таких случаях модель устройства захвата обычно оценивается визуальный следы; и, как и в случае с инцидентом 2012 года, знание того, какой тип камеры сделал снимок, является потенциально эксплуатируемой характеристикой

Хотя устройства захвата, как правило, встраивают в изображение значительный объем метаданных, пользователи часто могут отключить эту функцию; даже если она включена, платформы распространения, такие как социальные сети, могут удалить некоторые или все метаданные в целях логистики, обеспечения конфиденциальности или и того, и другого.

Тем не менее, метаданные в пользовательских изображениях часто либо переписываются/интерпретируются (а не удаляются), либо остаются нетронутыми, как вторичный источник информации не о том, что изображено на снимке, а о том, как он был сделан. Как показал случай 2012 года, подобная информация может быть ценной — не только для коммерческих платформ, но и, потенциально, для хакеров и злоумышленников.

Двойные точки зрения

Новое совместное исследование Японии и Чешской Республики показало, что следы, оставленные оборудованием камеры и обработкой изображений (например, Качество JPEG или резкость объектива) не только обнаруживаются криминалистическими инструментами, но и молча кодируются в «глобальное понимание» ведущих моделей искусственного интеллекта.

Это включает CLIP и другие крупномасштабные визуальные кодировщики, которые широко используются во всем: от поисковых систем до модерации контента. Новая работа показывает, что эти модели не просто интерпретируют то, что in фотографию, но также можно узнать, как была сделана фотография сделанный; и этот скрытый сигнал иногда может перекрывать видимое содержание.

Примеры пар изображений из набора данных PairCams, созданного авторами для проверки влияния типа камеры на модели изображений, создаваемые искусственным интеллектом. Каждая пара представляет собой один и тот же объект или сцену, сфотографированный в один и тот же момент времени с помощью обычного устройства (слева) и смартфона (справа). Источник: https://arxiv.org/pdf/2508.10637

В исследовании утверждается, что даже когда моделям ИИ предоставляются сильно замаскированные или обрезанные версии изображения, они всё равно могут с удивительной точностью угадывать марку и модель камеры. Это означает, что пространство представления, используемое этими системами для оценки сходства изображений, может быть переплетено с нерелевантными факторами, такими как устройство пользователя, что приводит к непредсказуемым последствиям.

Например, в последующих задачах, таких как классификация или поиск изображений, это нежелательное «взвешивание» может привести к тому, что система будет отдавать предпочтение определенным типам камер, независимо от того, что на самом деле показывает изображение.

В документе говорится:

«Метки метаданных, оставляющие следы в визуальных кодировщиках вплоть до затмения семантической информации, могут привести к непредсказуемым результатам, поставить под угрозу обобщаемость, надежность и потенциально подорвать надежность моделей.

«Что еще более важно, этот эффект может быть использован злонамеренно; например, враждебная атака может манипулировать метаданными, чтобы намеренно ввести в заблуждение или обмануть модель, создавая риски в таких чувствительных областях, как здравоохранение, наблюдение или автономные системы».

В статье делается вывод о том, что системы контрастного визуального языка (CVL), такие как CLIP, в настоящее время один из самых влиятельных кодировщиков в области компьютерного зрения, с особой вероятностью смогут получить такие выводы из данных:

Результаты поиска по запросу изображения, демонстрирующие, как базовые модели ранжируют похожие изображения не только по визуальному содержанию, но и по скрытым метаданным, таким как сжатие JPEG или модель камеры. Рисунок отражает утверждение авторов о том, что как семантические, так и метаданные метки формируют пространство представления модели, иногда влияя на результаты поиска.

Результаты поиска по запросу «изображение», демонстрирующие, как базовые модели ранжируют похожие изображения не только на основе визуального контента, но и на основе скрытых метаданных, таких как сжатие JPEG или модель камеры.

Новый документ называется Обработка и сбор данных в визуальных энкодерах: что CLIP знает о вашей камере?и исходит от шести исследователей из Университета Осаки и Чешского технического университета в Праге.

Метод и данные*

Чтобы проверить влияние скрытых метаданных на визуальные кодировщики, такие как CLIP, авторы работали с двумя категориями метаданных: параметрами обработки изображений (например, сжатием JPEG или повышением резкости) и параметрами получения (например, моделью камеры или настройками экспозиции).

Вместо того, чтобы обучать новые модели, исследователи оценили 47 широко используемых визуальных кодировщиков в своих замороженные, предварительно обученное состояние, включая контрастные модели зрительно-языкового восприятия, такие как CLIP, самоконтрольный такие модели, как ДИНОи традиционно контролируемые сети.

Для параметров обработки исследователи применили контролируемые преобразования до IMAGEnet и iNaturalist Наборы данных 2018 года, включая шесть уровней сжатия JPEG, три настройки резкости, три шкалы изменения размера и четыре метода интерполяции.

Примеры изображений и соответствующих аннотаций из набора данных iNaturalist. Источник: https://arxiv.org/pdf/1707.06642

Модели были протестированы на предмет их способности восстанавливать каждую настройку преобразования, используя только содержимое изображения, при этом успешные прогнозы указывают на то, что кодер сохраняет информацию об этих вариантах обработки в своем внутреннем представлении.

Чтобы изучить параметры получения данных, исследователи составили набор данных из 356,459 XNUMX изображений, названный FlickrExif, содержащий консервированные Метаданные Exifи построил второй набор данных, названный PairCams, состоящий из 730 пар изображений, снятых одновременно с помощью смартфона и обычной камеры.

Набор данных FlickrExif был создан с использованием API Flickr для загрузки изображений с соответствующими метаданными Exif. Ежемесячно собиралось от 2,000 до 4,000 безопасных для работы изображений, датированных с начала 2000 года до середины 2024 года, и фильтровались для включения только изображений с разрешительными лицензиями. Чтобы избежать перерепрезентативности, каждый автор ограничивался десятью изображениями в месяц в течение любого года.

Для набора данных PairCams каждая фотография была сделана с использованием автоматических настроек и без вспышки, что позволило сравнить, как визуальные кодировщики реагируют только на различия в аппаратном обеспечении камеры, независимо от содержания изображения:

Дополнительные примеры из набора данных PairCams, подобранные авторами.

Авторы протестировали два набора параметров: параметры обработки изображений, такие как сжатие и преобразование цветов, и параметры получения изображений, такие как марка или модель камеры:

Проанализированы параметры обработки и получения изображений с указанием количества классов для каждого из них.

Tests

Чтобы определить, сохраняется ли информация об обработке изображений и типе камеры во встраиваемых данных визуального кодировщика, авторы обучили классификатор предсказывать метки метаданных непосредственно на основе этих встраиваемых данных. Если бы классификатор работал не лучше случайного угадывания, это означало бы, что информация об обработке или устройстве не учтена моделью.

Однако любое превышение случайного значения будет означать, что эти технические следы действительно кодируются и могут влиять на последующие задачи.

Для проверки следов обработки авторы назначали каждому обучающему изображению случайную настройку обработки, например, определенный уровень сжатия JPEG, в то время как все тестовые изображения в пакете использовали одну и ту же настройку.

Усредненная точность классификации по всем параметрам затем была объединена с повторными испытаниями при разных условиях. случайные семена, чтобы можно было определить, были ли технические детали обработки изображений последовательно отражены во внутреннем представлении модели:

Точность классификации для прогнозирования параметров обработки изображений на основе встраиваемых кодеров с использованием линейного классификатора, применяемого к замороженным моделям. Представлены результаты для сжатия JPEG, повышения резкости, изменения размера и интерполяции с использованием трёх категорий моделей: контрастного визуального языка (оранжевый), контролируемого (зелёный) и самоконтролируемого (синий), оцененных в ImageNet (верхний ряд) и iNaturalist 2018 (нижний ряд). Базовые линии случайного угадывания обозначены пунктирными линиями.

По всем четырём параметрам обработки контрастные модели зрительно-языкового анализа продемонстрировали наивысшую способность распознавать скрытые манипуляции с изображениями. Некоторые модели достигли точности более 80% при прогнозировании параметров сжатия JPEG, резкости и изменения размера на основе вложений ImageNet.

Контролируемые кодеры, особенно те, которые основаны на ConvNeXt, также показали высокие результаты, тогда как модели с самообучением оказались значительно слабее.

Интерполяция оказалась наиболее сложным для обнаружения параметром, однако лучшие модели CVL и контролируемые модели все равно достигли результатов, значительно превышающих случайную базовую линию в 25% для обоих наборов данных.

Затем, чтобы проверить, встроена ли информация, связанная с камерой, в модельные представления, авторы создали отдельные обучающие и тестовые наборы для каждого параметра получения данных (например, марка камеры, модель камеры, экспозиция, диафрагма, ISO и фокусное расстояние).

Для большинства параметров использовались только классы, содержащие не менее 5,000 примеров; 500 изображений были выбраны случайным образом. откладывать Для тестирования, а оставшиеся примеры были уменьшены, чтобы в каждом классе было 200 обучающих выборок. Для параметров «модель (все)» и «модель (умная)», для которых данных на класс было меньше, авторы использовали классы с не менее чем 500 изображениями и разделили каждый класс на поезд и тест подмножества в соотношении четыре к одному.

Фотографы были разделены на тренировочные, проверочные и тестовые наборы, а простой классификатор был обучен предсказывать информацию с камеры на основе характеристик изображения.

Чтобы гарантировать отсутствие влияния семантического содержания изображений на классификатор, 90% каждого изображения было замаскировано по центру (см. примеры ниже). Авторы утверждают, что при таком уровне маскирования все визуальные кодировщики в ImageNet работают практически случайным образом, что свидетельствует об эффективном подавлении семантического сигнала:

Точность валидации ImageNet как функция коэффициента маскирования. При 90% маскировании все модели демонстрируют практически случайную точность предсказания семантических меток, что указывает на эффективное удаление семантических подсказок. Примеры изображений внизу иллюстрируют уровни маскирования.

Даже при маскировании 90% каждого изображения большинство контрастных моделей зрительного языка и контролируемых кодеров ConvNeXt по-прежнему предсказывали метки, связанные с камерой, с вероятностью, значительно превышающей вероятность. Многие модели CVL продемонстрировали точность, превышающую 70%, при различении изображений, сделанных со смартфона, от изображений, сделанных не на смартфоне.

Другие контролируемые кодеры, СигЛИП, и все модели с самообучением показали гораздо худшие результаты. Без маскирования модели CVL снова показали самую сильную кластеризацию по типу камеры, что подтверждает, что эти модели глубже интегрируют информацию о съёмке, чем другие:

Визуализации t-SNE для двух визуальных кодировщиков, где цвета указывают, было ли каждое изображение получено с помощью смартфона или обычной камеры.

Значение ниже по течению

Установив, что метаданные влияют на модели таким образом, была оценена склонность скрытых следов обработки мешать интерпретации изображений.

Когда две версии одного и того же изображения обрабатывались по-разному, вставки часто организовывались в соответствии с стиль обработки а не на содержание. В нескольких случаях сильно сжатая фотография собаки воспринималась как более похожая на несвязанное изображение с теми же настройками сжатия, чем на свою собственную несжатую версию:

Влияние параметров обработки на семантическое предсказание, показывающее точность семантической классификации для ImageNet (вверху) и iNaturalist (внизу) при пяти вариантах обработки. В базовой модели все обучающие и тестовые изображения имеют одинаковую метку обработки; в варианте all-diff тестовое изображение использует значение обработки, отсутствующее в обучающем наборе; в вариантах pos-same и neg-same метка обработки выравнивается либо по семантически схожим, либо по разным изображениям; в варианте uniform метки обработки назначаются случайным образом по всему обучающему набору. Результаты представлены с использованием k = 10 для ImageNet и k = 1 для iNaturalist.

Наибольшие искажения были вызваны сжатием JPEG, за ним следовали повышение резкости и изменение размера, тогда как интерполяция оказывала лишь незначительный эффект. Авторы утверждают, что эти результаты демонстрируют, что следы обработки могут переопределять семантическую информацию и определять, как воспринимается изображение.

В заключение они предупреждают:

«Хотя мы определили, что метки метаданных кодируются в базовых визуальных кодировщиках, и предоставили подсказки о возможных причинах, мы не можем однозначно определить источник проблемы. Дальнейшее исследование затруднено из-за высокой стоимости переобучения таких моделей, частого использования закрытых наборов данных и нераскрытых деталей реализации».

«Хотя мы не предлагаем конкретных методов смягчения последствий, мы выделяем этот вопрос как важную область для будущих исследований».

Заключение

В литературе наблюдается растущий интерес к криминалистике в отношении следов и признаков «преобладания метода над содержанием»: чем проще идентифицировать домен фрейминга или конкретный набор данных, тем проще использовать эту информацию в форме, например, детекторов дипфейков или систем, предназначенных для классификации происхождения или возраста данных и моделей.

Всё это противоречит основной цели обучения моделей ИИ, которая заключается в том, что основные концепции должны формироваться независимо от средств производства и не должны содержать никаких следов. Фактически, наборы данных и устройства сбора данных обладают характеристиками и особенностями предметной области, которые фактически невозможно отделить от контента, поскольку сами по себе они также представляют собой «историческую перспективу».

* Статья оформлена нестандартно, и мы постараемся максимально адаптировать её к необычному форматированию и подаче. Значительная часть материала, который должен был быть в (несуществующем) разделе «Метод», перенесена в разные части приложения, вероятно, чтобы ограничить основную статью восемью страницами, хотя это и значительно снижает ясность изложения. Если из-за нехватки времени мы упустили возможность улучшить этот аспект, приносим извинения.

Впервые опубликовано в среду, 20 августа 2025 г.

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai