Взгляд Anderson
ИИ может тайно ранжировать изображения по бренду устройства, а не по содержанию

Новое исследование показывает, что популярные системы ИИ, ориентированные на изображения, не только смотрят на то, что находится на фотографии, но также узнают, как была сделана фотография. Спрятанные детали, такие как тип камеры или качество изображения, могут тихо повлиять на то, что ИИ думает, что видит, что приводит к неправильным результатам – просто потому, что фотография была сделана с помощью другого устройства.
В 2012 году было обнаружено, что сайт путешествий регулярно показывал более высокие цены пользователям, которых он мог определить как просматривающих с помощью устройств Apple, связывая бренд Apple с более высокой покупательной способностью. Последующее расследование заключило, что这种 фокусировка на устройстве ‘обнюхивание кошелька’ стала почти рутиной для сайтов электронной коммерции.
Аналогично, какой смартфон или устройство захвата было использовано для拍ания конкретной фотографии, можно определить с помощью судебно-медицинских средств, на основе известных характеристик ограниченного числа объективов в моделях. В таких случаях модель устройства захвата обычно оценивается по визуальным следам; и, как в случае 2012 года, знание того, какой тип камеры сделал изображение, является потенциально эксплуатируемой характеристикой
Хотя устройства захвата склонны встраивать значимые метаданные в изображение, эта функция может часто быть отключена пользователями; даже когда она включена, платформы распространения, такие как социальные сети, могут удалить некоторые или все метаданные, либо по логистическим, либо по причинам конфиденциальности, либо по обоим.
Тем не менее, метаданные в изображениях, загружаемых пользователями, часто либо переписываются/интерпретируются (а не удаляются), либо оставляются нетронутыми, как вторичный источник информации не о том, что находится на картинке, а о том, как картинка была сделана. Как показал случай 2012 года, информация такого рода может быть ценной – не только для коммерческих платформ, но и, потенциально, для хакеров и злоумышленников.
Два взгляда
Новое исследовательское сотрудничество между Японией и Чехией показало, что следы, оставленные камерным оборудованием и обработкой изображений (такие как качество JPEG или резкость объектива), не только обнаруживаются судебно-медицинскими инструментами, но и默но закодированы в ‘глобальном понимании’ ведущих моделей компьютерного зрения.
Это включает CLIP и другие крупномасштабные визуальные кодировщики, которые широко используются во всем, от поисковых систем до модерации контента. Новая работа демонстрирует, что эти модели не только интерпретируют то, что находится на фотографии, но также могут учиться, как была сделана фотография; и этот скрытый сигнал может иногда превосходить видимое содержание.

Пример пар изображений из набора данных PairCams авторов, созданного для проверки того, как тип камеры влияет на модели изображений ИИ. Каждая пара показывает один и тот же объект или сцену, сфотографированную в одно и то же время, используя не смартфон (слева) и смартфон (справа). Источник: https://arxiv.org/pdf/2508.10637
Исследование утверждает, что даже когда моделям ИИ предоставляются сильно маскированные или обрезанные версии изображения, они могут все равно угадать марку и модель камеры с удивительной точностью. Это означает, что представительное пространство этих систем, которое они используют для оценки сходства изображений, может стать запутанным с нерелевантными факторами, такими как устройство пользователя, с непредсказуемыми последствиями.
Например, в последующих задачах, таких как классификация или поиск изображений, это нежелательное ‘весовое’ влияние может заставить систему отдавать предпочтение определенным типам камер, независимо от того, что изображение на самом деле показывает.
В статье говорится:
‘Метаданные, оставляющие следы в визуальных кодировщиках до точки затенения семантической информации, могут привести к непредсказуемым результатам, компрометируя общность, устойчивость и потенциально подрывая достоверность моделей.
‘Более критично, этот эффект может быть использован злонамеренно; например, атака противника может манипулировать метаданными, чтобы намеренно ввести модель в заблуждение или обмануть, представляя риски в чувствительных областях, таких как здравоохранение, наблюдение или автономные системы.’
Статья находит, что системы Contrastive Visual-Language (CVL), такие как CLIP, теперь одна из наиболее влиятельных кодировщиков в компьютерном зрении, особенно склонны получать такие выводы из данных:

Результаты поиска для запроса изображения, показывающие, как основные модели ранжируют похожие изображения не только по визуальному содержанию, но и по скрытым метаданным, таким как сжатие JPEG или модель камеры.
Новая статья озаглавлена Следы обработки и захвата в визуальных кодировщиках: Что знает CLIP о вашей камере?, и исходит от шести исследователей из Университета Осаки и Чешского технического университета в Праге.
Метод и данные
Чтобы проверить влияние скрытых метаданных на визуальные кодировщики, такие как CLIP, авторы работали с двумя категориями метаданных: параметрами обработки изображений (такими как сжатие JPEG или цветовые преобразования) и параметрами захвата (такими как модель камеры или настройки экспозиции).
Вместо того, чтобы обучать новые модели, исследователи оценивали 47 широко используемых визуальных кодировщиков в их замороженном, предварительно обученном состоянии, включая контрастные модели компьютерного зрения и языка, такие как CLIP, самообучаемые модели, такие как DINO, и традиционно обучаемые сети.
Для параметров обработки исследователи применяли контролируемые преобразования к ImageNet и iNaturalist 2018 наборам данных, включая шесть уровней сжатия JPEG, три настройки резкости, три масштаба изменения размера и четыре метода интерполяции.

Примеры изображений и связанных с ними аннотаций из набора данных iNaturalist. Источник: https://arxiv.org/pdf/1707.06642
Модели были протестированы на их способность восстановить каждую настройку преобразования, используя только содержание изображения, с успешными предсказаниями, указывающими на то, что кодировщик сохраняет информацию о этих выборах обработки в своем внутреннем представлении.
Чтобы изучить параметры захвата, исследователи составили 356 459-изображений набор данных, называемый FlickrExif, содержащий сохраненные Exif метаданные, и построили второй набор данных, называемый PairCams, состоящий из 730 пар изображений, сделанных одновременно со смартфона и не смартфонной камеры.
Набор данных FlickrExif был построен с помощью API Flickr для загрузки изображений с сопровождающими Exif метаданными. Между 2000 и 4000 безопасных для работы изображений были собраны каждый месяц, датированные началом 2000 года и серединой 2024 года, и отфильтрованы, чтобы включать только те, которые имеют разрешающие лицензии. Чтобы предотвратить чрезмерное представление от плодовитых пользователей, каждый отдельный вкладчик был ограничен десятью изображениями в месяц для любого данного года.
Для набора данных PairCams каждая фотография была сделана с помощью автоматических настроек и без вспышки, что позволяет сравнить, как визуальные кодировщики реагируют на различия в камерном оборудовании, независимо от содержания изображения:

Дополнительные примеры из набора данных PairCams, составленные авторами.
Авторы протестировали два набора параметров: параметры обработки изображений, такие как сжатие и цветовые преобразования; и параметры захвата, такие как модель камеры или настройки экспозиции:

Параметры обработки изображений и захвата, проанализированные с количеством классов для каждого.
Тесты
Чтобы определить, сохраняется ли информация об обработке изображений и типе камеры внутри визуальных кодировщиков, авторы обучили классификатор для предсказания метаданных непосредственно из этих кодировщиков. Если классификатор выполнял не лучше, чем случайная догадка, это бы предполагало, что детали о обработке или устройстве не захватываются моделью.
Однако любая производительность выше случайной бы указывала на то, что эти технические следы действительно кодируются и могут повлиять на последующие задачи.
Чтобы протестировать следы обработки, авторы присвоили каждому обучающему изображению случайную настройку обработки, такую как определенный уровень сжатия JPEG, в то время как все тестовые изображения в партии делили одну и ту же настройку.
Средняя точность классификации по всем настройкам была затем объединена с повторными испытаниями под разными случайными семенами, чтобы определить, сохраняются ли технические детали обработки изображений последовательно в внутреннем представлении модели:

Точность классификации для предсказания параметров обработки изображений из кодировщиков, используя линейный классификатор, примененный к замороженным моделям. Результаты показаны для сжатия JPEG, резкости, изменения размера и интерполяции, с тремя категориями моделей, контрастивным компьютерным зрением и языком (оранжевый), обучаемым (зеленый) и самообучаемым (синий), оцененным на ImageNet (верхний ряд) и iNaturalist 2018 (нижний ряд). Базовые линии случайной догадки отмечены пунктирными линиями.
По всем четырем параметрам обработки контрастивные модели компьютерного зрения и языка показали наибольшую способность распознавать скрытые манипуляции с изображением. Некоторые из моделей достигли более 80% точности при предсказании настроек сжатия JPEG, резкости и изменения размера из кодировщиков ImageNet.
Обучаемые кодировщики, особенно те, которые основаны на ConvNeXt, также показали сильную производительность, в то время как самообучаемые модели были последовательно слабее.
Интерполяция была наиболее трудным параметром для обнаружения, но лучшие CVL и обучаемые модели все равно достигли результатов, значительно превышающих случайную базовую линию 25% на обоих наборах данных.
Далее, чтобы протестировать, закодирована ли информация о камере в представлениях моделей, авторы создали отдельные обучающие и тестовые наборы для каждого параметра захвата (такого как марка камеры, модель камеры, экспозиция, диафрагма, ISO и фокусное расстояние).
Для большинства параметров использовались только классы с не менее 5000 примеров; 500 изображений были случайно отложены для тестирования, и оставшиеся примеры были недоотобраны, чтобы каждому классу было 200 обучающих образцов. Для параметров ‘модель (все)’ и ‘модель (смартфон)’, которые имели меньше данных на класс, авторы вместо этого использовали классы с не менее 500 изображений и разделили каждый класс на обучающий и тестовый подмножества в соотношении четыре к одному.
Фотографы были сохранены отдельно на обучающих, проверочных и тестовых наборах, и простой классификатор был обучен для предсказания информации о камере на основе особенностей изображения.
Чтобы обеспечить, что классификатор не был подвержен влиянию семантического содержания изображений, 90% каждого изображения было центромаскировано (см. примеры ниже). Авторы утверждают, что на этом уровне маскирования все визуальные кодировщики выполняют близко к случайной догадке на ImageNet, указывая на то, что семантический сигнал был эффективно подавлен:

Точность классификации ImageNet в зависимости от коэффициента маскирования. При 90% маскирования все модели снижаются до почти случайной производительности на предсказании семантических меток, указывая на то, что семантические подсказки были эффективно удалены. Примеры изображений внизу иллюстрируют уровни маскирования.
Даже при 90% маскировании большинство контрастивных моделей компьютерного зрения и языка все еще предсказывали метки, связанные с камерой, на уровне, значительно превышающем случайную догадку. Многие модели CVL превысили 70% точности при различении изображений, сделанных смартфоном и не смартфонной камерой.
Другие обучаемые кодировщики, SigLIP, и все самообучаемые модели показали гораздо худшую производительность. Когда не применялась маскировка, модели CVL снова показали сильнейшее кластеризование по типу камеры, подтверждая, что эти модели кодируют информацию о захвате более глубоко, чем другие:

t-SNE визуализации для двух визуальных кодировщиков, с цветами, указывающими, было ли каждое изображение захвачено смартфоном или не смартфонной камерой.
Значимость для последующих задач
Установив, что метаданные влияют на модели таким образом, склонность скрытых следов обработки к вмешательству в интерпретацию изображений была затем оценена.
Когда две версии одного и того же изображения были обработаны по-разному, кодировщики часто организовывались по стилю обработки, а не по содержанию. В нескольких случаях сильно сжатая фотография собаки была обработана как более похожая на несвязанное изображение с тем же уровнем сжатия, чем на свою незасжатую версию:

Влияние параметров обработки на семантическое предсказание, с точностью классификации для ImageNet (вверху) и iNaturalist (внизу) при пяти настройках обработки. В базовой линии все обучающие и тестовые изображения делят один и тот же метаданный ярлык; в настройке all-diff тестовое изображение использует метаданный ярлык, не присутствующий в обучающем наборе; в настройках pos-same и neg-same метаданный ярлык совпадает либо с семантически похожими, либо с несемантически похожими изображениями; в настройке uniform метаданные случайно присваиваются по всему обучающему набору. Результаты сообщаются с использованием k = 10 для ImageNet и k = 1 для iNaturalist.
Самые сильные искажения были вызваны сжатием JPEG, за которым следовали резкость и изменение размера, в то время как интерполяция произвела только незначительный эффект. Авторы утверждают, что эти результаты демонстрируют, что следы обработки могут превосходить семантическую информацию и диктовать, как понимается изображение.
В заключение они предупреждают:
‘Хотя мы определили, что метаданные закодированы в фундаментальных визуальных кодировщиках и предоставили намеки о потенциальных причинах, мы не можем окончательно определить источник проблемы. Дальнейшее расследование этого вопроса является сложным из-за стоимости переобучения таких моделей и частого использования частных наборов данных и нераскрытых деталей реализации.
‘Хотя мы не предлагаем конкретных методов смягчения, мы подчеркиваем эту проблему как важную область для будущих исследований.’
Заключение
В литературе растет судебно-медицинский интерес к следам и признакам ‘метода над содержанием’; чем легче определить область кадрирования или конкретный набор данных, тем легче использовать эту информацию в форме, например, детекторов глубоких фейков или систем, предназначенных для категоризации происхождения или возраста данных и моделей.
Все это противоречит основной цели обучения моделей ИИ, которая заключается в том, что центральные дистиллированные понятия должны быть собраны независимо от средств производства и не должны нести никаких следов их. На самом деле, наборы данных и устройства захвата имеют характеристики и доменные черты, которые практически невозможно отделить от содержания, поскольку они сами по себе представляют ‘историческую перспективу’.
* Статья имеет нестандартный формат, и мы будем адаптироваться к ее необычному форматированию и представлению как можно лучше. Большой объем материала, который должен был быть в разделе ‘Метод’ (который не существует), был перемещен в различные части приложения, предположительно для ограничения основной статьи до восьми страниц – хотя и с значительной потерей ясности. Если мы пропустили какую-либо возможность улучшить это из-за нехватки времени, мы извиняемся.
Опубликовано впервые в среду, 20 августа 2025












