Погляд Anderson
Штучна інтелект може таємно ранжувати зображення за брендом пристрою, а не вмістом

Нові дослідження показали, що популярні системи штучного інтелекту, орієнтовані на зображення, не тільки розглядають те, що знаходиться на фотографії, але також виявляють, як фотографія була зроблена. Приховані деталі, такі як тип камери або якість зображення, можуть тихо вплинути на те, що штучний інтелект вважає, що бачить, що призводить до неправильних результатів – просто тому, що фотографія була зроблена на іншому пристрої.
У 2012 році було виявлено, що сайт про подорожі регулярно показував вищі ціни користувачам, яких можна було ідентифікувати як тих, хто переглядає сайт на пристроях Apple, ототожнюючи бренд Apple з вищою купівельною силою. Пізніше слідство встановило, що така пристрій-орієнтована “внюхування гаманця” стала майже звичайною для сайтів електронної комерції.
Аналогічно, який смартфон або пристрій зробив певну фотографію, можна визначити за допомогою судових засобів, на основі відомих характеристик обмеженої кількості об’єктивів у моделях. У таких випадках модель пристрою зазвичай оцінюється за візуальними слідами; і, як у випадку з інцидентом 2012 року, знання про те, який тип камери зробив зображення, є потенційно використовуваною характеристикою
Хоча пристрої зйомки tend to embed значущі метадані в зображення, цю функцію часто можна вимкнути користувачами; навіть якщо вона залишається увімкненою, платформи розповсюдження, такі як соціальні мережі, можуть видалити деякі або всі метадані, як з логістичних, так і з приватних причин, або обидва.
Однак метадані в зображеннях, завантажених користувачами, часто або переписуються/інтерпретуються (замість видалення), або залишаються цілими, як вторинне джерело інформації не про те, що знаходиться на зображенні, а про те, як зображення було зроблено. Як показав випадок 2012 року, така інформація може бути цінною – не тільки для комерційних платформ, але також, потенційно, для хакерів і зловмисників.
Два погляди
Нове дослідження спільної роботи між Японією та Чехією показало, що сліди, залишені апаратурою камери та обробкою зображення (такою як якість JPEG або різкість об’єктива), не тільки виявляються судовими засобами, але також тихо кодуються в ‘глобальному розумінні’ провідних моделей штучного інтелекту зору.
Це включає CLIP та інші великомасштабні візуальні кодувальники, які широко використовуються у всіх аспектах – від пошукових систем до модерації контенту. Нова робота демонструє, що ці моделі не тільки інтерпретують те, що знаходиться в фотографії, але також можуть вивчити, як фотографія була зроблена; і цей прихований сигнал іноді може переважити видимий вміст.

Приклад пар зображень з набору даних PairCams авторів, створеного для тестування того, як тип камери впливає на моделі зображень штучного інтелекту. Кожна пара показує той самий об’єкт або сцену, сфотографовану в той самий момент за допомогою не-смартфона (ліворуч) і смартфона (праворуч). Джерело: https://arxiv.org/pdf/2508.10637
Дослідження стверджує, що навіть коли моделі штучного інтелекту отримують сильно масковані або обрізані версії зображення, вони все одно можуть вгадати марку та модель камери з дивовижною точністю. Це означає, що простір представлення цих систем для судження про подібність зображень може стати заплутаним з нерелевантними факторами, такими як пристрій користувача, з непередбачуваними наслідками.
Наприклад, у завданнях нижчого рівня, таких як класифікація або пошук зображень, це нежадане “вагове” значення може змусити систему віддавати перевагу певним типам камер, незалежно від того, що знаходиться на зображенні.
Папера стверджує:
‘Метадані, що залишають сліди у візуальних кодувальниках до точки затінення семантичної інформації, можуть привести до непередбачуваних результатів, компрометуючи загальну придатність, стійкість і потенційно підірвавши довіру до моделей.
‘Більш критично, цей ефект може бути використаний зловмисно; наприклад, атака противника може маніпулювати метаданими для цілового введення в оману або обману моделі, створюючи ризики в чутливих галузях, таких як охорона здоров’я, спостереження або автономні системи.’
Папера виявила, що системи Contrastive Visual-Language (CVL), такі як CLIP, тепер одна з найбільш впливових кодувальників у комп’ютерному зорі, особливо схильні отримувати такі висновки з даних:

Результати пошуку для запитувального зображення, показуючи, як основні моделі ранжують подібні зображення не тільки за візуальним вмістом, але також за прихованими метаданими, такими як стиснення JPEG або модель камери.
Нова папера називається Обробка та сліди придбання у візуальних кодувальниках: Що знає CLIP про вашу камеру? і походить від шести дослідників з Університету Осаки та Чехословацького технічного університету в Празі.
Метод і дані*
Для перевірки впливу прихованих метаданих на візуальні кодувальники, такі як CLIP, автори працювали з двома категоріями метаданих: параметрами обробки зображення (такими як стиснення JPEG або різкість) і параметрами придбання (такими як модель камери або налаштування експозиції).
Автори оцінили 47 широко використовуваних візуальних кодувальників у їх замороженому, попередньо навченому стані, включаючи контрастні візуально-мовні моделі, такі як CLIP, самостійні моделі, такі як DINO, і традиційно нагороджені мережі.
Для параметрів обробки автори застосували контрольовані перетворення до наборів даних ImageNet і iNaturalist 2018, включаючи шість рівнів стиснення JPEG, три налаштування різкості, три масштаби зміни розміру та чотири методи інтерполяції.

Приклади зображень і асоційованих анотацій з набору даних iNaturalist. Джерело: https://arxiv.org/pdf/1707.06642
Моделі були протестовані на їх здатність відновити кожне налаштування обробки, використовуючи тільки вміст зображення, з успішними прогнозами, які вказують на те, що кодувальник зберігає інформацію про ці вибори обробки в своєму внутрішньому представленні.
Для параметрів придбання автори скомпіліували набір даних з 356 459 зображень під назвою FlickrExif, що містить збережені метадані Exif, і створили другий набір даних під назвою PairCams, що складається з 730 пар зображень, зроблених одночасно за допомогою смартфона і не-смартфонної камери.
Набір даних FlickrExif був створений за допомогою API Flickr для завантаження зображень з супроводжуючими метаданими Exif. Між 2000 і 4000 безпечних для роботи зображень було зібрано кожному місяцю, датованих з початку 2000 року до середини 2024 року, і відфільтровані для включення тільки тих, які мали перmissive ліцензії. Для запобігання надмірній репрезентації окремими користувачами кожному окремому учаснику було обмежено десять зображень на місяць для будь-якого даного року.
Для набору даних PairCams кожне фото було зроблено за допомогою автоматичних налаштувань і без спалаху, що дозволило порівняти, як візуальні кодувальники реагують на відмінності в апаратурі камери самі по собі, незалежно від вмісту зображення:

Додаткові приклади з набору даних PairCams, кураторами авторів.
Автори протестували два набори параметрів: параметри обробки зображення, такі як стиснення та кольорові перетворення; і параметри придбання, такі як марка камери або налаштування експозиції:

Параметри обробки зображення та придбання, проаналізовані з кількістю класів для кожного.
Тести
Для визначення того, чи зберігається інформація про обробку зображення та тип камери в представленнях моделей, автори тренували класифікатор для прогнозування метаданих міток безпосередньо з цих представлень. Якщо класифікатор виконував не краще, ніж випадкове угадування, це б вказало на те, що деталі про обробку або пристрій не захоплюються моделлю.
Однак, будь-яка продуктивність вище випадкового вказувала б на те, що ці технічні сліди дійсно кодуються, і могли б впливати на завдання нижнього рівня.
Для тестування слідів обробки автори призначили кожному тренувальному зображенню випадкове налаштування обробки, таке як певний рівень стиснення JPEG, тоді як усі тестові зображення в партії мали те саме налаштування.
Середня точність класифікації по всіх налаштуваннях була потім поєднана з повторними випробуваннями під різними випадковими насіннями, так що можна було визначити, чи технічні деталі обробки зображення постійно захоплюються внутрішнім представленням кодувальника:

Точність класифікації для прогнозування параметрів обробки зображення з представлень кодувальника, використовуючи лінійний класифікатор, застосований до заморожених моделей. Результати показані для стиснення JPEG, різкості, зміни розміру та інтерполяції, з трьома категоріями моделей, контрастивними візуально-мовними (оранжевим), нагородженими (зеленим) та само-навчальними (блакитним), оціненими на ImageNet (верхній ряд) та iNaturalist 2018 (нижній ряд). Базові лінії випадкового угадування позначені пунктирними лініями.
По всіх чотирьом параметрах обробки контрастивні візуально-мовні моделі показали найвищу здатність розпізнавати приховані маніпуляції зображеннями. Деякі з цих моделей досягли більш ніж 80% точності при прогнозуванні налаштувань стиснення JPEG, різкості та зміни розміру з представлень ImageNet.
Нагороджені кодувальники, зокрема ті, що базуються на ConvNeXt, також показали сильну продуктивність, тоді як само-навчальні моделі були послаблені.
Інтерполяція була найважчим параметром для виявлення, проте найкращі моделі CVL та нагороджені все ж досягли результатів значно вище випадкової базової лінії 25% на обидвох наборах даних.
Далі, для перевірки того, чи камера-пов’язана інформація кодується в представленнях моделей, автори створили окремі тренувальні та тестові набори для кожного параметра придбання (такого як марка камери, модель, експозиція, діафрагма, ISO та фокусна відстань).
Для більшості параметрів використовувалися тільки класи з принаймні 5000 прикладів; 500 зображень випадково відкладалися для тестування, і решта прикладів були знижені так, щоб кожен клас мав 200 тренувальних зразків. Для параметрів “модель (усі)” та “модель (смартфон)”, які мали менше даних на клас, автори замість цього використовували класи з принаймні 500 зображень і розділили кожен клас на тренувальні та тестові підмножини у співвідношенні чотири до одного.
Фотографи зберігалися окремо по тренувальним, валідативним та тестовим наборам, і простий класифікатор був тренований для прогнозування інформації про камеру на основі особливостей зображення.
Для забезпечення того, що класифікатор не був під впливом семантичного вмісту зображень, 90% кожного зображення було центровано-масковано (див. приклади нижче). Автори стверджують, що на цьому рівні маскування всі візуальні кодувальники виконують близько до випадкової на ImageNet, вказуючи на те, що семантичний сигнал був ефективно приглушений:

Точність валідативної класифікації ImageNet як функція відношення маскування. На рівні маскування 90% всі моделі впадають до майже-випадкової продуктивності на прогнозуванні семантичних міток, вказуючи на те, що семантичні підказки були ефективно усунені. Приклади зображень внизу ілюструють рівні маскування.
Дажи з 90% маскування кожного зображення більшість контрастивних візуально-мовних моделей і нагороджені кодувальники ConvNeXt все ж прогнозували камера-пов’язані мітки на рівні значно вище випадкового.
Багато моделей CVL перевищили 70% точності при розпізнаванні зображень, зроблених смартфоном чи не-смартфоном.
Інші нагороджені кодувальники, SigLIP, та всі само-навчальні моделі показали значно нижчу продуктивність. Коли не застосовувалося маскування, моделі CVL знову показали найсильніше кластерування по типу камери, підтверджуючи, що ці моделі кодують інформацію про придбання глибше, ніж інші:

Візуалізації t-SNE для двох візуальних кодувальників, з кольорами, що вказують, чи було зображення зроблено смартфоном чи не-смартфоном.
Низхідна значимість
Після встановлення того, що метадані впливають на моделі tímto чином, автори оцінили схильність прихованих слідів обробки до інтерференції з інтерпретацією зображення.
Коли дві версії одного й того ж зображення оброблялися по-різному, представлення часто організовувалися за стилем обробки замість вмісту. У кількох випадках сильно стиснуте фото собаки було оброблено як більш подібне до іншого зображення з тим самим налаштуванням стиснення, ніж до його власної нестисненої версії:

Вплив параметрів обробки на семантичну передбачення, з показниками точності семантичної класифікації для ImageNet (верх) та iNaturalist (низ) під п’ятьма налаштуваннями обробки. У базовому випадку всі тренувальні та тестові зображення мають те саме налаштування обробки; у налаштуванні all-diff тестове зображення використовує налаштування обробки, відсутнє у тренувальному наборі; у налаштуваннях pos-same та neg-same мітка обробки вирівнюється з семантично подібними чи відмінними зображеннями; у налаштуванні uniform мітки обробки присвоюються випадково по всьому тренувальному набору. Результати повідомляються за k = 10 для ImageNet та k = 1 для iNaturalist.
Найсильніші спотворення були викликані стисненням JPEG, за ним різкість та зміна розміру, тоді як інтерполяція мала лише незначний ефект. Автори стверджують, що ці результати демонструють, що сліди обробки можуть переважити семантичну інформацію та диктувати, як зображення розуміється.
У висновку вони попереджають:
‘Хоча ми встановили, що метадані-мітки кодуються у фундаментальних візуальних кодувальниках і надали підказки щодо потенційних причин, ми не можемо точно вказати джерело проблеми. Далі розслідування цього питання є складним через витрати на повторну тренування таких моделей та часте використання приватних наборів даних та неопублікованих деталей реалізації.
‘Хоча ми не пропонуємо конкретних методів мінімізації, ми виділяємо цю проблему як важливу область для майбутніх досліджень.’
Висновок
У літературі зростає судове інтерес до слідів і ознак “методу над вмістом”; чим легше ідентифікувати домен кадрування або конкретний набір даних, тим легше використовувати цю інформацію у вигляді – наприклад, детекторів глибоких фейків або систем, призначених для категоризації походження чи віку даних та моделей.
Все це суперечить основній меті навчання моделей штучного інтелекту, яка полягає у тому, що центральні дистильовані концепції повинні бути кураторами незалежно від засобів виробництва, і не повинні нести жодного сліду цих засобів. Насправді, набори даних та пристрої мають характеристики та доменні риси, які є ефективно нездатними бути відокремленими від вмісту, оскільки вони самі по собі представляють “історичну перспективу”.
* Папера має незвичайну структуру, і ми адаптуємося до неї якнайкраще. Багато матеріалу, який мав би бути у (неіснуючому) розділі “Метод”, було перенесено до різних частин додатку, ймовірно, для обмеження основної статті до восьми сторінок – хоча це відбувається за значної ціни ясності. Якщо ми пропустили будь-яку можливість поліпшити це через брак часу, ми вибачаємося.
Перше опубліковане середа, 20 серпня 2025












