Connect with us

Штучна інтелект може таємно ранжувати зображення за брендом пристрою, а не за вмістом

Погляд Anderson

Штучна інтелект може таємно ранжувати зображення за брендом пристрою, а не за вмістом

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Нові дослідження показали, що популярні системи штучної інтелектної обробки зображень не тільки розглядають те, що знаходиться на фотографії, але також виявляють, як фотографія була зроблена. Приховані деталі, такі як тип камери або якість зображення, можуть тихо впливати на те, що штучний інтелект вважає, що бачить, що призводить до неправильних результатів – просто тому, що фотографія була зроблена на іншому пристрої.

 

У 2012 році було виявлено, що сайт з подорожей регулярно показував вищі ціни користувачам, яких можна було ідентифікувати як користувачів пристроїв Apple, ототожнюючи бренд Apple з вищою купівельною спроможністю. Пізніше слідство встановило, що такий пристрій-орієнтований “обнюхування гаманця” став майже звичайним для електронної комерції.

Аналогічно, який смартфон або пристрій захоплення зробив певну фотографію, можна визначити за допомогою судових засобів, на основі відомих характеристик обмеженої кількості об’єктивів у моделях. У таких випадках модель пристрою захоплення зазвичай оцінюється візуальними слідами; і, як у випадку 2012 року, знання того, який тип камери зробив зображення, є потенційно використовуваною характеристикою

Хоча пристрої захоплення tendенсії до вкладення значної метаданих у зображення, цю функцію часто можна вимкнути користувачами; навіть якщо вона залишається увімкненою, платформи розповсюдження, такі як соціальні мережі, можуть видалити деякі або всі метадані, як з логістичних, так і з приватних причин, або з обох.

Незважаючи на це, метадані у зображеннях, завантажених користувачами, часто або переписуються/інтерпретуються (а не видалені), або залишаються цілими, як вторинне джерело інформації не про те, що знаходиться на фотографії, а про те, як фотографія була зроблена. Як показав випадок 2012 року, така інформація може бути цінною – не тільки для комерційних платформ, але також, потенційно, для хакерів і зловмисників.

Два погляди

Нове дослідження спільної роботи між Японією та Чехією показало, що сліди, залишені апаратурою камери та обробкою зображення (такою як якість JPEG або різкість об’єктива), не тільки виявляються судовими інструментами, але також тихо кодуються у ‘глобальному розумінні’ провідних моделей штучної інтелектної обробки зображень.

Це включає CLIP та інші великомасштабні візуальні кодувальники, які широко використовуються у всьому, від пошукових систем до модерації контенту. Нова робота демонструє, що ці моделі не тільки інтерпретують те, що знаходиться у фотографії, але також можуть вивчити, як фотографія була зроблена; і цей прихований сигнал іноді може переважувати видимий вміст.

Приклад пар зображень з набору даних PairCams авторів, створеного для тестування впливу типу камери на моделі штучної інтелектної обробки зображень. Кожна пара показує той самий об'єкт або сцену, сфотографовані в той самий момент за допомогою не-смартфона (ліворуч) і смартфона (праворуч). Джерело: https://arxiv.org/pdf/2508.10637

Приклад пар зображень з набору даних PairCams авторів, створеного для тестування впливу типу камери на моделі штучної інтелектної обробки зображень. Кожна пара показує той самий об’єкт або сцену, сфотографовані в той самий момент за допомогою не-смартфона (ліворуч) і смартфона (праворуч). Джерело: https://arxiv.org/pdf/2508.10637

Дослідження стверджує, що навіть коли моделям штучної інтелектної обробки зображень надаються сильно масковані або обрізані версії зображення, вони все одно можуть вгадати марку та модель камери з дивовижною точністю. Це означає, що простір представлення цих систем для судження про подібність зображень може стати заплутаним з неважливими факторами, такими як пристрій користувача, з непередбачуваними наслідками.

Наприклад, у задачах нижчого рівня, таких як класифікація або пошук зображень, це нежадане “вагове” може змусити систему надавати перевагу певним типам камер, незалежно від того, що показує зображення.

У статті зазначається:

‘Мітки метаданих, які залишають сліди у візуальних кодувальниках до точки затінення семантичної інформації, можуть призвести до непередбачуваних результатів, компрометуючи загальність, стійкість і потенційно підкріплюючи недовіру до моделей.

‘Більш критично, цей ефект може бути використаний зловмисно; наприклад, атака противника може маніпулювати метаданими з метою свідомо введення у помилку або обману моделі, створюючи ризики у чутливих галузях, таких як охорона здоров’я, спостереження або автономні системи.’

Стаття знаходить, що системи контрастного візуального мови (CVL), такі як CLIP, тепер одна з найбільш впливових кодувальників у комп’ютерному баченні, особливо схильні отримувати такі висновки з даних:

Результати пошуку для запитового зображення, показуючи, як основні моделі ранжують подібні зображення не тільки за візуальним вмістом, але також за прихованими метаданими, такими як стиснення JPEG або модель камери. Фігура відображає твердження авторів, що як семантичні, так і мітки метаданих формують простір представлення моделі, іноді змінюючи результати пошуку.

Результати пошуку для запитового зображення, показуючи, як основні моделі ранжують подібні зображення не тільки за візуальним вмістом, але також за прихованими метаданими, такими як стиснення JPEG або модель камери.

Нова стаття називається Сліди обробки та отримання у візуальних кодувальниках: Що знає CLIP про вашу камеру?, і походить від шести дослідників з Університету Осаки та Чеського технічного університету в Празі.

Метод і дані*

Для тестування впливу прихованих метаданих на візуальні кодувальники, такі як CLIP, автори працювали з двома категоріями метаданих: параметрами обробки зображення (такими як стиснення JPEG або колористичні перетворення) і параметрами отримання (такими як модель камери або налаштування експозиції).

Натомість ніж тренувати нові моделі, дослідники оцінювали 47 широко використовувані візуальні кодувальники у їх замороженому, попередньо тренованому стані, включаючи контрастні візуально-мовні моделі, такі як CLIP, самостійні моделі, такі як DINO, і традиційно наглядовані мережі.

Для параметрів обробки дослідники застосовували контрольовані перетворення до ImageNet і iNaturalist 2018 наборів даних, включаючи шість рівнів стиснення JPEG, три налаштування різкості, три масштаби зміни розміру та чотири методи інтерполяції.

Приклади зображень і асоційованих анотацій з набору даних iNaturalist. Джерело: https://arxiv.org/pdf/1707.06642

Приклади зображень і асоційованих анотацій з набору даних iNaturalist. Джерело: https://arxiv.org/pdf/1707.06642

Моделі були протестовані на їхню здатність відновити кожне налаштування перетворення, використовуючи тільки вміст зображення, з успішними передбаченнями, які вказують на те, що кодувальник зберігає інформацію про ці вибори обробки у своєму внутрішньому представленні.

Для параметрів отримання дослідники скомпільовали 356 459-зображення набір даних під назвою FlickrExif, який містить збережені Exif метадані, і сконструювали другий набір даних під назвою PairCams, який складається з 730 пар зображень, сфотографованих одночасно за допомогою смартфона та не-смартфона камери.

Набір даних FlickrExif був створений за допомогою API Flickr для завантаження зображень з супровідними метаданими Exif. Між 2000 і 4000 безпечних для роботи зображень було зібрано щомісяця, датованих з початку 2000 року до середини 2024 року, і відфільтровані для включення тільки тих, які мають дозволені ліцензії. Для запобігання надмірному представництву від плодючих користувачів, кожен окремий учасник був обмежений десятьма зображеннями на місяць для будь-якого даного року.

Для набору даних PairCams кожна фотографія була зроблена за допомогою автоматичних налаштувань і без спалаху, що дозволило порівняти, як візуальні кодувальники реагують на відмінності у апаратурі камери самі по собі, незалежно від вмісту зображення:

Додаткові приклади з набору даних PairCams, створеного авторами.

Додаткові приклади з набору даних PairCams, створеного авторами.

Автори протестували два набори параметрів: параметри обробки зображення, такі як стиснення та колористичні перетворення; і параметри отримання, такі як модель камери або налаштування експозиції:

Параметри обробки та отримання зображення, проаналізовані, з кількістю класів для кожного.

Параметри обробки та отримання зображення, проаналізовані, з кількістю класів для кожного.

Тести

Для визначення того, чи зберігається інформація про обробку зображення та тип камери всередині візуальних кодувальників, автори тренували класифікатор для передбачення міток метаданих безпосередньо з цих кодувань. Якщо класифікатор виконував не краще, ніж випадкове вгадування, це б вказало на те, що деталі про обробку або пристрій не захоплюються моделлю.

Однак, будь-яка продуктивність вище випадковості б вказала на те, що ці технічні сліди дійсно кодуються, і можуть впливати на задачі нижнього рівня.

Для тестування слідів обробки автори призначили кожному навчальному зображенню випадкове налаштування обробки, таке як певний рівень стиснення JPEG, тоді як усі тестові зображення у партії мали те саме налаштування.

Середня точність класифікації по всіх налаштуваннях була потім поєднана з повторними випробуваннями під різними випадковими насіннями, так що можна було визначити, чи технічні деталі обробки зображення постійно захоплюються у внутрішньому представленні моделі:

Точність класифікації для передбачення параметрів обробки зображення з кодувань, використовуючи лінійний класифікатор, застосований до заморожених моделей. Результати показані для стиснення JPEG, різкості, зміни розміру та інтерполяції, з трьома категоріями моделей, контрастним візуально-мовним (помаранчевим), наглядованим (зеленим) та самостійним (блакитним), оціненими на ImageNet (верхній ряд) та iNaturalist 2018 (нижній ряд). Базові лінії випадкового вгадування позначені пунктирними лініями.

Точність класифікації для передбачення параметрів обробки зображення з кодувань, використовуючи лінійний класифікатор, застосований до заморожених моделей. Результати показані для стиснення JPEG, різкості, зміни розміру та інтерполяції, з трьома категоріями моделей, контрастним візуально-мовним (помаранчевим), наглядованим (зеленим) та самостійним (блакитним), оціненими на ImageNet (верхній ряд) та iNaturalist 2018 (нижній ряд). Базові лінії випадкового вгадування позначені пунктирними лініями.

По всіх чотирьом параметрах обробки контрастні візуально-мовні моделі показали найвищу здатність визнавати приховані маніпуляції зображеннями. Деякі з моделей досягли більш ніж 80% точності при передбаченні налаштувань стиснення JPEG, різкості та зміни розміру з ImageNet кодувань.

Наглядовані кодувальники, особливо ті, що базуються на ConvNeXt, також показали сильну продуктивність, тоді як самостійні моделі були послаблені.

Інтерполяція була найважчим параметром для виявлення, проте найкращі CVL та наглядовані моделі все одно досягли результатів значно вище випадкової базової лінії 25% на обох наборах даних.

Далі, для тестування того, чи інформація про камеру кодується у представленнях моделі, автори створили окремі навчальні та тестові набори для кожного параметра отримання (такого як модель камери або налаштування експозиції).

Для більшості параметрів використовувалися тільки класи з щонайменше 5000 прикладів; 500 зображень випадково відкладалися для тестування, а решта прикладів були знижені так, щоб кожен клас мав 200 навчальних прикладів. Для параметрів “модель (усі)” та “модель (смартфон)”, які мали менше даних на клас, автори натомість використовували класи з щонайменше 500 зображень, і розділили кожен клас на навчальні та тестові підмножини у співвідношенні чотири до одного.

Фотографи зберігалися окремо через навчальні, валідативні та тестові набори, і простий класифікатор був тренований для передбачення інформації про камеру на основі особливостей зображення.

Для забезпечення того, що класифікатор не був під впливом семантичного вмісту зображень, 90% кожного зображення було центромасковано (див. приклади нижче). Автори стверджують, що на цьому рівні маскування всі візуальні кодувальники виконують близько випадкової точності на ImageNet, вказуючи на те, що семантичний сигнал був ефективно приглушений:

Точність валідативної класифікації ImageNet як функція співвідношення маскування. При 90% маскування всі моделі знижуються до майже випадкової продуктивності на семантичному передбаченні міток, вказуючи на те, що семантичні сигнали були ефективно видалені. Приклади зображень внизу ілюструють рівні маскування.

Точність валідативної класифікації ImageNet як функція співвідношення маскування. При 90% маскування всі моделі знижуються до майже випадкової продуктивності на семантичному передбаченні міток, вказуючи на те, що семантичні сигнали були ефективно видалені. Приклади зображень внизу ілюструють рівні маскування.

Даже з 90% кожного зображення, маскованого, більшість контрастних візуально-мовних моделей та наглядованих кодувальників ConvNeXt все одно передбачали мітки, пов’язані з камерою, на рівні значно вище випадкової лінії.

Інші наглядовані кодувальники, SigLIP, та всі самостійні моделі показали значно гіршу продуктивність. Коли жодного маскування не застосовувалося, CVL моделі знову показали найсильніше кластерування за типом камери, підтверджуючи, що ці моделі вкладають інформацію про отримання більш глибоко, ніж інші:

t-SNE візуалізації для двох візуальних кодувальників, з кольорами, які вказують, чи було зображення сфотографовано смартфоном чи не-смартфоном камерою.

t-SNE візуалізації для двох візуальних кодувальників, з кольорами, які вказують, чи було зображення сфотографовано смартфоном чи не-смартфоном камерою.

Значення для задач нижнього рівня

Після встановлення того, що метадані впливають на моделі таким чином, схильність прихованих слідів обробки до втручання у інтерпретацію зображення була потім оцінена.

Коли дві версії одного й того ж зображення оброблялися по-різному, кодування часто організовувалися за стилем обробки замість вмісту. У кількох випадках сильно стиснута фотографія собаки розглядалася як більш схожа на несумісне зображення з тим же налаштуванням стиснення, ніж на свою власну незстиснуту версію:

Вплив параметрів обробки на семантичне передбачення, з точністю семантичної класифікації для ImageNet (верх) та iNaturalist (низ) під п'ятьма налаштуваннями обробки. У базовому випадку всі навчальні та тестові зображення мають те саме налаштування обробки; у випадку all-diff тестове зображення використовує значення обробки, яке не присутнє у навчальному наборі; у випадках pos-same та neg-same мітка обробки збігається або з семантично подібними, або з несумісними зображеннями; у випадку uniform мітки обробки випадково призначені по всьому навчальному набору. Результати повідомляються за допомогою k = 10 для ImageNet, і k = 1 для iNaturalist.

Вплив параметрів обробки на семантичне передбачення, з точністю семантичної класифікації для ImageNet (верх) та iNaturalist (низ) під п’ятьма налаштуваннями обробки. У базовому випадку всі навчальні та тестові зображення мають те саме налаштування обробки; у випадку all-diff тестове зображення використовує значення обробки, яке не присутнє у навчальному наборі; у випадках pos-same та neg-same мітка обробки збігається або з семантично подібними, або з несумісними зображеннями; у випадку uniform мітки обробки випадково призначені по всьому навчальному набору. Результати повідомляються за допомогою k = 10 для ImageNet, і k = 1 для iNaturalist.

Найсильніші спотворення були викликані стисненням JPEG, за яким слідували різкість та зміна розміру, тоді як інтерполяція мала лише незначний ефект. Автори стверджують, що ці результати демонструють, що сліди обробки можуть переважувати семантичну інформацію та диктувати, як зображення розуміється.

У висновку вони попереджають:

‘Хоча ми визначили, що мітки метаданих кодуються у фундаментальних візуальних кодувальниках і надали підказки про потенційні причини, ми не можемо визначити джерело проблеми. Дальше дослідження цього питання є складним через вартість повторної тренування таких моделей та часте використання приватних наборів даних та недокументованих деталей реалізації.

‘Хоча ми не пропонуємо конкретних технік мінімізації, ми підкреслюємо питання як важливу область для майбутніх досліджень.’

Висновок

У літературі існує зростаючий судовий інтерес щодо слідів та ознак “методу над вмістом”; чим легше ідентифікувати домен кадрування або конкретний набір даних, тим легше використовувати цю інформацію у вигляді – наприклад, детекторів глибоких фейків, або систем, призначених для категоризації походження або віку даних та моделей.

Все це суперечить основній меті тренування моделей штучної інтелектної обробки зображень, яка полягає у тому, що центральні витягнуті концепції повинні бути кураторами незалежно від засобів виробництва, і не повинні нести жодного сліду них. Насправді, набори даних та пристрої захоплення мають характеристики та доменні ознаки, які є ефективно нездільними від вмісту, оскільки вони самі по собі представляють “історичну перспективу”.

 

* Стаття має незвичайний формат, і ми адаптуємося до нього якнайкраще. Багато матеріалу, яке повинно було бути у розділі “Метод” (який не існує), було перенесено до різних частин додатка, очевидно, для обмеження основної статті до восьми сторінок – хоча це відбувається за рахунок ясності. Якщо ми пропустили будь-яку можливість поліпшити це, через брак часу, ми вибачаємося.

Перша публікація – середа, 20 серпня 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]