Connect with us

Inteligența artificială poate clasifica în secret imagini după marca aparatului, nu după conținut

Unghiul lui Anderson

Inteligența artificială poate clasifica în secret imagini după marca aparatului, nu după conținut

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Noi cercetări arată că sistemele populare de inteligență artificială axate pe imagini nu se uită doar la ce este într-o fotografie, ci și la modul în care a fost făcută. Detalii ascunse, cum ar fi tipul de cameră sau calitatea imaginii, pot afecta în mod subtil ce crede inteligența artificială că vede, ducând la rezultate greșite – doar pentru că fotografia a fost făcută cu un dispozitiv diferit.

 

În 2012, a fost dezvăluit că un site de călătorii afișa în mod regulat prețuri mai mari utilizatorilor despre care se putea deduce că navighează pe dispozitive Apple, asociind marca Apple cu o putere de cumpărare mai mare. O investigație ulterioară a concluzionat că acest “mirosire a portofelului” axat pe dispozitiv a devenit aproape o rutină pentru site-urile de comerț electronic.

Similar, smartphone-ul sau dispozitivul de captură care a făcut o anumită fotografie poate fi dedus prin mijloace forensice, pe baza caracteristicilor cunoscute ale unui număr limitat de obiective în modele. În astfel de cazuri, modelul dispozitivului de captură este de obicei estimat prin urme vizuale; și, așa cum s-a întâmplat în incidentul din 2012, știind ce tip de cameră a făcut imaginea este o caracteristică potențial exploatabilă.

Deși dispozitivele de captură tind să încorporeze metadate semnificative într-o imagine, această funcție poate fi adesea dezactivată de utilizatori; chiar și atunci când este lăsată activată, platformele de distribuire, cum ar fi rețelele de socializare, pot elimina unele sau toate metadatele, fie din motive logistice, fie din motive de confidențialitate, sau ambele.

Cu toate acestea, metadatele din imaginile încărcate de utilizatori sunt adesea reinterpretate/reinterpretate (mai degrabă decât șterse) sau lăsate intacte, ca o sursă secundară de informații nu despre ceea ce este în imagine, ci despre modul în care a fost făcută imaginea. Așa cum a arătat cazul din 2012, informațiile de acest tip pot fi valoroase – nu numai pentru platformele comerciale, ci și, potențial, pentru hackeri și actori răi.

Două perspective

O nouă colaborare de cercetare între Japonia și Republica Cehă a descoperit că urmele lăsate de hardware-ul camerei și prelucrarea imaginii (cum ar fi calitatea JPEG sau încălzirea obiectivului) nu sunt doar detectabile prin instrumente forensice, ci sunt și codificate în mod tacit în ‘înțelegerea globală’ a principalelor modele de viziune artificială.

Acest lucru include CLIP și alte codificatori vizuali la scară largă, care sunt utilizate pe scară largă în totul, de la motoarele de căutare la moderarea conținutului. Noua lucrare demonstrează că aceste modele nu interpretează doar ce este într-o fotografie, ci pot învăța și cum a fost creată fotografia; și acest semnal ascuns poate uneori depăși conținutul vizibil.

Exemple de perechi de imagini din setul de date PairCams al autorilor, creat pentru a testa cum afectează tipul de cameră modelele de imagini AI. Fiecare pereche arată același obiect sau scenă fotografiată în același moment, utilizând un aparat non-smartphone (stânga) și un smartphone (dreapta). Sursă: https://arxiv.org/pdf/2508.10637

Exemple de perechi de imagini din setul de date PairCams al autorilor, creat pentru a testa cum afectează tipul de cameră modelele de imagini AI. Fiecare pereche arată același obiect sau scenă fotografiată în același moment, utilizând un aparat non-smartphone (stânga) și un smartphone (dreapta). Sursă: https://arxiv.org/pdf/2508.10637

Studiul afirmă că, chiar și atunci când modelelor de inteligență artificială li se oferă versiuni mascate sau decupate ale imaginii, acestea pot ghici marca și modelul camerei cu o acuratețe surprinzătoare. Acest lucru înseamnă că spațiul de reprezentare pe care aceste sisteme îl folosesc pentru a evalua similaritatea imaginilor poate deveni încâlcit cu factori irelevanți, cum ar fi dispozitivul utilizatorului, cu consecințe imprevizibile.

De exemplu, în sarcinile downstream, cum ar fi clasificarea sau recuperarea imaginilor, acest “cântărire” nedorită poate face ca sistemul să favorizeze anumite tipuri de camere, indiferent de ceea ce arată imaginea în realitate.

Articolul afirmă:

‘Etichetele de metadate care lasă urme în codificatori vizuali până la punctul de a umbri informația semantică pot duce la rezultate imprevizibile, compromițând generalizabilitatea, robustețea și potențial subminând încrederea în modele.

‘Mai critic, acest efect poate fi exploatat în mod malign; de exemplu, un atac adversar poate manipula metadatele pentru a induce în mod intenționat în eroare un model, prezintă riscuri în domenii sensibile, cum ar fi sănătatea, supravegherea sau sistemele autonome.’

Articolul constată că sistemele Contrastive Visual-Language (CVL), cum ar fi CLIP, care este acum unul dintre cele mai influente codificatoare în viziunea computerizată, sunt deosebit de susceptibile de a obține astfel de inferențe din date:

Rezultatele căutării pentru o imagine de cerut, arătând cum modelele de bază clasifică imagini similare nu numai pe baza conținutului vizual, ci și a metadatelor ascunse, cum ar fi compresia JPEG sau modelul camerei. Figura reflectă afirmația autorilor că atât etichetele semantice, cât și cele de metadate, modelează spațiul de reprezentare al modelului, uneori modificând rezultatele recuperării.

Rezultatele căutării pentru o imagine de cerut, arătând cum modelele de bază clasifică imagini similare nu numai pe baza conținutului vizual, ci și a metadatelor ascunse, cum ar fi compresia JPEG sau modelul camerei.

Noul articol se intitulează Urme de prelucrare și achiziție în codificatori vizuali: Ce știe CLIP despre camera dvs.? și provine de la șase cercetători de la Universitatea Osaka și Universitatea Tehnică din Praga.

Metodă și date

Pentru a testa influența metadatelor ascunse asupra codificatorilor vizuali, cum ar fi CLIP, autorii au lucrat cu două categorii de metadate: parametrii de prelucrare a imaginii (cum ar fi compresia JPEG sau încălzirea) și parametrii de achiziție (cum ar fi modelul camerei sau setările de expunere).

În loc să antreneze modele noi, cercetătorii au evaluat 47 de codificatori vizuali larg utilizați în starea lor înghețată, preantrenată, inclusiv modele de viziune-lingvistică contrastivă, cum ar fi CLIP, modele autonome, cum ar fi DINO, și rețele supervizate convenționale.

Pentru parametrii de prelucrare, cercetătorii au aplicat transformări controlate asupra seturilor de date ImageNet și iNaturalist 2018, incluzând șase niveluri de compresie JPEG, trei setări de încălzire, trei scară de redimensionare și patru metode de interpolare.

Exemple de imagini și anotări asociate din setul de date iNaturalist. Sursă: https://arxiv.org/pdf/1707.06642

Exemple de imagini și anotări asociate din setul de date iNaturalist. Sursă: https://arxiv.org/pdf/1707.06642

Modelele au fost testate pe capacitatea lor de a recupera fiecare setare de transformare utilizând doar conținutul imaginii, cu predicții reușite care indică faptul că codificatorul reține informații despre aceste alegeri de prelucrare în reprezentarea sa internă.

Pentru a examina parametrii de achiziție, cercetătorii au compilat un set de date de 356.459 de imagini, numit FlickrExif, care conține metadate Exif păstrate, și au construit un al doilea set de date, numit PairCams, alcătuit din 730 de perechi de imagini capturate simultan cu un smartphone și o cameră non-smartphone.

Setul de date FlickrExif a fost creat utilizând API-ul Flickr pentru a descărca imagini cu metadate Exif însoțitoare. Între 2.000 și 4.000 de imagini sigure pentru lucru au fost colectate pe lună, datate din începutul anului 2000 până la mijlocul anului 2024, și filtrate pentru a include doar cele cu licențe permissive. Pentru a preveni suprareprezentarea de către utilizatori prolifici, fiecare contributor individual a fost limitat la zece imagini pe lună pentru orice an dat.

Pentru setul de date PairCams, fiecare fotografie a fost făcută utilizând setări automate și fără flash, permițând o comparație a modului în care codificatorii vizuali răspund la diferențele de hardware ale camerei, indiferent de conținutul imaginii:

Mai multe exemple din setul de date PairCams, curate de autori.

Mai multe exemple din setul de date PairCams, curate de autori.

Autorii au testat pentru două seturi de parametri: parametri de prelucrare a imaginii, cum ar fi compresia și transformările de culoare; și parametri de achiziție, cum ar fi marca camerei sau setările de expunere:

Parametri de prelucrare și achiziție a imaginii analizați, cu numărul de clase pentru fiecare.

Parametri de prelucrare și achiziție a imaginii analizați, cu numărul de clase pentru fiecare.

Teste

Pentru a determina dacă informațiile despre prelucrarea și tipul de cameră sunt păstrate în interiorul încorporărilor codificatorilor vizuali, autorii au antrenat un clasificator pentru a prezice etichetele de metadate direct din aceste încorporări. Dacă clasificatorul a funcționat la fel de bine ca ghicirea aleatoare, ar fi sugerat că detaliile despre prelucrare sau dispozitiv nu sunt capturate de model.

Cu toate acestea, orice performanță peste șansă ar indica faptul că aceste urme tehnice sunt într-adevăr codificate și ar putea influența sarcinile downstream.

Pentru a testa urmele de prelucrare, autorii au atribuit fiecărei imagini de antrenament o setare de prelucrare aleatoare, cum ar fi un anumit nivel de compresie JPEG, în timp ce toate imaginile de test dintr-un lot au împărtășit aceeași setare.

Acuratețea medie de clasificare, combinată cu încercări repetate sub diferite semănturi aleatoare, a permis determinarea faptului dacă detaliile tehnice ale prelucrării imaginilor sunt în mod constant capturate în reprezentarea internă a modelului:

Acuratețea de clasificare pentru prezicerea parametrilor de prelucrare a imaginii din încorporările codificatorului, utilizând un clasificator liniar aplicat la modele înghețate. Rezultatele sunt prezentate pentru compresia JPEG, încălzirea, redimensionarea și interpolarea, cu trei categorii de modele, viziune-lingvistică contrastivă (portocaliu), supervizată (verde) și autonome (albastru), evaluate pe ImageNet (rândul superior) și iNaturalist 2018 (rândul inferior). Liniile de ghicire aleatoare sunt marcate cu linii întrerupte.

Acuratețea de clasificare pentru prezicerea parametrilor de prelucrare a imaginii din încorporările codificatorului, utilizând un clasificator liniar aplicat la modele înghețate. Rezultatele sunt prezentate pentru compresia JPEG, încălzirea, redimensionarea și interpolarea, cu trei categorii de modele, viziune-lingvistică contrastivă (portocaliu), supervizată (verde) și autonome (albastru), evaluate pe ImageNet (rândul superior) și iNaturalist 2018 (rândul inferior). Liniile de ghicire aleatoare sunt marcate cu linii întrerupte.

La toți cei patru parametri de prelucrare, modelele de viziune-lingvistică contrastivă au arătat cea mai mare capacitate de a recunoaște manipulările ascunse ale imaginilor. Unele dintre modele au atins peste 80% acuratețe atunci când au prezis setările de compresie JPEG, încălzire și redimensionare din încorporările ImageNet.

Codificatorii supervizați, în special cei bazati pe ConvNeXt, au funcționat, de asemenea, puternic, în timp ce modelele autonome au fost consistent mai slabe.

Interpolarea a fost cel mai dificil de detectat parametru, dar cele mai bune modele CVL și supervizate au atins, în continuare, rezultate mult peste linia de ghicire aleatoare de 25% pe ambele seturi de date.

Următorul, pentru a testa dacă informațiile despre cameră sunt încorporate în reprezentările modelului, autorii au creat seturi de antrenament și test separate pentru fiecare parametru de achiziție (cum ar fi marca camerei, modelul camerei, expunerea, deschiderea, ISO și lungimea focală).

Pentru majoritatea parametrilor, doar clasele cu cel puțin 5.000 de exemple au fost utilizate; 500 de imagini au fost alese în mod aleator pentru testare, iar exemplele rămase au fost mostenite astfel încât fiecare clasă să aibă 200 de exemple de antrenament. Pentru parametrii “model (toate)” și “model (smart)”, care aveau mai puține date pe clasă, autorii au utilizat, în schimb, clase cu cel puțin 500 de imagini și au împărțit fiecare clasă în subseturi de antrenament și testare într-un raport de patru la unu.

Fotografii au fost păstrați separați în seturile de antrenament, validare și testare, și un clasificator simplu a fost antrenat pentru a prezice informații despre cameră pe baza caracteristicilor imaginii.

Pentru a asigura că clasificatorul nu a fost influențat de conținutul semantic al imaginilor, 90% din fiecare imagine a fost mascată central (a se vedea exemplele de mai jos). Autorii afirmă că, la acest nivel de mascare, toate codificatorii vizuali funcționează aproape de ghicirea aleatoare pe ImageNet, indicând faptul că semnalul semantic a fost efectiv suprimat:

Acuratețea de validare a ImageNet în funcție de raportul de mascare. La 90% de mascare, toate modelele scad la o performanță aproape de ghicirea aleatoare pe predicția etichetelor semantice, indicând faptul că semnalele semantice au fost efectiv eliminate. Imaginile de exemplu de la partea de jos ilustrează nivelurile de mascare.

Acuratețea de validare a ImageNet în funcție de raportul de mascare. La 90% de mascare, toate modelele scad la o performanță aproape de ghicirea aleatoare pe predicția etichetelor semantice, indicând faptul că semnalele semantice au fost efectiv eliminate. Imaginile de exemplu de la partea de jos ilustrează nivelurile de mascare.

Chiar și cu 90% din fiecare imagine mascată, majoritatea modelelor de viziune-lingvistică contrastivă și codificatorii supervizați ConvNeXt au prezis, în continuare, etichetele legate de cameră la un nivel mult peste șansă. Multe modele CVL au depășit 70% acuratețe în a distinge imaginile făcute cu smartphone de cele făcute cu camere non-smartphone.

Alți codificatori supervizați, SigLIP, și toate modelele autonome au funcționat mult mai slab. Când nu s-a aplicat nicio mascare, modelele CVL au arătat, din nou, cea mai puternică clusterizare după tipul de cameră, confirmând faptul că aceste modele încorporează informații de achiziție mai profund decât celelalte:

Vizualizări t-SNE pentru doi codificatori vizuali, cu culori care indică dacă fiecare imagine a fost capturată cu un smartphone sau o cameră non-smartphone.

Vizualizări t-SNE pentru doi codificatori vizuali, cu culori care indică dacă fiecare imagine a fost capturată cu un smartphone sau o cameră non-smartphone.

Importanță downstream

După ce s-a stabilit că metadatele influențează modelele în acest fel, s-a evaluat tendința urmelor ascunse de prelucrare de a interfera cu interpretarea imaginilor.

Când două versiuni ale aceleiași imagini au fost prelucrate diferit, încorporările au fost adesea organizate în funcție de stilul de prelucrare mai degrabă decât de conținut. În mai multe cazuri, o fotografie puternic comprimată a unui câine a fost tratată ca fiind mai similară cu o imagine neînrudită care avea aceeași setare de compresie decât cu versiunea sa necomprimată:

Impactul parametrilor de prelucrare asupra predicției semantice, prezentând acuratețea de clasificare semantică pentru ImageNet (sus) și iNaturalist (jos) sub cinci setări de prelucrare. În setarea de bază, toate imaginile de antrenament și test împărtășesc aceeași etichetă de prelucrare; în setarea all-diff, imaginea de test utilizează o valoare de prelucrare care nu este prezentă în setul de antrenament; în setările pos-same și neg-same, eticheta de prelucrare este aliniată cu imagini semantice similare sau nesemantice; în setarea uniformă, etichetele de prelucrare sunt atribuite în mod aleator pe setul de antrenament. Rezultatele sunt raportate utilizând k = 10 pentru ImageNet și k = 1 pentru iNaturalist.

Impactul parametrilor de prelucrare asupra predicției semantice, prezentând acuratețea de clasificare semantică pentru ImageNet (sus) și iNaturalist (jos) sub cinci setări de prelucrare. În setarea de bază, toate imaginile de antrenament și test împărtășesc aceeași etichetă de prelucrare; în setarea all-diff, imaginea de test utilizează o valoare de prelucrare care nu este prezentă în setul de antrenament; în setările pos-same și neg-same, eticheta de prelucrare este aliniată cu imagini semantice similare sau nesemantice; în setarea uniformă, etichetele de prelucrare sunt atribuite în mod aleator pe setul de antrenament. Rezultatele sunt raportate utilizând k = 10 pentru ImageNet și k = 1 pentru iNaturalist.

Cele mai puternice distorsionări au fost cauzate de compresia JPEG, urmată de încălzire și redimensionare, în timp ce interpolarea a produs doar un efect minor. Autorii afirmă că aceste rezultate demonstrează că urmele de prelucrare pot suprima informația semantică și dicta modul în care o imagine este înțeleasă.

În concluzie, ei avertizează:

‘Deși am identificat faptul că etichetele de metadate sunt codificate în codificatori vizuali fundamentali și am oferit indicii despre cauzele potențiale, nu putem identifica în mod definitiv sursa problemei. Investigarea acestei chestiuni este dificilă din cauza costului de reantrenare a acestor modele și a utilizării frecvente a seturilor de date private și a detaliilor de implementare nedivulgate.

‘Deși nu propunem tehnici de atenuare specifice, subliniem problema ca o zonă importantă de cercetare viitoare.’

Concluzie

În literatura de specialitate există o interes crescând din punct de vedere forensic cu privire la urmele și semnele “metodei peste conținut”; cu cât este mai ușor să se identifice un domeniu de încadrare sau un anumit set de date, cu atât este mai ușor să se exploateze această informație sub forma, de exemplu, a detectoarelor de deepfake, sau a sistemelor proiectate pentru a categorisi proveniența sau vârsta datelor și a modelelor.

Acest lucru este în contradicție cu intenția de bază a antrenării modelelor de inteligență artificială, care este aceea că conceptele centrale distilate ar trebui să fie curate independent de mijloacele de producție și nu ar trebui să poarte nicio urmă a acestora. În fapt, seturile de date și dispozitivele de captură au caracteristici și trăsături de domeniu care sunt, în esență, imposibil de separat de conținut, deoarece ele reprezintă, în sine, o “perspectivă istorică”.

 

* Articolul este structurat în mod neconvențional, și vom adapta cât mai bine posibil la formatul și prezentarea sa neobișnuită. O cantitate mare de material care ar fi trebuit să fie într-o secțiune “Metodă” (care nu există) a fost mutată în diverse părți ale apendicelui, probabil pentru a limita articolul la opt pagini – deși la un cost considerabil de claritate. Dacă am ratat vreo oportunitate de a îmbunătăți acest lucru, din cauza lipsei de timp, ne cerem scuze.

Publicat pentru prima dată miercuri, 20 august 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.