Angolo di Anderson

L’IA potrebbe segretamente classificare le immagini in base al marchio del dispositivo, non al contenuto

Published August 20, 2025

Updated April 26, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Una nuova ricerca scopre che i sistemi di intelligenza artificiale basati su immagini non guardano solo cosa c’è in una foto, ma anche come la foto è stata scattata. Dettagli nascosti come il tipo di macchina fotografica o la qualità dell’immagine possono influenzare silenziosamente cosa pensa l’IA di vedere, portando a risultati errati – solo perché la foto proviene da un dispositivo diverso.

Nel 2012 è stato rivelato che un sito web di viaggi mostrava regolarmente prezzi più alti agli utenti che poteva dedurre stavano navigando su dispositivi Apple, equiparando il marchio Apple con una maggiore potenza di spesa. Successive indagini hanno concluso che questo “annusare il portafoglio” basato sul dispositivo era diventato quasi routine per i siti di e-commerce.

Allo stesso modo, quale smartphone o dispositivo di cattura abbia scattato una particolare fotografia può essere dedotto mediante mezzi forensi, in base alle caratteristiche note di un numero limitato di lenti nei modelli. In tali casi, il modello del dispositivo di cattura viene solitamente stimato da tracce visive; e, come nel caso del 2012, sapere che tipo di macchina fotografica ha scattato un’immagine è una caratteristica potenzialmente sfruttabile

Sebbene i dispositivi di cattura tendano a incorporare metadati significativi in un’immagine, questa funzione può spesso essere disattivata dagli utenti; anche quando è lasciata attiva, le piattaforme di distribuzione come i social network possono rimuovere alcuni o tutti i metadati, per motivi logistici o di privacy, o entrambi.

Nonostante ciò, i metadati nelle immagini caricate dagli utenti vengono spesso ri-scritti/interpretati (anziché cancellati) o lasciati intatti, come fonte secondaria di informazioni non su cosa c’è nella foto, ma su come la foto è stata scattata. Come il caso del 2012 ha rivelato, informazioni di questo tipo possono essere preziose – non solo per le piattaforme commerciali, ma anche, potenzialmente, per gli hacker e gli attori malintenzionati.

Due prospettive

Una nuova collaborazione di ricerca tra il Giappone e la Repubblica Ceca ha scoperto che le tracce lasciate dal hardware della macchina fotografica e dall’elaborazione dell’immagine (come la qualità JPEG o il ritaglio della lente) non sono solo rilevabili da strumenti forensi, ma sono anche silenziosamente codificate nella ‘comprensione globale’ dei principali modelli di visione dell’IA.

Ciò include CLIP e altri grandi encoder visivi, ampiamente utilizzati in tutto, dai motori di ricerca alla moderazione dei contenuti. Il nuovo lavoro dimostra che questi modelli non interpretano solo cosa c’è in una foto, ma possono anche imparare come la foto è stata scattata; e questo segnale nascosto può a volte sovrastare il contenuto visibile.

Esempi di coppie di immagini dall’insieme di dati PairCams degli autori, creato per testare come il tipo di macchina fotografica influenzi i modelli di immagine dell’IA. Ogni coppia mostra lo stesso oggetto o scena fotografata nello stesso momento utilizzando una macchina fotografica non smartphone (a sinistra) e uno smartphone (a destra). Fonte: https://arxiv.org/pdf/2508.10637

Lo studio afferma che anche quando ai modelli vengono fornite versioni fortemente mascherate o ritagliate di un’immagine, possono comunque indovinare il marchio e il modello della macchina fotografica con sorprendente accuratezza. Ciò significa che lo spazio di rappresentazione che questi sistemi utilizzano per giudicare la somiglianza delle immagini può diventare intrecciato con fattori irrilevanti, come il dispositivo dell’utente, con conseguenze imprevedibili.

Ad esempio, in compiti a valle come la classificazione o il recupero di immagini, questo indesiderato “peso” può far sì che il sistema favorisca determinati tipi di macchina fotografica, indipendentemente da cosa mostri effettivamente l’immagine.

Il documento afferma:

‘I metadati che lasciano tracce negli encoder visivi al punto di oscurare le informazioni semantiche possono portare a risultati imprevedibili, compromettendo la generalizzabilità, la robustezza e potenzialmente minacciando l’affidabilità dei modelli.

‘Ancor più criticamente, questo effetto potrebbe essere sfruttato in modo malintenzionato; ad esempio, un attacco adversario potrebbe manipolare i metadati per intenzionalmente ingannare o fuorviare un modello, ponendo rischi in domini sensibili come la sanità, la sorveglianza o i sistemi autonomi.’

Il documento trova che i sistemi di visione linguistica contrastiva (CVL) come CLIP, ora uno degli encoder più influenti nella visione computerizzata, sono particolarmente propensi a ottenere tali inferenze dai dati:

Risultati di ricerca per un’immagine di query, mostrando come i modelli di base classificano immagini simili in base non solo al contenuto visivo ma anche ai metadati nascosti come la compressione JPEG o il modello della macchina fotografica.

Il nuovo documento è intitolato Tracce di elaborazione e acquisizione negli encoder visivi: cosa sa CLIP della tua macchina fotografica?, e proviene da sei ricercatori dell’Università di Osaka e dell’Università Tecnica di Praga.

Metodo e dati*

Per testare l’influenza dei metadati nascosti sugli encoder visivi come CLIP, gli autori hanno lavorato con due categorie di metadati: parametri di elaborazione dell’immagine (come la compressione JPEG o il ritaglio) e parametri di acquisizione (come il modello della macchina fotografica o le impostazioni di esposizione).

Piuttosto che addestrare nuovi modelli, i ricercatori hanno valutato 47 encoder visivi ampiamente utilizzati nel loro stato congelato, pre-addestrato, tra cui modelli di visione linguistica contrastiva come CLIP, modelli auto-supervisionati come DINO, e reti convenzionalmente supervisionate.

Per i parametri di elaborazione, i ricercatori hanno applicato trasformazioni controllate ai dataset ImageNet e iNaturalist 2018, tra cui sei livelli di compressione JPEG, tre impostazioni di ritaglio, tre scale di ridimensionamento e quattro metodi di interpolazione.

Esempi di immagini e annotazioni associate dal dataset iNaturalist. Fonte: https://arxiv.org/pdf/1707.06642

I modelli sono stati testati sulla loro capacità di recuperare ogni impostazione di trasformazione utilizzando solo il contenuto dell’immagine, con previsioni di successo che indicavano che l’encoder mantiene informazioni su queste scelte di elaborazione nella sua rappresentazione interna.

Per esaminare i parametri di acquisizione, i ricercatori hanno compilato un dataset di 356.459 immagini chiamato FlickrExif, contenente metadati Exif preservati, e costruito un secondo dataset chiamato PairCams, composto da 730 coppie di immagini scattate simultaneamente con uno smartphone e una macchina fotografica non smartphone.

Il dataset FlickrExif è stato costruito utilizzando l’API di Flickr per scaricare immagini con metadati Exif accompagnatori. Tra 2.000 e 4.000 immagini sicure per il lavoro sono state raccolte per mese, datate dall’inizio del 2000 alla metà del 2024, e filtrate per includere solo quelle con licenze permissive. Per prevenire la sovrarappresentazione da parte di utenti prolifici, ogni contributore individuale è stato limitato a dieci immagini per mese per ogni anno dato.

Per il dataset PairCams, ogni foto è stata scattata utilizzando impostazioni automatiche e senza flash, consentendo un confronto di come gli encoder visivi rispondono alle differenze nel hardware della macchina fotografica da solo, indipendentemente dal contenuto dell’immagine:

Ulteriori esempi dal dataset PairCams curato dagli autori.

Gli autori hanno testato due set di parametri: parametri di elaborazione dell’immagine, come la compressione e le trasformazioni del colore; e parametri di acquisizione, come il modello della macchina fotografica o le impostazioni di esposizione:

Parametri di elaborazione e acquisizione dell’immagine analizzati, con numero di classi per ciascuno.

Test

Per determinare se le informazioni sull’elaborazione dell’immagine e sul tipo di macchina fotografica sono conservate all’interno degli embedding degli encoder visivi, gli autori hanno addestrato un classificatore per prevedere direttamente i metadati dalle embedding. Se il classificatore avesse eseguito meglio del caso, avrebbe suggerito che i dettagli sull’elaborazione o sul dispositivo non sono catturati dal modello.

Tuttavia, qualsiasi prestazione al di sopra del caso avrebbe indicato che queste tracce tecniche sono effettivamente codificate e potrebbero influenzare i compiti a valle.

Per testare le tracce di elaborazione, gli autori hanno assegnato a ogni immagine di addestramento un’impostazione di elaborazione casuale, come un particolare livello di compressione JPEG, mentre tutte le immagini di test in un batch condividevano la stessa impostazione.

L’accuratezza di classificazione media su tutte le impostazioni è stata poi combinata con prove ripetute sotto diversi semi casuali, in modo che potesse essere determinato se i dettagli tecnici dell’elaborazione dell’immagine sono costantemente catturati nella rappresentazione interna del modello:

Accuratezza di classificazione per la previsione dei parametri di elaborazione dell’immagine dagli embedding degli encoder, utilizzando un classificatore lineare applicato a modelli congelati. I risultati sono mostrati per la compressione JPEG, il ritaglio, il ridimensionamento e l’interpolazione, con tre categorie di modelli, visione linguistica contrastiva (arancione), supervisionata (verde) e auto-supervisionata (blu), valutati su ImageNet (prima riga) e iNaturalist 2018 (seconda riga). Le linee tratteggiate rappresentano i livelli di casualità.

Su tutti e quattro i parametri di elaborazione, i modelli di visione linguistica contrastiva hanno mostrato la maggiore capacità di riconoscere le manipolazioni nascoste delle immagini. Alcuni dei modelli hanno raggiunto più del 80% di accuratezza quando hanno previsto le impostazioni di compressione JPEG, ritaglio e ridimensionamento dagli embedding di ImageNet.

Gli encoder supervisionati, in particolare quelli basati su ConvNeXt, hanno anche eseguito fortemente, mentre i modelli auto-supervisionati sono stati costantemente più deboli.

L’interpolazione è stato il parametro più difficile da rilevare, eppure i migliori modelli CVL e supervisionati hanno comunque raggiunto risultati ben al di sopra della linea di base del 25% su entrambi i dataset.

Successivamente, per testare se le informazioni relative alla macchina fotografica sono incorporate nella rappresentazione del modello, gli autori hanno creato set di addestramento e test separati per ogni parametro di acquisizione (come il modello della macchina fotografica o le impostazioni di esposizione).

Per la maggior parte dei parametri, solo le classi con almeno 5.000 esempi sono state utilizzate; 500 immagini sono state casualmente messe da parte per il test, e gli esempi rimanenti sono stati campionati in modo che ogni classe avesse 200 campioni di addestramento. Per i parametri ‘modello (tutti)’ e ‘modello (smart)’, che avevano meno dati per classe, gli autori hanno invece utilizzato classi con almeno 500 immagini, e hanno diviso ogni classe in subset di addestramento e test in un rapporto di quattro a uno.

I fotografi sono stati tenuti separati attraverso i set di addestramento, convalida e test, e un semplice classificatore è stato addestrato per prevedere le informazioni sulla macchina fotografica in base alle caratteristiche dell’immagine.

Per assicurarsi che il classificatore non fosse influenzato dal contenuto semantico delle immagini, il 90% di ogni immagine è stato mascherato al centro (vedere gli esempi qui sotto). Gli autori affermano che a questo livello di mascheramento, tutti gli encoder visivi eseguono vicino al caso su ImageNet, indicando che il segnale semantico è stato efficacemente soppresso:

Accuratezza di validazione di ImageNet in funzione del rapporto di mascheramento. Al 90% di mascheramento, tutti i modelli scendono a una prestazione vicina al caso nella previsione dell’etichetta semantica, indicando che le tracce semantiche sono state efficacemente rimosse. Le immagini di esempio in basso illustrano i livelli di mascheramento.

Anche con il 90% di ogni immagine mascherato, la maggior parte dei modelli di visione linguistica contrastiva e gli encoder supervisionati ConvNeXt hanno ancora previsto le etichette relative alla macchina fotografica a livelli ben al di sopra del caso. Molti modelli CVL hanno superato il 70% di accuratezza nel distinguere le immagini scattate con smartphone da quelle scattate con macchine fotografiche non smartphone.

Altri encoder supervisionati, SigLIP, e tutti i modelli auto-supervisionati hanno eseguito molto peggio. Quando non è stata applicata alcuna mascheratura, i modelli CVL hanno nuovamente mostrato la maggiore capacità di raggruppamento per tipo di macchina fotografica, confermando che questi modelli incorporano le informazioni di acquisizione più profondamente degli altri:

Visualizzazioni t-SNE per due encoder visivi, con colori che indicano se ogni immagine è stata scattata con una macchina fotografica smartphone o non smartphone.

Significato a valle

Avendo stabilito che i metadati influenzano i modelli in questo modo, la propensione per le tracce di elaborazione nascoste per interferire con l’interpretazione dell’immagine è stata quindi valutata.

Quando due versioni della stessa immagine sono state elaborate in modo diverso, gli embedding sono stati spesso organizzati in base allo stile di elaborazione piuttosto che al contenuto. In diversi casi, una foto fortemente compressa di un cane è stata trattata come più simile a un’immagine non correlata con la stessa impostazione di compressione piuttosto che alla sua versione non compressa:

Impatto dei parametri di elaborazione sulla previsione semantica, con accuratezza di classificazione semantica per ImageNet (in alto) e iNaturalist (in basso) sotto cinque impostazioni di elaborazione. Nella baseline, tutte le immagini di addestramento e di test condividono la stessa etichetta di elaborazione; nell’impostazione all-diff, l’immagine di test utilizza un valore di elaborazione non presente nel set di addestramento; in pos-same e neg-same, l’etichetta di elaborazione è allineata con immagini semanticamente simili o dissimili; nell’impostazione uniforme, le etichette di elaborazione sono state assegnate casualmente in tutto il set di addestramento. I risultati sono riportati utilizzando k = 10 per ImageNet e k = 1 per iNaturalist.

Le distorsioni più forti sono state causate dalla compressione JPEG, seguite dal ritaglio e dal ridimensionamento, mentre l’interpolazione ha prodotto solo un effetto minore. Gli autori affermano che questi risultati dimostrano che le tracce di elaborazione possono sovrastare le informazioni semantiche e dettare come un’immagine è compresa.

In conclusione, essi avvertono:

‘Mentre abbiamo identificato che le etichette dei metadati sono codificate negli encoder visivi fondamentali e abbiamo fornito indizi sui potenziali motivi, non possiamo definitivamente individuare la fonte del problema. Investigare ulteriormente è difficile a causa del costo di ri-addestrare tali modelli e dell’uso frequente di set di dati privati e dettagli di implementazione non divulgati.

‘Sebbene non proponiamo tecniche di mitigazione specifiche, evidenziamo il problema come un’area importante per future ricerche.’

Conclusione

Nella letteratura c’è un crescente interesse forense riguardo alle tracce e ai segni del “metodo sul contenuto”; più è facile identificare un dominio di inquadramento o un set di dati specifico, più è facile sfruttare queste informazioni sotto forma di, ad esempio, rilevatori di deepfake, o sistemi progettati per categorizzare la provenienza o l’età dei dati e dei modelli.

Tutto ciò va contro l’intento fondamentale della formazione dei modelli di intelligenza artificiale, che è che i concetti centrali distillati debbano essere curati indipendentemente dai mezzi di produzione e non debbano portare alcuna traccia di essi. In realtà, i set di dati e i dispositivi di cattura hanno caratteristiche e tratti di dominio che sono efficacemente impossibili da separare dal contenuto, perché in se stessi rappresentano anche una “prospettiva storica”.

* Il documento è strutturato in modo non convenzionale e ci adatteremo al meglio alla sua insolita formattazione e presentazione. Una grande quantità di materiale che avrebbe dovuto essere in una sezione “Metodo” (inesistente) è stata spostata in diverse parti dell’appendice, presumibilmente per limitare il documento principale a otto pagine – sebbene a spese della chiarezza. Se abbiamo perso alcuna opportunità di migliorarlo, a causa della mancanza di tempo, ci scusiamo.

Pubblicato per la prima volta mercoledì 20 agosto 2025