Angle d’Anderson
L’IA peut secrètement classer les images par marque de périphérique, et non par contenu

De nouvelles recherches montrent que les systèmes d’IA axés sur les images populaires ne regardent pas seulement ce qui se trouve dans une photo, mais également la façon dont la photo a été prise. Des détails cachés comme le type d’appareil photo ou la qualité de l’image peuvent affecter discrètement ce que l’IA pense voir, conduisant à des résultats incorrects – simplement parce que la photo provient d’un périphérique différent.
En 2012, il a été révélé qu’un site Web de voyage affichait régulièrement des prix plus élevés aux utilisateurs qu’il pouvait déduire qu’ils naviguaient sur des appareils Apple, en équivalent la marque Apple avec une puissance d’achat plus élevée. Une enquête ultérieure a conclu que ce « reniflage de portefeuille » axé sur le périphérique était devenu presque routinier pour les sites de commerce électronique.
De même, le smartphone ou le périphérique de capture qui a pris une photographie particulière peut être déduit par des moyens forensiques, sur la base des caractéristiques connues d’un nombre limité de lentilles dans les modèles. Dans de tels cas, le modèle du périphérique de capture est généralement estimé par des traces visuelles ; et, comme dans l’incident de 2012, savoir quel type d’appareil photo a pris une image est une caractéristique potentiellement exploitable.
Bien que les périphériques de capture tendent à intégrer des métadonnées importantes dans une image, cette fonctionnalité peut souvent être désactivée par les utilisateurs ; même lorsque celle-ci est laissée activée, les plateformes de distribution telles que les réseaux sociaux peuvent supprimer certaines ou toutes les métadonnées, soit pour des raisons logistiques, soit pour des raisons de confidentialité, ou les deux.
Néanmoins, les métadonnées dans les images téléchargées par les utilisateurs sont fréquemment soit réécrites/interprétées (plutôt que supprimées), soit laissées intactes, comme une source secondaire d’informations non sur ce qui se trouve dans l’image, mais sur la façon dont l’image a été prise. Comme le cas de 2012 l’a révélé, des informations de ce type peuvent être précieuses – non seulement pour les plateformes commerciales, mais également, potentiellement, pour les pirates et les acteurs malveillants.
Deux points de vue
Une nouvelle collaboration de recherche entre le Japon et la République tchèque a constaté que les traces laissées par le matériel de l’appareil photo et le traitement d’image (tels que la qualité JPEG ou le réglage de la lentille) ne sont pas seulement détectables par des outils forensiques, mais sont également silencieusement codées dans la ‘compréhension globale’ des principaux modèles de vision d’IA.
Cela inclut CLIP et d’autres encodeurs visuels à grande échelle, qui sont largement utilisés dans tout, des moteurs de recherche à la modération de contenu. Le nouveau travail démontre que ces modèles n’interprètent pas seulement ce qui se trouve dans une photo, mais peuvent également apprendre comment la photo a été prise ; et ce signal caché peut parfois surpasser le contenu visible.

Exemples de paires d’images de l’ensemble de données PairCams des auteurs, créé pour tester comment le type d’appareil photo affecte les modèles d’image d’IA. Chaque paire montre le même objet ou scène photographié au même moment à l’aide d’un appareil photo non intelligent (gauche) et d’un smartphone (droite). Source : https://arxiv.org/pdf/2508.10637
L’étude affirme que même lorsque les modèles d’IA sont donnés des versions masquées ou coupées d’une image, ils peuvent toujours deviner la marque et le modèle de l’appareil photo avec une précision surprenante. Cela signifie que l’espace de représentation que ces systèmes utilisent pour juger de la similarité des images peut devenir entrelacé avec des facteurs sans importance, tels que le périphérique de l’utilisateur, avec des conséquences imprévisibles.
Par exemple, dans des tâches en aval telles que la classification ou la récupération d’images, ce « pondérage » indésirable peut amener le système à favoriser certains types d’appareils photo, indépendamment de ce que montre réellement l’image.
Le document indique :
‘Les étiquettes de métadonnées laissant des traces dans les encodeurs visuels au point d’éclipser les informations sémantiques peuvent conduire à des résultats imprévisibles, compromettant la généralisabilité, la robustesse et potentiellement sapant la fiabilité des modèles.
‘Plus critique encore, cet effet pourrait être exploité de manière malveillante ; par exemple, une attaque adverse peut manipuler les métadonnées pour intentionnellement induire en erreur ou tromper un modèle, posant des risques dans des domaines sensibles tels que les soins de santé, la surveillance ou les systèmes autonomes.’
Le document constate que les systèmes de vision-langage contrastive (CVL) tels que CLIP, qui sont maintenant l’un des encodeurs les plus influents en vision par ordinateur, sont particulièrement susceptibles d’obtenir de telles inférences à partir des données :

Résultats de recherche pour une image de requête, montrant comment les modèles de base classent les images similaires en fonction non seulement du contenu visuel mais également des métadonnées cachées telles que la compression JPEG ou le modèle d’appareil photo.
Le nouvel article est intitulé Traces de traitement et d’acquisition dans les encodeurs visuels : Qu’est-ce que CLIP sait sur votre appareil photo ?, et provient de six chercheurs de l’Université d’Osaka et de l’Université technique de Prague.
Méthode et données*
Pour tester l’influence des métadonnées cachées sur les encodeurs visuels tels que CLIP, les auteurs ont travaillé avec deux catégories de métadonnées : les paramètres de traitement d’image (tels que la compression JPEG ou le réglage de la couleur) et les paramètres d’acquisition (tels que le modèle d’appareil photo ou les paramètres d’exposition).
Plutôt que de former de nouveaux modèles, les chercheurs ont évalué 47 encodeurs visuels largement utilisés dans leur état figé, pré-formé, y compris des modèles de vision-langage contrastive tels que CLIP, des modèles autosupervisés tels que DINO, et des réseaux supervisés classiques.
Pour les paramètres de traitement, les chercheurs ont appliqué des transformations contrôlées aux ensembles de données ImageNet et iNaturalist 2018, y compris six niveaux de compression JPEG, trois paramètres de réglage, trois échelles de redimensionnement et quatre méthodes d’interpolation.

Exemples d’images et d’annotations associées de l’ensemble de données iNaturalist. Source : https://arxiv.org/pdf/1707.06642
Les modèles ont été testés sur leur capacité à récupérer chaque paramètre de transformation en utilisant uniquement le contenu de l’image, avec des prédictions réussies indiquant que l’encodeur retient des informations sur ces choix de traitement dans sa représentation interne.
Pour examiner les paramètres d’acquisition, les chercheurs ont compilé un ensemble de données de 356 459 images appelé FlickrExif, contenant des métadonnées Exif préservées, et construit un deuxième ensemble de données appelé PairCams, composé de 730 paires d’images prises simultanément avec un smartphone et un appareil photo non intelligent.
L’ensemble de données FlickrExif a été construit en utilisant l’API Flickr pour télécharger des images avec des métadonnées Exif accompagnatrices. Entre 2 000 et 4 000 images sans danger pour le travail ont été collectées par mois, datant du début de 2000 à la mi-2024, et filtrées pour n’inclure que celles avec des licences permissives. Pour empêcher une surreprésentation par des utilisateurs prolifiques, chaque contributeur individuel a été limité à dix images par mois pour n’importe quelle année donnée.
Pour l’ensemble de données PairCams, chaque photo a été prise en utilisant des paramètres automatiques et sans flash, permettant une comparaison de la façon dont les encodeurs visuels répondent aux différences de matériel d’appareil photo seul, indépendamment du contenu de l’image :

Autres exemples de l’ensemble de données PairCams curaté par les auteurs.
Les auteurs ont testé deux ensembles de paramètres : les paramètres de traitement d’image, tels que la compression et les transformations de couleur ; et les paramètres d’acquisition d’image, tels que le modèle d’appareil photo ou les paramètres d’exposition :

Paramètres de traitement et d’acquisition d’image analysés, avec le nombre de classes pour chacun.
Tests
Pour déterminer si les informations sur le traitement et le type d’appareil photo sont conservées dans les embeddings des encodeurs visuels, les auteurs ont formé un classificateur pour prédire les étiquettes de métadonnées directement à partir de ces embeddings. Si le classificateur n’a performé qu’aussi bien que les devinettes aléatoires, cela suggérerait que les détails sur le traitement ou le périphérique ne sont pas capturés par le modèle.
Cependant, toute performance au-dessus du hasard indiquerait que ces traces techniques sont effectivement codées et pourraient influencer les tâches en aval.
Pour tester les traces de traitement, les auteurs ont attribué à chaque image de formation un paramètre de traitement aléatoire, tel qu’un niveau de compression JPEG particulier, tandis que toutes les images de test dans un lot partageaient le même paramètre.
La précision de classification moyenne sur tous les paramètres a été combinée avec des essais répétés sous différents graines aléatoires, de sorte qu’il puisse être déterminé si les détails techniques du traitement d’image sont systématiquement capturés dans la représentation interne du modèle :

Précision de classification pour la prédiction des paramètres de traitement d’image à partir des embeddings d’encodeur, en utilisant un classificateur linéaire appliqué à des modèles figés. Les résultats sont présentés pour la compression JPEG, le réglage, le redimensionnement et l’interpolation, avec trois catégories de modèles, la vision-langage contrastive (orange), la supervision (vert) et l’auto-supervision (bleu), évalués sur ImageNet (première rangée) et iNaturalist 2018 (deuxième rangée). Les lignes de base de devinette aléatoire sont marquées de lignes pointillées.
Sur tous les quatre paramètres de traitement, les modèles de vision-langage contrastive ont montré la capacité la plus élevée de reconnaître les manipulations d’image cachées. Certains de ces modèles ont atteint plus de 80 % de précision lors de la prédiction des paramètres de compression JPEG, de réglage et de redimensionnement à partir des embeddings d’ImageNet.
Les encodeurs supervisés, en particulier ceux basés sur ConvNeXt, ont également performé fortement, tandis que les modèles autosupervisés étaient systématiquement plus faibles.
L’interpolation a été le paramètre le plus difficile à détecter, mais les meilleurs modèles CVL et supervisés ont encore atteint des résultats nettement supérieurs à la ligne de base aléatoire de 25 % sur les deux ensembles de données.
Ensuite, pour tester si les informations relatives à l’appareil photo sont intégrées dans les représentations de modèle, les auteurs ont créé des ensembles de formation et de test distincts pour chaque paramètre d’acquisition (tel que le modèle d’appareil photo, les paramètres d’exposition, l’ouverture, la sensibilité ISO et la longueur focale).
Pour la plupart des paramètres, seules les classes avec au moins 5 000 exemples ont été utilisées ; 500 images ont été aléatoirement mises de côté pour les tests, et les exemples restants ont été échantillonnés de manière à ce que chaque classe ait 200 échantillons de formation. Pour les paramètres « modèle (tous) » et « modèle (intelligent) », qui avaient moins de données par classe, les auteurs ont plutôt utilisé des classes avec au moins 500 images, et divisé chaque classe en sous-ensembles d’entraînement et de test dans un rapport de quatre à un.
Les photographes ont été conservés séparément à travers les ensembles de formation, de validation et de test, et un classificateur simple a été formé pour prédire les informations sur l’appareil photo en fonction des caractéristiques d’image.
Pour s’assurer que le classificateur n’était pas influencé par le contenu sémantique des images, 90 % de chaque image ont été masqués au centre (voir les exemples ci-dessous). Les auteurs affirment que à ce niveau de masquage, tous les encodeurs visuels performent proche de l’aléatoire sur ImageNet, indiquant que le signal sémantique a été efficacement supprimé :

Précision de validation d’ImageNet en fonction du rapport de masquage. À 90 % de masquage, tous les modèles tombent à une performance proche de l’aléatoire sur la prédiction d’étiquettes sémantiques, indiquant que les indices sémantiques ont été efficacement supprimés. Les exemples d’images ci-dessous illustrent les niveaux de masquage.
Même avec 90 % de chaque image masquée, la plupart des modèles de vision-langage contrastive et les encodeurs supervisés ConvNeXt ont encore prédit les étiquettes liées à l’appareil photo à des niveaux nettement supérieurs au hasard. De nombreux modèles CVL ont dépassé 70 % de précision pour distinguer les images prises avec un smartphone de celles prises avec un appareil photo non intelligent.
D’autres encodeurs supervisés, SigLIP, et tous les modèles autosupervisés ont performé nettement moins bien. Lorsqu’aucun masquage n’a été appliqué, les modèles CVL ont à nouveau montré le regroupement le plus fort par type d’appareil photo, confirmant que ces modèles intègrent plus profondément les informations d’acquisition que les autres :

Visualisations t-SNE pour deux encodeurs visuels, avec des couleurs indiquant si chaque image a été capturée avec un smartphone ou un appareil photo non intelligent.
Signification en aval
Ayant établi que les métadonnées influencent les modèles de cette manière, la propension des traces de traitement cachées à interférer avec l’interprétation des images a ensuite été évaluée.
Lorsque deux versions de la même image ont été traitées différemment, les embeddings ont souvent été organisés selon le style de traitement plutôt que le contenu. Dans plusieurs cas, une photo fortement compressée d’un chien a été traitée comme plus similaire à une image non liée avec le même paramètre de compression qu’à sa propre version non compressée :

Impact des paramètres de traitement sur la prédiction sémantique, présentant la précision de classification sémantique pour ImageNet (haut) et iNaturalist (bas) sous cinq paramètres de traitement. Dans la ligne de base, toutes les images de formation et de test partagent le même paramètre de traitement ; dans le paramètre tout diff, l’image de test utilise une valeur de traitement qui n’est pas présente dans l’ensemble de formation ; dans les paramètres pos-same et neg-same, l’étiquette de traitement est alignée soit avec des images sémantiquement similaires, soit avec des images sémantiquement dissimilaires ; dans le paramètre uniforme, les étiquettes de traitement sont attribuées aléatoirement à l’ensemble de formation. Les résultats sont présentés en utilisant k = 10 pour ImageNet et k = 1 pour iNaturalist.
Les distorsions les plus fortes ont été causées par la compression JPEG, suivie du réglage et du redimensionnement, tandis que l’interpolation a produit seulement un effet mineur. Les auteurs affirment que ces résultats démontrent que les traces de traitement peuvent supplanter les informations sémantiques et dicter la façon dont une image est comprise.
En conclusion, ils avertissent :
‘Bien que nous ayons identifié que les étiquettes de métadonnées sont codées dans les encodeurs visuels fondamentaux et fourni des indices sur les causes potentielles, nous ne pouvons pas définir avec certitude la source du problème. Enquêter plus loin est difficile en raison du coût de la réformation de tels modèles et de l’utilisation fréquente de jeux de données privés et de détails d’implémentation non divulgués.
‘Bien que nous ne proposions pas de techniques d’atténuation spécifiques, nous mettons en évidence le problème comme un domaine de recherche important pour l’avenir.’
Conclusion
Dans la littérature, il existe un intérêt forensique croissant en ce qui concerne les traces et les signes de « méthode sur contenu » ; plus il est facile d’identifier un domaine de mise en cadre ou un ensemble de données spécifique, plus il est facile d’exploiter ces informations sous la forme, par exemple, de détecteurs de deepfake, ou de systèmes conçus pour catégoriser la provenance ou l’âge des données et des modèles.
Tout cela va à l’encontre de l’intention principale de la formation des modèles d’IA, qui est que les concepts centraux distillés doivent être curés indépendamment des moyens de production, et ne doivent porter aucune trace de ceux-ci. En fait, les ensembles de données et les périphériques de capture ont des caractéristiques et des traits de domaine qui sont effectivement impossibles à séparer du contenu, car ils représentent eux-mêmes une « perspective historique ».
* L’article est présenté de manière non conventionnelle, et nous allons nous adapter au mieux à sa présentation inhabituelle et à son manque de clarté. Une grande partie du matériel qui aurait dû se trouver dans une section « Méthode » (inexistante) a été déplacée vers diverses parties de l’appendice, probablement pour limiter l’article principal à huit pages – bien que cela se fasse au prix d’une grande clarté. Si nous avons manqué une occasion d’améliorer cela, en raison d’un manque de temps, nous nous excusons.
Publié pour la première fois le mercredi 20 août 2025












