Ángulo de Anderson

El AI puede clasificar secretamente las imágenes por marca de dispositivo, no por contenido

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Una nueva investigación encuentra que los sistemas de inteligencia artificial centrados en imágenes populares no solo miran lo que hay en una foto, sino que también detectan cómo se tomó la foto. Detalles ocultos como el tipo de cámara o la calidad de la imagen pueden afectar silenciosamente lo que el AI piensa que ve, lo que lleva a resultados incorrectos, simplemente porque la foto provino de un dispositivo diferente.

 

En 2012 se reveló que un sitio web de viajes mostraba regularmente precios más altos a los usuarios que podían deducir que estaban navegando en dispositivos Apple, equiparando la marca Apple con un mayor poder adquisitivo. Una investigación posterior concluyó que este enfoque de “olfateo de billetera” centrado en el dispositivo se había vuelto casi rutinario para los sitios de comercio electrónico.

De manera similar, se puede deducir qué smartphone o dispositivo de captura tomó una fotografía en particular mediante medios forenses, basados en las características conocidas de un número limitado de lentes en los modelos. En tales casos, el modelo del dispositivo de captura se estima generalmente por trazas visuales; y, al igual que en el incidente de 2012, saber qué tipo de cámara tomó una imagen es una característica potencialmente explotable

Aunque los dispositivos de captura tienden a incrustar metadatos significativos en una imagen, esta función puede ser desactivada a menudo por los usuarios; incluso cuando se deja activada, las plataformas de distribución como las redes sociales pueden eliminar algunos o todos los metadatos, ya sea por razones logísticas o de privacidad, o ambas.

A pesar de ello, los metadatos en las imágenes subidas por los usuarios se reescriben o se interpretan con frecuencia (en lugar de eliminarse) o se dejan intactos, como una fuente secundaria de información no sobre lo que hay en la imagen, sino sobre cómo se tomó la imagen. Como reveló el caso de 2012, esta información puede ser valiosa, no solo para las plataformas comerciales, sino también, potencialmente, para los hackers y actores maliciosos.

Perspectivas gemelas

Una nueva colaboración de investigación entre Japón y la República Checa ha encontrado que las trazas dejadas por el hardware de la cámara y el procesamiento de imágenes (como la calidad de JPEG o el afino de lentes) no solo son detectables por herramientas forenses, sino que también se codifican silenciosamente en la “comprensión global” de los modelos de visión de inteligencia artificial líderes.

Esto incluye CLIP y otros codificadores visuales de gran escala, que se utilizan ampliamente en todo, desde motores de búsqueda hasta moderación de contenido. El nuevo trabajo demuestra que estos modelos no solo interpretan lo que hay en una foto, sino que también pueden aprender cómo se hizo la foto; y esta señal secreta puede superar a menudo el contenido visible.

Pares de imágenes de ejemplo del conjunto de datos PairCams de los autores, creado para probar cómo el tipo de cámara afecta los modelos de imágenes de inteligencia artificial. Cada par muestra el mismo objeto o escena fotografiada en el mismo momento utilizando un no smartphone (izquierda) y un smartphone (derecha). Fuente: https://arxiv.org/pdf/2508.10637

Pares de imágenes de ejemplo del conjunto de datos PairCams de los autores, creado para probar cómo el tipo de cámara afecta los modelos de imágenes de inteligencia artificial. Cada par muestra el mismo objeto o escena fotografiada en el mismo momento utilizando un no smartphone (izquierda) y un smartphone (derecha). Fuente: https://arxiv.org/pdf/2508.10637

El estudio afirma que incluso cuando los modelos de inteligencia artificial se les dan versiones fuertemente enmascaradas o recortadas de la imagen, todavía pueden adivinar la marca y el modelo de la cámara con sorprendente precisión. Esto significa que el espacio de representación que estos sistemas utilizan para juzgar la similitud de las imágenes puede volverse enredado con factores irrelevantes, como el dispositivo del usuario, con consecuencias impredecibles.

Por ejemplo, en tareas posteriores como la clasificación o la recuperación de imágenes, este “pesaje” no deseado puede hacer que el sistema favorezca ciertos tipos de cámara, independientemente de lo que la imagen muestra en realidad.

El artículo establece:

‘Las etiquetas de metadatos que dejan trazas en los codificadores visuales hasta el punto de eclipsar la información semántica pueden llevar a resultados impredecibles, comprometiendo la generalización, la robustez y potencialmente socavando la confiabilidad de los modelos.

‘Más críticamente, este efecto podría ser explotado maliciosamente; por ejemplo, un ataque adversario puede manipular los metadatos para engañar intencionalmente o confundir a un modelo, planteando riesgos en dominios sensibles como la atención médica, la vigilancia o los sistemas autónomos.’

El artículo encuentra que los sistemas de visión-idioma contrastivos (CVL) como CLIP, ahora uno de los codificadores más influyentes en la visión por computadora, son particularmente propensos a obtener tales inferencias de los datos:

Resultados de búsqueda para una imagen de consulta, que muestra cómo los modelos de base clasifican imágenes similares no solo según el contenido visual, sino también según metadatos ocultos como la compresión JPEG o el modelo de cámara. La figura refleja la afirmación de los autores de que tanto las etiquetas de metadatos como las etiquetas semánticas dan forma al espacio de representación del modelo, a veces alterando los resultados de recuperación.

Resultados de búsqueda para una imagen de consulta, que muestra cómo los modelos de base clasifican imágenes similares no solo según el contenido visual, sino también según metadatos ocultos como la compresión JPEG o el modelo de cámara.

El nuevo artículo se titula Huellas de procesamiento y adquisición en codificadores visuales: ¿Qué sabe CLIP sobre su cámara?, y proviene de seis investigadores de la Universidad de Osaka y la Universidad Técnica Checa en Praga.

Método y datos*

Para probar la influencia de los metadatos ocultos en los codificadores visuales como CLIP, los autores trabajaron con dos categorías de metadatos: parámetros de procesamiento de imágenes (como la compresión JPEG o el afino) y parámetros de adquisición (como el modelo de cámara o la configuración de exposición).

Rather que entrenar nuevos modelos, los investigadores evaluaron 47 codificadores visuales ampliamente utilizados en su estado congelado y preentrenado, incluyendo modelos de visión-idioma contrastivos como CLIP, modelos auto-supervisados como DINO, y redes convencionalmente supervisadas.

Para los parámetros de procesamiento, los investigadores aplicaron transformaciones controladas a los conjuntos de datos ImageNet y iNaturalist 2018, incluyendo seis niveles de compresión JPEG, tres ajustes de afino, tres escalas de redimensionamiento y cuatro métodos de interpolación.

Ejemplos de imágenes y anotaciones asociadas del conjunto de datos iNaturalist. Fuente: https://arxiv.org/pdf/1707.06642

Ejemplos de imágenes y anotaciones asociadas del conjunto de datos iNaturalist. Fuente: https://arxiv.org/pdf/1707.06642

Los modelos se probaron en su capacidad para recuperar cada configuración de procesamiento utilizando solo el contenido de la imagen, con predicciones exitosas que indicaban que el codificador retiene información sobre estas elecciones de procesamiento en su representación interna.

Para examinar los parámetros de adquisición, los investigadores compilaron un conjunto de datos de 356,459 imágenes llamado FlickrExif, que contiene metadatos Exif preservados, y construyeron un segundo conjunto de datos llamado PairCams, compuesto por 730 pares de imágenes capturadas simultáneamente con un smartphone y una cámara no smartphone.

El conjunto de datos FlickrExif se creó utilizando la API de Flickr para descargar imágenes con metadatos Exif acompañantes. Se recopilaron entre 2,000 y 4,000 imágenes seguras para el trabajo por mes, fechadas desde principios de 2000 hasta mediados de 2024, y se filtraron para incluir solo aquellas con licencias permisivas. Para evitar la sobre-representación por parte de usuarios prolíficos, cada contribuyente individual se limitó a diez imágenes por mes para cualquier año determinado.

Para el conjunto de datos PairCams, cada foto se tomó utilizando configuraciones automáticas y sin flash, lo que permitió una comparación de la forma en que los codificadores visuales responden a las diferencias en el hardware de la cámara sola, independientemente del contenido de la imagen:

Más ejemplos del conjunto de datos PairCams curado por los autores.

Más ejemplos del conjunto de datos PairCams curado por los autores.

Los autores probaron dos conjuntos de parámetros: parámetros de procesamiento de imágenes, como la compresión y las transformaciones de color; y parámetros de adquisición de imágenes, como la marca de cámara o la configuración de exposición:

Parámetros de procesamiento y adquisición de imágenes analizados, con número de clases para cada uno.

Parámetros de procesamiento y adquisición de imágenes analizados, con número de clases para cada uno.

Pruebas

Para determinar si la información sobre el procesamiento de imágenes y el tipo de cámara se conserva dentro de las representaciones de los codificadores visuales, los autores entrenaron un clasificador para predecir etiquetas de metadatos directamente desde esas representaciones. Si el clasificador no funcionaba mejor que el azar, sugeriría que los detalles sobre el procesamiento o el dispositivo no se capturan en el modelo.

Sin embargo, cualquier rendimiento por encima del azar indicaría que estas trazas técnicas se codifican de hecho y podrían influir en tareas posteriores.

Para probar las trazas de procesamiento, los autores asignaron a cada imagen de entrenamiento una configuración de procesamiento aleatoria, como un nivel de compresión JPEG determinado, mientras que todas las imágenes de prueba en un lote compartían la misma configuración.

La precisión de clasificación promedio en todos los ajustes se combinó con ensayos repetidos bajo diferentes semillas aleatorias, para que se pudiera determinar si los detalles técnicos del procesamiento de imágenes se capturan consistentemente en la representación interna del modelo:

Precisión de clasificación para predecir parámetros de procesamiento de imágenes desde las representaciones de los codificadores, utilizando un clasificador lineal aplicado a modelos congelados. Los resultados se muestran para la compresión JPEG, el afino, el redimensionamiento y la interpolación, con tres categorías de modelos, visión-idioma contrastiva (naranja), supervisada (verde) y auto-supervisada (azul), evaluadas en ImageNet (fila superior) y iNaturalist 2018 (fila inferior). Las líneas de referencia de adivinanza al azar se marcan con líneas discontinuas.

Precisión de clasificación para predecir parámetros de procesamiento de imágenes desde las representaciones de los codificadores, utilizando un clasificador lineal aplicado a modelos congelados. Los resultados se muestran para la compresión JPEG, el afino, el redimensionamiento y la interpolación, con tres categorías de modelos, visión-idioma contrastiva (naranja), supervisada (verde) y auto-supervisada (azul), evaluadas en ImageNet (fila superior) y iNaturalist 2018 (fila inferior). Las líneas de referencia de adivinanza al azar se marcan con líneas discontinuas.

En todos los cuatro parámetros de procesamiento, los modelos de visión-idioma contrastivos mostraron la mayor capacidad para reconocer manipulaciones de imágenes ocultas. Algunos de los modelos lograron más del 80% de precisión al predecir la configuración de compresión JPEG, afino y redimensionamiento desde las representaciones de ImageNet.

Los codificadores supervisados, particularmente aquellos basados en ConvNeXt, también funcionaron fuertemente, mientras que los modelos auto-supervisados fueron consistentemente más débiles.

La interpolación fue el parámetro más difícil de detectar, sin embargo, los mejores modelos CVL y supervisados aún lograron resultados bien por encima de la referencia de adivinanza al azar del 25% en ambos conjuntos de datos.

A continuación, para probar si la información de la cámara se incorpora en las representaciones del modelo, los autores crearon conjuntos de entrenamiento y prueba separados para cada parámetro de adquisición (como la marca de cámara, el modelo de cámara, la exposición, la apertura, el ISO y la distancia focal).

Para la mayoría de los parámetros, solo se utilizaron clases con al menos 5,000 ejemplos; 500 imágenes se seleccionaron aleatoriamente para la prueba, y los ejemplos restantes se redujeron para que cada clase tuviera 200 muestras de entrenamiento. Para los parámetros “modelo (todo)” y “modelo (inteligente)”, que tenían menos datos por clase, los autores utilizaron en su lugar clases con al menos 500 imágenes, y dividieron cada clase en subconjuntos de entrenamiento y prueba en una proporción de cuatro a uno.

Los fotógrafos se mantuvieron separados en los conjuntos de entrenamiento, validación y prueba, y se entrenó un clasificador simple para predecir la información de la cámara en función de las características de la imagen.

Para asegurarse de que el clasificador no se viera influenciado por el contenido semántico de las imágenes, el 90% de cada imagen se enmascaró en el centro (ver ejemplos a continuación). Los autores afirman que a este nivel de enmascaramiento, todos los codificadores visuales funcionan cerca del azar en ImageNet, lo que indica que la señal semántica se ha suprimido efectivamente:

Precisión de clasificación de ImageNet en función de la proporción de enmascaramiento. En un enmascaramiento del 90%, todos los modelos caen a un rendimiento cercano al azar en la predicción de etiquetas semánticas, lo que indica que las pistas semánticas se han eliminado efectivamente. Las imágenes de ejemplo en la parte inferior ilustran los niveles de enmascaramiento.

Precisión de clasificación de ImageNet en función de la proporción de enmascaramiento. En un enmascaramiento del 90%, todos los modelos caen a un rendimiento cercano al azar en la predicción de etiquetas semánticas, lo que indica que las pistas semánticas se han eliminado efectivamente. Las imágenes de ejemplo en la parte inferior ilustran los niveles de enmascaramiento.

Incluso con el 90% de cada imagen enmascarado, la mayoría de los modelos de visión-idioma contrastivos y los codificadores supervisados ConvNeXt aún predijeron etiquetas relacionadas con la cámara a niveles muy por encima del azar. Muchos modelos CVL superaron el 70% de precisión al distinguir entre imágenes de smartphone y no smartphone.

Otros codificadores supervisados, SigLIP, y todos los modelos auto-supervisados funcionaron mucho peor. Cuando no se aplicó enmascaramiento, los modelos CVL mostraron nuevamente la agrupación más fuerte por tipo de cámara, lo que confirma que estos modelos incorporan información de adquisición más profundamente que los demás:

Visualizaciones t-SNE para dos codificadores visuales, con colores que indican si cada imagen se capturó con un smartphone o una cámara no smartphone.

Visualizaciones t-SNE para dos codificadores visuales, con colores que indican si cada imagen se capturó con un smartphone o una cámara no smartphone.

Importancia posterior

Habiendo establecido que los metadatos influyen en los modelos de esta manera, la propensión de las trazas de procesamiento ocultas a interferir con la interpretación de las imágenes se evaluó posteriormente.

Cuando dos versiones de la misma imagen se procesaron de manera diferente, las representaciones a menudo se organizaron según el estilo de procesamiento en lugar del contenido. En varios casos, una foto comprimida fuertemente de un perro se trató como más similar a una imagen no relacionada con la misma configuración de compresión que a su propia versión sin comprimir:

Impacto de los parámetros de procesamiento en la predicción semántica, con precisión de clasificación semántica para ImageNet (arriba) e iNaturalist (abajo) bajo cinco configuraciones de procesamiento. En la línea de base, todas las imágenes de entrenamiento y prueba comparten la misma etiqueta de procesamiento; en la configuración de todos los diferentes, la imagen de prueba utiliza un valor de procesamiento que no está presente en el conjunto de entrenamiento; en las configuraciones pos-same y neg-same, la etiqueta de procesamiento se alinea con imágenes semánticamente similares o disímiles; en la configuración uniforme, las etiquetas de procesamiento se asignan aleatoriamente en todo el conjunto de entrenamiento. Los resultados se informan utilizando k = 10 para ImageNet y k = 1 para iNaturalist.

Impacto de los parámetros de procesamiento en la predicción semántica, con precisión de clasificación semántica para ImageNet (arriba) e iNaturalist (abajo) bajo cinco configuraciones de procesamiento. En la línea de base, todas las imágenes de entrenamiento y prueba comparten la misma etiqueta de procesamiento; en la configuración de todos los diferentes, la imagen de prueba utiliza un valor de procesamiento que no está presente en el conjunto de entrenamiento; en las configuraciones pos-same y neg-same, la etiqueta de procesamiento se alinea con imágenes semánticamente similares o disímiles; en la configuración uniforme, las etiquetas de procesamiento se asignan aleatoriamente en todo el conjunto de entrenamiento. Los resultados se informan utilizando k = 10 para ImageNet y k = 1 para iNaturalist.

Los distorsiones más fuertes fueron causadas por la compresión JPEG, seguida del afino y el redimensionamiento, mientras que la interpolación produjo solo un efecto menor. Los autores afirman que estos resultados demuestran que las trazas de procesamiento pueden anular la información semántica y dictar cómo se entiende una imagen.

En conclusión, advierten:

‘Aunque hemos identificado que las etiquetas de metadatos se codifican en los codificadores visuales fundamentales y hemos proporcionado pistas sobre las causas potenciales, no podemos identificar definitivamente la fuente del problema. Investigar esto más a fondo es desafiante debido al costo de volver a entrenar dichos modelos y el uso frecuente de conjuntos de datos privados y detalles de implementación no divulgados.

‘Aunque no proponemos técnicas de mitigación específicas, destacamos el problema como un área importante para la investigación futura.’

Conclusión

En la literatura hay un interés creciente en lo forense con respecto a las trazas y señales de “método sobre contenido”; cuanto más fácil sea identificar un dominio de enmarcado o un conjunto de datos específico, más fácil será aprovechar esta información en la forma de, por ejemplo, detectores de deepfakes, o sistemas diseñados para categorizar la procedencia o la antigüedad de los datos y los modelos.

Todo esto va en contra de la intención central de entrenar modelos de inteligencia artificial, que es que los conceptos centrales destilados deben curarse de forma independiente de los medios de producción, y no deben llevar ninguna traza de ellos. De hecho, los conjuntos de datos y los dispositivos de captura tienen características y rasgos de dominio que son efectivamente imposibles de separar del contenido, porque en sí mismos también representan una “perspectiva histórica”.

 

* El artículo se presenta de manera poco convencional, y adaptaremos lo mejor que podamos a su formato y presentación inusuales. Una gran cantidad de material que debería haber estado en una sección de “Método” (inexistente) se ha desplazado a diversas partes del apéndice, presumiblemente para restringir el artículo principal a ocho páginas, aunque a un costo considerable de claridad. Si hemos perdido alguna oportunidad de mejorar esto, debido a la falta de tiempo, nos disculpamos.

Publicado por primera vez el miércoles 20 de agosto de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.