Ángulo de Anderson

JPEG AI Difumina la Línea entre lo Real y lo Sintético

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

En febrero de este año, se publicó el estándar internacional JPEG AI, después de varios años de investigación destinados a utilizar técnicas de aprendizaje automático para producir un códec de imagen más pequeño y más fácil de transmitir y almacenar, sin pérdida en la calidad perceptual.

Desde la publicación oficial de JPEG AI, una comparación entre la Relación Señal-Ruido Pico (PSNR) y el enfoque aumentado con ML de JPEG AI. Fuente: https://jpeg.org/jpegai/documentation.html

Una posible razón por la que este avance hizo pocos titulares es que los PDF básicos para este anuncio no estaban disponibles a través de portales de acceso gratuito como Arxiv. Sin embargo, Arxiv ya había presentado varios estudios que examinaban la importancia de JPEG AI en varios aspectos, incluyendo los artefactos de compresión poco comunes del método y su importancia para la forensia.

Un estudio comparó los artefactos de compresión, incluidos los de un borrador anterior de JPEG AI, y encontró que el nuevo método tendía a desdibujar el texto, no un asunto menor en los casos en que el códec podría contribuir a una cadena de evidencia. Fuente: https://arxiv.org/pdf/2411.06810

Debido a que JPEG AI altera las imágenes de maneras que imitan los artefactos de los generadores de imágenes sintéticas, las herramientas forenses existentes tienen dificultades para diferenciar entre imágenes reales y falsas:

Después de la compresión JPEG AI, los algoritmos de vanguardia ya no pueden separar de manera confiable el contenido auténtico de las regiones manipuladas en los mapas de localización, según un artículo reciente (marzo de 2025). Los ejemplos de fuente que se ven en la izquierda son imágenes manipuladas/falsas, en las que las regiones manipuladas están claramente delineadas bajo técnicas forenses estándar (imagen del centro). Sin embargo, la compresión JPEG AI presta a las imágenes falsas una capa de credibilidad (imagen de la derecha). Fuente: https://arxiv.org/pdf/2412.03261

Una razón es que JPEG AI se entrena utilizando una arquitectura de modelo similar a la utilizada por los sistemas generativos que las herramientas forenses pretenden detectar:

El nuevo artículo ilustra la similitud entre las metodologías de la compresión de imágenes impulsada por IA y las imágenes generadas por IA reales. Fuente: https://arxiv.org/pdf/2504.03191

Por lo tanto, ambos modelos pueden producir algunas características visuales subyacentes similares, desde un punto de vista forense.

Quantización

Esta superposición ocurre debido a la quantización, común a ambas arquitecturas, y que se utiliza en el aprendizaje automático tanto como un método de conversión de datos continuos en puntos de datos discretos, como una técnica de optimización que puede reducir significativamente el tamaño del archivo de un modelo entrenado (los entusiastas casuales de la síntesis de imágenes estarán familiarizados con la espera entre una versión oficial poco manejable y una versión comunitaria cuantizada que puede ejecutarse en hardware local).

En este contexto, la quantización se refiere al proceso de convertir los valores continuos en la representación latente de la imagen en pasos fijos y discretos. JPEG AI utiliza este proceso para reducir la cantidad de datos necesarios para almacenar o transmitir una imagen, simplificando la representación numérica interna.

Aunque la quantización hace que la codificación sea más eficiente, también impone regularidades estructurales que pueden parecerse a los artefactos dejados por los modelos generativos, lo suficientemente sutiles como para evadir la percepción, pero disruptivos para las herramientas forenses.

En respuesta, los autores de un nuevo trabajo titulado Tres pistas forenses para imágenes JPEG AI proponen técnicas interpretables y no neuronales que detecten la compresión JPEG AI, determinen si una imagen ha sido recomprimida y distingan entre imágenes reales comprimidas y aquellas generadas enteramente por IA.

Método

Correlaciones de color

El artículo propone tres ‘pistas forenses’ adaptadas a imágenes JPEG AI: correlaciones de canal de color, introducidas durante los pasos de preprocesamiento de JPEG AI, distorsiones medibles en la calidad de la imagen a través de compresiones repetidas que revelan eventos de recompresión, y patrones de cuantización en el espacio latente que ayudan a distinguir entre imágenes comprimidas por JPEG AI y aquellas generadas por modelos de IA.

En cuanto al enfoque basado en correlaciones de color, la tubería de preprocesamiento de JPEG AI introduce dependencias estadísticas entre los canales de color de la imagen, creando una firma que puede servir como una pista forense.

JPEG AI convierte imágenes RGB al espacio de color YUV y realiza una subsampling de crominancia 4:2:0, que implica downsampling los canales de crominancia antes de la compresión. Este proceso conduce a correlaciones sutiles entre los residuos de alta frecuencia de los canales rojo, verde y azul, correlaciones que no están presentes en imágenes sin comprimir y que difieren en fuerza de las producidas por la compresión JPEG tradicional o los generadores de imágenes sintéticas.

Una comparación de cómo la compresión JPEG AI altera las correlaciones de color en las imágenes..

Arriba podemos ver una comparación del artículo que ilustra cómo la compresión JPEG AI altera las correlaciones de color en las imágenes, utilizando el canal rojo como ejemplo.

El panel A compara imágenes sin comprimir con imágenes comprimidas con JPEG AI, mostrando que la compresión aumenta significativamente la correlación entre canales; el panel B aísla el efecto del preprocesamiento de JPEG AI, solo la conversión de color y la subsampling, demostrando que incluso este paso solo aumenta las correlaciones de manera notable; el panel C muestra que la compresión JPEG tradicional también aumenta las correlaciones ligeramente, pero no en el mismo grado; y el panel D examina imágenes sintéticas, con Midjourney-V5 y Adobe Firefly mostrando aumentos moderados de correlación, mientras que otros permanecen más cerca de los niveles sin comprimir.

Tasa-Distorsión

La pista de tasa-distorsión identifica la recompresión JPEG AI al rastrear cómo la calidad de la imagen, medida por la Relación Señal-Ruido Pico (PSNR), disminuye en un patrón predecible a través de múltiples pasos de compresión.

La investigación sostiene que la compresión repetida de una imagen con JPEG AI conduce a pérdidas progresivas, pero aún medibles, en la calidad de la imagen, como se cuantifica por PSNR, y que esta degradación gradual forma la base de una pista forense para detectar si una imagen ha sido recomprimida.

A diferencia de la compresión JPEG tradicional, donde los métodos anteriores rastreaban cambios en bloques de imagen específicos, JPEG AI requiere un enfoque diferente, debido a su arquitectura de compresión neuronal; por lo tanto, los autores proponen monitorear cómo evoluciona tanto la tasa de bits como la PSNR a lo largo de compresiones sucesivas. Cada ronda de compresión altera la imagen menos que la anterior, y este cambio disminuyendo (cuando se traza contra la tasa de bits) puede revelar si una imagen ha pasado por múltiples etapas de compresión:

Una ilustración de cómo la compresión repetida afecta la calidad de la imagen a través de diferentes códecs muestra que JPEG AI y un códec neuronal desarrollado en https://arxiv.org/pdf/1802.01436 ambos exhiben una disminución constante en PSNR con cada compresión adicional, incluso a tasas de bits más bajas. En contraste, la compresión JPEG tradicional mantiene una calidad relativamente estable a lo largo de múltiples compresiones, a menos que la tasa de bits sea alta. Este patrón sirve como un ejemplo de cómo la recompresión deja una huella medible en los códecs basados en IA, ofreciendo una señal de advertencia potencial.

Una ilustración de cómo la compresión repetida afecta la calidad de la imagen a lo largo de diferentes códecs, con resultados de JPEG AI y un códec neuronal desarrollado en https://arxiv.org/pdf/1802.01436; ambos exhiben una disminución constante en PSNR con cada compresión adicional, incluso a tasas de bits más bajas. En contraste, la compresión JPEG tradicional mantiene una calidad relativamente estable a lo largo de múltiples compresiones, a menos que la tasa de bits sea alta.

En la imagen de arriba, vemos curvas de tasa-distorsión trazadas para JPEG AI; un segundo códec basado en IA; y la compresión JPEG tradicional, encontrando que JPEG AI y el códec neuronal muestran una disminución constante en PSNR a lo largo de todas las tasas de bits, mientras que la compresión JPEG tradicional solo muestra una degradación notable a tasas de bits mucho más altas. Este comportamiento proporciona una señal de advertencia cuantificable que se puede utilizar para marcar imágenes JPEG AI recomprimidas.

Al extraer cómo evoluciona la tasa de bits y la calidad de la imagen a lo largo de múltiples rondas de compresión, los autores construyeron de manera similar una firma que ayuda a marcar si una imagen ha sido recomprimida, lo que ofrece una pista forense potencial en el contexto de JPEG AI.

Cuantización

Como vimos anteriormente, uno de los problemas forenses más desafiantes planteado por JPEG AI es su similitud visual con las imágenes sintéticas generadas por modelos de difusión. Ambos sistemas utilizan arquitecturas codificador-decodificador que procesan imágenes en un espacio latente comprimido y a menudo dejan atrás artefactos sutiles de upsampling.

Estas características compartidas pueden confundir a los detectores, incluso aquellos reentrenados en imágenes JPEG AI. Sin embargo, una diferencia estructural clave permanece: JPEG AI aplica cuantización, un paso que redondea los valores latentes a niveles discretos para una compresión eficiente, mientras que los modelos generativos generalmente no lo hacen.

El nuevo artículo utiliza esta distinción para diseñar una pista forense que prueba indirectamente la presencia de cuantización. El método analiza cómo la representación latente de una imagen responde al redondeo, asumiendo que si una imagen ya ha sido cuantizada, su estructura latente exhibirá un patrón medible de alineación con valores redondeados.

Estos patrones, aunque invisibles para el ojo, producen diferencias estadísticas que pueden ayudar a separar imágenes reales comprimidas de aquellas generadas completamente por IA.

Un ejemplo de espectros de Fourier promedio revela que tanto las imágenes comprimidas con JPEG AI como aquellas generadas por modelos de difusión como Midjourney-V5 y Stable Diffusion XL exhiben patrones de rejilla regulares en el dominio de frecuencia, artefactos comúnmente vinculados a upsampling. En contraste, las imágenes reales carecen de estos patrones. Esta superposición en la estructura espectral ayuda a explicar por qué las herramientas forenses a menudo confunden imágenes reales comprimidas con imágenes sintéticas.

Es importante destacar que los autores muestran que esta pista funciona a través de diferentes modelos generativos y permanece efectiva incluso cuando la compresión es lo suficientemente fuerte como para anular secciones enteras del espacio latente. En contraste, las imágenes sintéticas muestran respuestas mucho más débiles a esta prueba de redondeo, ofreciendo una forma práctica de distinguir entre las dos.

El resultado se pretende como una herramienta ligera e interpretable que apunta a la diferencia central entre la compresión y la generación, en lugar de confiar en artefactos superficiales frágiles.

Datos y pruebas

Compresión

Para evaluar si su pista de correlación de color podría detectar de manera confiable la compresión JPEG AI (es decir, un primer pase desde la fuente sin comprimir), los autores probaron en imágenes de alta calidad sin comprimir del conjunto de datos RAISE, comprimiéndolas a varias tasas de bits, utilizando la implementación de referencia de JPEG AI.

Entrenaron un bosque aleatorio en los patrones estadísticos de correlaciones de canal de color (particularmente cómo el ruido residual en cada canal se alineaba con los demás) y lo compararon con una Red Neuronal ResNet50 entrenada directamente en los píxeles de la imagen.

Precisión de detección de la compresión JPEG AI utilizando características de correlación de color, comparada a través de múltiples tasas de bits. El método es más efectivo a tasas de bits más bajas, donde los artefactos de compresión son más fuertes, y muestra una mejor generalización a niveles de compresión no vistos que el modelo ResNet50 de referencia.

Mientras que el ResNet50 logró una mayor precisión cuando los datos de prueba se ajustaban estrechamente a las condiciones de entrenamiento, luchó por generalizar a través de diferentes niveles de compresión. El enfoque basado en correlaciones, aunque mucho más simple, demostró ser más consistente a lo largo de las tasas de bits, especialmente a tasas de compresión más bajas donde el preprocesamiento de JPEG AI tiene un efecto más fuerte.

Estos resultados sugieren que, incluso sin aprendizaje profundo, es posible detectar la compresión JPEG AI utilizando pistas estadísticas que permanecen interpretables y resistentes.

Recompresión

Para evaluar si la recompresión JPEG AI puede detectarse de manera confiable, los investigadores probaron la pista de tasa-distorsión en un conjunto de imágenes comprimidas a diversas tasas de bits, algunas solo una vez y otras una segunda vez utilizando JPEG AI.

Este método involucró extraer un vector de características de 17 dimensiones para rastrear cómo evolucionaba la tasa de bits y la PSNR de la imagen a lo largo de tres pasos de compresión. Este conjunto de características capturó cuánta calidad se perdió en cada paso y cómo se comportaban las tasas latentes y hiperprior, métricas que los métodos basados en píxeles no pueden acceder fácilmente.

Los investigadores entrenaron un bosque aleatorio en estas características y compararon su rendimiento con un ResNet50 entrenado en parches de imagen:

Resultados de la precisión de clasificación de un bosque aleatorio entrenado en características de tasa-distorsión para detectar si una imagen JPEG AI ha sido recomprimida. El método funciona mejor cuando la compresión inicial es fuerte (es decir, a tasas de bits más bajas), y luego supera consistentemente a un ResNet50 basado en píxeles, especialmente en casos donde la segunda compresión es más suave que la primera.

El bosque aleatorio demostró ser notablemente efectivo cuando la compresión inicial era fuerte (es decir, a tasas de bits más bajas), revelando diferencias claras entre imágenes comprimidas una y dos veces. Al igual que con la pista anterior, la iteración ResNet50 luchó por generalizar, particularmente cuando se probó en niveles de compresión que no había visto durante el entrenamiento.

Las características de tasa-distorsión, por otro lado, permanecieron estables a lo largo de una amplia gama de escenarios. Notablemente, la pista funcionó incluso cuando se aplicó a un códec basado en IA diferente, sugiriendo que el enfoque se generaliza más allá de JPEG AI.

JPEG AI y imágenes sintéticas

Para la última ronda de pruebas, los autores probaron si sus características de cuantificación pueden distinguir entre imágenes comprimidas con JPEG AI y imágenes completamente sintéticas generadas por modelos como Midjourney, Stable Diffusion, DALL-E 2, Glide y Adobe Firefly.

Para esto, los investigadores utilizaron un subconjunto del conjunto de datos Synthbuster, mezclando fotografías reales del conjunto de datos RAISE con imágenes generadas por una variedad de modelos basados en difusión y GAN.

Ejemplos de imágenes sintéticas en Synthbuster, generadas utilizando prompts de texto inspirados en fotografías naturales del conjunto de datos RAISE-1k. Las imágenes fueron creadas con varios modelos de difusión, con prompts diseñados para producir contenido y texturas fotorealistas en lugar de renderizados estilizados o artísticos, reflejando el enfoque del conjunto de datos en probar métodos para distinguir entre imágenes reales y generadas. Fuente: https://ieeexplore.ieee.org/document/10334046

Las imágenes reales se comprimieron utilizando JPEG AI a varios niveles de tasa de bits, y la clasificación se planteó como una tarea de dos vías: o JPEG AI versus un generador específico, o un bitrate específico versus Stable Diffusion XL.

Las características de cuantificación (correlaciones extraídas de representaciones latentes) se calcularon a partir de una región fija de 256×256 y se alimentaron a un clasificador de bosque aleatorio. Como referencia, se entrenó un ResNet50 en parches de píxeles de los mismos datos.

Precisión de clasificación de un bosque aleatorio utilizando características de cuantificación para separar imágenes comprimidas con JPEG AI de imágenes sintéticas.

A lo largo de la mayoría de las condiciones, el enfoque basado en cuantificación superó al ResNet50 de referencia, particularmente a tasas de bits más bajas donde los artefactos de compresión eran más fuertes.

Los autores declaran:

‘El ResNet50 de referencia funciona mejor para imágenes Glide con una precisión del 66.1%, pero de lo contrario generaliza peor que las características de cuantificación. Las características de cuantificación exhiben una buena generalización a través de fuerzas de compresión y tipos de generadores.

‘La importancia de los coeficientes que se cuantizan a cero se muestra en el rendimiento muy respetable de las características truncadas, que en muchos casos funcionan de manera comparable al clasificador ResNet50.

‘Sin embargo, las características de cuantificación que utilizan el vector entero, no truncado, todavía funcionan de manera notablemente mejor. Estos resultados confirman que la cantidad de ceros después de la cuantización es una pista importante para diferenciar entre imágenes comprimidas por IA y generadas por IA.

‘Sin embargo, también muestra que otros factores contribuyen. La precisión del vector completo para detectar JPEG AI es para todas las tasas de bits superior al 91.0%, y la compresión más fuerte conduce a precisiones más altas.’

Una proyección del espacio de características utilizando UMAP mostró una separación clara entre imágenes JPEG AI y sintéticas, con tasas de bits más bajas aumentando la distancia entre clases. Un outlier consistente fue Glide, cuyas imágenes se agruparon de manera diferente y tuvieron la precisión de detección más baja de cualquier generador probado.

Visualización bidimensional UMAP de imágenes comprimidas con JPEG AI y sintéticas basadas en características de cuantificación. El gráfico izquierdo muestra que tasas de bits más bajas de JPEG AI crean una mayor separación de las imágenes sintéticas; el gráfico derecho muestra cómo las imágenes de diferentes generadores se agrupan de manera distinta dentro del espacio de características.

Visualización bidimensional UMAP de imágenes comprimidas con JPEG AI y sintéticas, basada en características de cuantificación. El gráfico izquierdo muestra que tasas de bits más bajas de JPEG AI crean una mayor separación de las imágenes sintéticas; el gráfico derecho muestra cómo las imágenes de diferentes generadores se agrupan de manera distinta dentro del espacio de características.

Finalmente, los autores evaluaron cómo se mantuvieron las características bajo procesamiento posterior típico, como la recompresión JPEG o el cambio de tamaño de la imagen. Aunque el rendimiento disminuyó con un procesamiento más pesado, la caída fue gradual, sugiriendo que el enfoque retiene algo de robustez incluso en condiciones degradadas.

Evaluación de la robustez de las características de cuantificación bajo procesamiento posterior, incluyendo la recompresión JPEG (JPG) y el cambio de tamaño de la imagen (RS).

Conclusión

No está garantizado que JPEG AI disfrute de una adopción generalizada. Por un lado, hay suficiente deuda infraestructural como para imponer fricción en cualquier nuevo códec; y incluso un códec ‘convencional’ con un buen pedigree y un consenso amplio sobre su valor, como AV1, tiene dificultades para desplazar métodos establecidos.

En cuanto al potencial conflicto del sistema con los generadores de IA, los artefactos de cuantización característicos que ayudan a los actuales detectores de imágenes de IA pueden disminuirse o eventualmente reemplazarse por trazas de un tipo diferente en sistemas posteriores (suponiendo que los generadores de IA siempre dejarán un rastro forense, lo cual no es seguro).

Esto significaría que las características de cuantización de JPEG AI, quizás junto con otras pistas identificadas por el nuevo artículo, pueden no terminar chocando con el rastro forense de los sistemas generativos de IA más efectivos.

Sin embargo, si JPEG AI continúa operando como un ‘lavado de IA’ de facto, difuminando significativamente la distinción entre imágenes reales y generadas, sería difícil hacer un caso convincente para su adopción.

Publicado por primera vez el martes, 8 de abril de 2025