Angolo di Anderson

JPEG AI Offusca la Linea tra Reale e Sintetico

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

Nel febbraio di quest’anno, lo standard internazionale JPEG AI è stato pubblicato, dopo diversi anni di ricerca volti a utilizzare tecniche di apprendimento automatico per produrre un codec di immagine più piccolo e più facile da trasmettere e archiviare, senza perdita di qualità percettiva.

Dalla pubblicazione ufficiale di JPEG AI, un confronto tra Peak Signal-to-Noise Ratio (PSNR) e l’approccio ML-augmented di JPEG AI. Fonte: https://jpeg.org/jpegai/documentation.html

Una possibile ragione per cui questo avvenimento ha fatto poche notizie è che i core PDF per questo annuncio non erano disponibili attraverso portali di accesso gratuito come Arxiv. Tuttavia, Arxiv aveva già pubblicato diversi studi che esaminavano l’importanza di JPEG AI in diversi aspetti, tra cui i suoi insoliti artefatti di compressione e la sua importanza per la medicina legale.

Uno studio ha confrontato gli artefatti di compressione, tra cui quelli di una bozza precedente di JPEG AI, scoprendo che il nuovo metodo tendeva a sfocare il testo – non una questione di poco conto nei casi in cui il codec potrebbe contribuire a una catena di prove. Fonte: https://arxiv.org/pdf/2411.06810

Poiché JPEG AI altera le immagini in modi che imitano gli artefatti dei generatori di immagini sintetiche, gli strumenti di medicina legale esistenti hanno difficoltà a distinguere le immagini reali da quelle false:

Dopo la compressione JPEG AI, gli algoritmi all’avanguardia non possono più separare in modo affidabile il contenuto autentico dalle aree manipulate nelle mappe di localizzazione, secondo un recente articolo (marzo 2025). Gli esempi di origine visti a sinistra sono immagini manipulate/falsificate, in cui le aree manomesse sono chiaramente delineate con tecniche di medicina legale standard (immagine al centro). Tuttavia, la compressione JPEG AI conferisce alle immagini false un livello di credibilità (immagine a destra). Fonte: https://arxiv.org/pdf/2412.03261

Una ragione è che JPEG AI è addestrato utilizzando un’architettura di modello simile a quelle utilizzate dai sistemi generativi che gli strumenti di medicina legale mirano a rilevare:

Il nuovo articolo illustra la somiglianza tra le metodologie della compressione di immagini guidata da AI e le immagini generate da AI effettive. Fonte: https://arxiv.org/pdf/2504.03191

Pertanto, entrambi i modelli possono produrre alcune caratteristiche visive sottostanti simili, dal punto di vista della medicina legale.

Quantizzazione

Questa sovrapposizione si verifica a causa della quantizzazione, comune a entrambe le architetture, e che viene utilizzata nell’apprendimento automatico sia come metodo di conversione dei dati continui in punti di dati discreti, sia come tecnica di ottimizzazione che può ridurre notevolmente le dimensioni del file di un modello addestrato (gli appassionati di sintesi di immagini saranno familiari con l’attesa tra una versione ufficiale ingombrante e una versione quantizzata della community che può essere eseguita su hardware locale).

In questo contesto, la quantizzazione si riferisce al processo di conversione dei valori continui nella rappresentazione latente dell’immagine in passi fissi e discreti. JPEG AI utilizza questo processo per ridurre la quantità di dati necessari per archiviare o trasmettere un’immagine semplificando la rappresentazione numerica interna.

Sebbene la quantizzazione renda la codifica più efficiente, impone anche regolarità strutturali che possono assomigliare agli artefatti lasciati dai modelli generativi – abbastanza sottili da evitare la percezione, ma disruptivi per gli strumenti di medicina legale.

In risposta, gli autori di un nuovo lavoro intitolato Three Forensic Cues for JPEG AI Images propongono tecniche interpretabili e non neurali che rilevano la compressione JPEG AI; determinano se un’immagine è stata ricompattata; e distinguono immagini reali compresse da quelle generate interamente da AI.

Metodo

Correlazioni di colore

L’articolo propone tre ‘indizi forensi’ personalizzati per le immagini JPEG AI: correlazioni dei canali di colore, introdotte durante i passaggi di pre-elaborazione di JPEG AI; distorsioni misurabili nella qualità dell’immagine attraverso compressioni ripetute che rivelano eventi di ricompattazione; e modelli di quantizzazione nello spazio latente che aiutano a distinguere tra immagini compresse da JPEG AI e quelle generate da modelli di AI.

Riguardo all’approccio basato sulla correlazione del colore, la pipeline di pre-elaborazione di JPEG AI introduce dipendenze statistiche tra i canali di colore dell’immagine, creando una firma che può servire come indizio forense.

JPEG AI converte le immagini RGB nello spazio di colore YUV e esegue il campionamento crominanza 4:2:0, che comporta il downsampling dei canali di crominanza prima della compressione. Questo processo porta a correlazioni sottili tra i residui ad alta frequenza dei canali rosso, verde e blu – correlazioni che non sono presenti nelle immagini non compresse e che differiscono in forza da quelle prodotte dalla compressione JPEG tradizionale o dai generatori di immagini sintetiche.

<img class="size-full wp-image-215539" src="https://www.unite.ai/wp-content/uploads/2025/04/color-correlations.jpg" alt="Un confronto di come la compressione JPEG AI altera le correlazioni di colore nelle immagini, utilizzando il canale rosso come esempio. Il pannello (a) confronta le immagini non compresse con quelle compresse da JPEG AI, mostrando che la compressione aumenta notevolmente la correlazione tra i canali. Il pannello (b) isola l'effetto della pre-elaborazione di JPEG AI – solo la conversione del colore e il campionamento – dimostrando che anche questo passaggio aumenta le correlazioni in modo significativo. Il pannello (c) mostra che la compressione JPEG tradizionale aumenta anche le correlazioni, ma non nella stessa misura. Il pannello (d) esamina le immagini sintetiche, con Midjourney-V5 e Adobe Firefly che mostrano aumenti di correlazione moderati, mentre altri rimangono più vicini ai livelli non compressi.” width=”1200″ height=”337″ /> Un confronto di come la compressione JPEG AI altera le correlazioni di colore nelle immagini..

Sopra possiamo vedere un confronto tratto dall’articolo che illustra come la compressione JPEG AI altera le correlazioni di colore nelle immagini, utilizzando il canale rosso come esempio.

Il pannello A confronta le immagini non compresse con quelle compresse da JPEG AI, mostrando che la compressione aumenta notevolmente la correlazione tra i canali; il pannello B isola l’effetto della pre-elaborazione di JPEG AI – solo la conversione del colore e il campionamento – dimostrando che anche questo passaggio aumenta le correlazioni in modo significativo; il pannello C mostra che la compressione JPEG tradizionale aumenta anche le correlazioni, ma non nella stessa misura; e il pannello D esamina le immagini sintetiche, con Midjourney-V5 e Adobe Firefly che mostrano aumenti di correlazione moderati, mentre altri rimangono più vicini ai livelli non compressi.

Rate-Distorsione

L’indizio di rate-distorsione identifica la ricompattazione JPEG AI tracciando come la qualità dell’immagine, misurata dal Rapporto di segnale a rumore di picco (PSNR), diminuisce in un modello prevedibile attraverso più passaggi di compressione.

La ricerca sostiene che la ricompattazione ripetuta di un’immagine con JPEG AI porta a perdite progressive, ma ancora misurabili, nella qualità dell’immagine, come quantificata dal PSNR, e che questo degrado graduale costituisce la base di un indizio forense per rilevare se un’immagine è stata ricompattata.

A differenza della compressione JPEG tradizionale, dove i metodi precedenti tracciavano i cambiamenti nei blocchi di immagine specifici, JPEG AI richiede un approccio diverso, a causa della sua architettura di compressione neurale; pertanto, gli autori propongono di monitorare come il bitrate e il PSNR evolvono attraverso compressioni successive. Ogni round di compressione altera l’immagine meno del precedente, e questo cambiamento diminuito (quando tracciato contro il bitrate) può rivelare se un’immagine è stata sottoposta a più fasi di compressione:

Un'illustrazione di come la ricompattazione ripetuta influisce sulla qualità dell'immagine attraverso diversi codec mostra che JPEG AI e un codec neurale sviluppato su https://arxiv.org/pdf/1802.01436 entrambi esibiscono un declino costante del PSNR con ogni ulteriore compressione – anche a bitrate più bassi. Al contrario, la compressione JPEG tradizionale mantiene una qualità relativamente stabile attraverso più compressioni, a meno che il bitrate non sia alto. Questo modello serve come esempio di come la ricompattazione lasci una traccia misurabile nei codec basati su AI.

Un’illustrazione di come la ricompattazione ripetuta influisce sulla qualità dell’immagine attraverso diversi codec, con risultati da JPEG AI e un codec neurale sviluppato su https://arxiv.org/pdf/1802.01436; entrambi esibiscono un declino costante del PSNR con ogni ulteriore compressione, anche a bitrate più bassi. Al contrario, la compressione JPEG tradizionale mantiene una qualità relativamente stabile attraverso più compressioni, a meno che il bitrate non sia alto.

Nell’immagine sopra, vediamo tracciati le curve di rate-distorsione per JPEG AI; un secondo codec basato su AI; e la compressione JPEG tradizionale, trovando che JPEG AI e il codec neurale mostrano un declino costante del PSNR attraverso tutti i bitrate, mentre la compressione JPEG tradizionale mostra un degrado significativo solo a bitrate più alti. Questo comportamento fornisce un segnale quantificabile che può essere utilizzato per segnalare immagini JPEG AI ricompattate.

Tracciando come il bitrate e la qualità dell’immagine evolvono attraverso più round di compressione, gli autori hanno costruito una firma che aiuta a segnalare se un’immagine è stata ricompattata, offrendo un potenziale indizio forense pratico nel contesto di JPEG AI.

Quantizzazione

Come abbiamo visto in precedenza, uno dei problemi forensi più impegnativi sollevati da JPEG AI è la sua somiglianza visiva con le immagini sintetiche generate da modelli di diffusione. Entrambi i sistemi utilizzano architetture encoder-decoder che elaborano le immagini in uno spazio latente compresso e spesso lasciano dietro di sé sottili artefatti di upsampling.

Queste caratteristiche condivise possono confondere i rilevatori – anche quelli riaddestrati su immagini JPEG AI. Tuttavia, una chiave differenza strutturale rimane: JPEG AI applica la quantizzazione, un passaggio che arrotonda i valori latenti a livelli discreti per la compressione efficiente, mentre i modelli generativi di solito non lo fanno.

Il nuovo articolo utilizza questa distinzione per progettare un indizio forense che testa indirettamente la presenza di quantizzazione. Il metodo analizza come la rappresentazione latente di un’immagine risponde all’arrotondamento, sull’ipotesi che se un’immagine è già stata quantizzata, la sua struttura latente esibirà un modello di allineamento con valori arrotondati misurabile.

Questi modelli, sebbene invisibili all’occhio, producono differenze statistiche che possono aiutare a separare le immagini reali compresse da quelle generate interamente da AI.

Un esempio di spettri di Fourier medi rivela che sia le immagini compresse da JPEG AI che quelle generate da modelli di diffusione come Midjourney-V5 e Stable Diffusion XL esibiscono modelli a griglia regolari nel dominio della frequenza – artefatti comunemente collegati all’upsampling. Al contrario, le immagini reali mancano di questi modelli. Questa sovrapposizione nella struttura spettrale aiuta a spiegare perché gli strumenti di medicina legale spesso confondono le immagini compresse reali con quelle sintetiche.

Importante è che gli autori mostrano che questo indizio funziona attraverso diversi modelli generativi e rimane efficace anche quando la compressione è sufficientemente forte da azzerare intere sezioni dello spazio latente. Al contrario, le immagini sintetiche mostrano risposte molto più deboli a questo test di arrotondamento, offrendo un modo pratico per distinguere tra i due.

Il risultato è inteso come uno strumento leggero e interpretabile che mira alla differenza fondamentale tra la compressione e la generazione, piuttosto che affidarsi a fragili artefatti di superficie.

Dati e Test

Compressione

Per valutare se il loro indizio di correlazione del colore potesse rilevare in modo affidabile la compressione JPEG AI (cioè un primo passaggio da una sorgente non compressa), gli autori hanno testato su immagini di alta qualità non compresse dal set di dati RAISE, comprimendole a diversi bitrate utilizzando l’implementazione di riferimento di JPEG AI.

Hanno addestrato un semplice random forest sui modelli statistici delle correlazioni dei canali di colore (in particolare come il rumore residuo in ogni canale si allineava con gli altri) e lo hanno confrontato con un ResNet50 addestrato direttamente sui pixel dell’immagine.

Precisione di rilevamento della compressione JPEG AI utilizzando caratteristiche di correlazione del colore, confrontata attraverso diversi bitrate. Il metodo è più efficace a bitrate più bassi, dove gli artefatti di compressione sono più forti, e mostra una migliore generalizzazione a livelli di compressione non visti rispetto al modello ResNet50 di base.

Mentre il ResNet50 ha raggiunto una maggiore accuratezza quando i dati di test si allineavano strettamente con le condizioni di addestramento, ha faticato a generalizzare attraverso diversi livelli di compressione. L’approccio basato sulla correlazione, sebbene molto più semplice, si è rivelato più coerente attraverso i bitrate, specialmente a tassi di compressione più bassi dove la pre-elaborazione di JPEG AI ha un effetto più forte.

Questi risultati suggeriscono che anche senza l’apprendimento automatico profondo, è possibile rilevare la compressione JPEG AI utilizzando indizi statistici che rimangono interpretabili e resilienti.

Ricompattazione

Per valutare se la ricompattazione JPEG AI può essere rilevata in modo affidabile, i ricercatori hanno testato l’indizio di rate-distorsione su un set di immagini compresse a diversi bitrate – alcune solo una volta e altre una seconda volta utilizzando JPEG AI.

Questo metodo ha comportato l’estrazione di un vettore di caratteristiche a 17 dimensioni per tracciare come il bitrate e il PSNR dell’immagine evolvevano attraverso tre passaggi di compressione. Questo set di caratteristiche ha catturato quanta qualità veniva persa a ogni passaggio e come i tassi latenti e iperpriori si comportavano—metriche che i metodi basati sui pixel non possono facilmente accedere.

I ricercatori hanno addestrato un random forest su queste caratteristiche e hanno confrontato le sue prestazioni con un ResNet50 addestrato su patch di immagine:

Risultati per l’accuratezza di classificazione di un random forest addestrato su caratteristiche di rate-distorsione per rilevare se un’immagine JPEG AI è stata ricompattata. Il metodo funziona meglio quando la compressione iniziale è forte (cioè a bitrate più bassi), e poi supera costantemente un ResNet50 basato sui pixel – specialmente nei casi in cui la seconda compressione è più leggera della prima.

Il random forest si è rivelato notevolmente efficace quando la compressione iniziale era forte (cioè a bitrate più bassi), rivelando chiare differenze tra immagini compresse una sola volta e quelle compresse due volte. Come per l’indizio precedente, il ResNet50 ha faticato a generalizzare, particolarmente quando testato su livelli di compressione che non aveva visto durante l’addestramento.

L’indizio di rate-distorsione, al contrario, è rimasto stabile attraverso una vasta gamma di scenari. Notabilmente, l’indizio ha funzionato anche quando applicato a un differente codec basato su AI, suggerendo che l’approccio si generalizza oltre JPEG AI.

JPEG AI e immagini sintetiche

Per l’ultimo round di testing, gli autori hanno testato se le loro caratteristiche di quantizzazione possono distinguere tra immagini compresse da JPEG AI e immagini completamente sintetiche generate da modelli come Midjourney, Stable Diffusion, DALL-E 2, Glide, e Adobe Firefly.

Per questo, i ricercatori hanno utilizzato un subset del set di dati Synthbuster, mescolando foto reali dal database RAISE con immagini generate da una varietà di modelli di diffusione e basati su GAN.

Esempi di immagini sintetiche in Synthbuster, generate utilizzando prompt di testo ispirati a fotografie naturali dal set di dati RAISE-1k. Le immagini sono state create con diversi modelli di diffusione, con prompt progettati per produrre contenuti e texture fotorealistici piuttosto che rendering stilizzati o artistici, riflettendo il focus del set di dati sulla valutazione di metodi per distinguere immagini reali da quelle generate. Fonte: https://ieeexplore.ieee.org/document/10334046

Le immagini reali sono state compresse utilizzando JPEG AI a diversi livelli di bitrate, e la classificazione è stata posta come un compito a due vie: o JPEG AI contro un generatore specifico, o un bitrate specifico contro Stable Diffusion XL.

Le caratteristiche di quantizzazione (correlazioni estratte dalle rappresentazioni latenti) sono state calcolate da una regione fissa di 256×256 pixel e fornite a un classificatore random forest. Come baseline, un ResNet50 è stato addestrato su patch di pixel dai dati.

Accuratezza di classificazione di un random forest che utilizza caratteristiche di quantizzazione per separare immagini compresse da JPEG AI da immagini sintetiche.

Attraverso la maggior parte delle condizioni, l’approccio basato sulla quantizzazione ha superato la baseline ResNet50, particolarmente a bitrate più bassi dove gli artefatti di compressione erano più forti.

Gli autori affermano:

‘La baseline ResNet50 funziona meglio per le immagini Glide con un’accuratezza del 66,1%, ma altrimenti generalizza peggio delle caratteristiche di quantizzazione. Le caratteristiche di quantizzazione esibiscono una buona generalizzazione attraverso forze di compressione e tipi di generatori.

‘L’importanza dei coefficienti che sono quantizzati a zero è mostrata nella rispettabile prestazione delle caratteristiche troncate, che in molti casi eseguono in modo comparabile al classificatore ResNet50.

‘Tuttavia, le caratteristiche di quantizzazione che utilizzano il vettore intero non troncato eseguono ancora in modo notevole meglio. Questi risultati confermano che la quantità di zeri dopo la quantizzazione è un indizio importante per distinguere immagini compresse da AI e immagini generate da AI.

‘Tuttavia, mostra anche che altri fattori contribuiscono. L’accuratezza del vettore completo per la rilevazione di JPEG AI è per tutti i bitrate oltre il 91,0%, e una compressione più forte porta a maggiori accuratezze.’

Una proiezione dello spazio delle caratteristiche utilizzando UMAP ha mostrato una chiara separazione tra immagini JPEG AI e immagini sintetiche, con bitrate più bassi che aumentano la distanza tra le classi. Un outlier costante è stato Glide, le cui immagini si sono raggruppate in modo diverso e hanno avuto la più bassa accuratezza di rilevamento di qualsiasi generatore testato.

Visualizzazione bidimensionale di immagini JPEG AI compresse e sintetiche, basata su caratteristiche di quantizzazione. Il grafico a sinistra mostra che bitrate JPEG AI più bassi creano una maggiore separazione dalle immagini sintetiche; il grafico a destra mostra come le immagini da generatori diversi si raggruppano distintamente all’interno dello spazio delle caratteristiche.

Infine, gli autori hanno valutato come le caratteristiche hanno retto sotto tipica post-elaborazione, come la ricompattazione JPEG o il downsampling. Sebbene le prestazioni siano diminuite con un’elaborazione più pesante, il declino è stato graduale, suggerendo che l’approccio mantiene una certa robustezza anche in condizioni degradate.

Valutazione della robustezza delle caratteristiche di quantizzazione sotto post-elaborazione, inclusa la ricompattazione JPEG (JPG) e il ridimensionamento dell’immagine (RS).

Conclusione

Non è garantito che JPEG AI godrà di un’ampia adozione. Per una cosa, c’è abbastanza debito infrastrutturale a portata di mano per imporre attrito su qualsiasi nuovo codec; e anche un codec ‘convenzionale’ con un buon pedigree e un ampio consenso sulla sua validità, come AV1, ha difficoltà a sostituire metodi consolidati a lungo.

Per quanto riguarda il potenziale conflitto del sistema con i generatori di AI, gli artefatti di quantizzazione caratteristici che aiutano i current rilevatori di immagini di AI potrebbero essere ridotti o sostituiti da tracce di un tipo diverso, in sistemi successivi (supponendo che i generatori di AI lasceranno sempre una traccia forense, il che non è certo).

Ciò significherebbe che le caratteristiche di quantizzazione di JPEG AI, forse insieme ad altri indizi identificati dal nuovo articolo, potrebbero non entrare in collisione con la traccia forense dei più efficaci nuovi sistemi di generazione di AI.

Tuttavia, se JPEG AI continua a operare come un de facto ‘lavaggio di AI’, significativamente confondendo la distinzione tra immagini reali e generate, sarebbe difficile fare un caso convincente per la sua adozione.

Pubblicato per la prima volta martedì, 8 aprile 2025