Andersons vinkel

JPEG AI udvisker grænsen mellem rigtig og syntetisk

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

I februar i år blev den internationale standard for JPEG AI offentliggjort efter flere års forskning med det formål at bruge maskinelærings-teknikker til at producere en mindre og mere let transmitterbar og gembar billedkodek, uden tab af perceptuel kvalitet.

Fra den officielle publikationsstrøm for JPEG AI, en sammenligning mellem Peak Signal-to-Noise Ratio (PSNR) og JPEG AI’s ML-forbedrede tilgang. Kilde: https://jpeg.org/jpegai/documentation.html

En mulig grund til, at denne begivenhed fik få overskrifter, er, at de centrale PDF’er for denne meddelelse (ironisk nok) ikke var tilgængelige gennem gratis-adgangsporte som Arxiv. Arxiv havde allerede fremlagt en række studier, der undersøgte betydningen af JPEG AI på tværs af flere aspekter, herunder metodens usædvanlige kompressionsartefakter og dens betydning for retsmedicin.

En studie sammenlignede kompressionsartefakter, herunder dem fra en tidligere udgave af JPEG AI, og fandt, at den nye metode havde en tendens til at blurre teksten – ikke en ubetydelig sag i tilfælde, hvor kodeken kan bidrage til en beviskæde. Kilde: https://arxiv.org/pdf/2411.06810

Fordi JPEG AI ændrer billeder på måder, der ligner artefakterne fra syntetiske billedgenereringsmodeller, har eksisterende retsmedicinske værktøjer svært ved at skelne rigtige fra falske billeder:

Efter JPEG AI-kompression kan state-of-the-art-algoritmer ikke længere pålideligt adskille ægte indhold fra manipulerede områder i lokaliseringskort, ifølge en ny artikel (marts 2025). Eksemplerne på venstre side er manipulerede/falske billeder, hvor de manipulerede områder er tydeligt afgrænsede under standard retsmedicinske teknikker (billede i midten). Men JPEG AI-kompression giver de falske billeder et lag af troværdighed (billede længst til højre). Kilde: https://arxiv.org/pdf/2412.03261

En grund til dette er, at JPEG AI er trænet med en modelarkitektur, der ligner dem, der bruges af generative systemer, som retsmedicinske værktøjer søger at detektere:

Den nye artikel illustrerer ligheden mellem metodernes metodik for AI-drevet billedkompression og faktiske AI-genererede billeder. Kilde: https://arxiv.org/pdf/2504.03191

Derfor kan begge modeller producere nogle lignende underliggende visuelle egenskaber, set fra et retsmedicinsk synspunkt.

Quantisering

Dette overlap sker på grund af kvantisering, der er fælles for begge arkitekturer, og som bruges i maskinelæring både som en metode til at konvertere kontinuert data til diskrete datapunkter og som en optimeringsteknik, der kan betydeligt slimme filstørrelsen af en trænet model (entusiaster for billedsynthesis vil være bekendt med ventetiden mellem en ustyrlig officiel modeludgave og en community-ledt kvantiseret version, der kan køre på lokal hardware).

I denne kontekst refererer kvantisering til processen med at konvertere de kontinuerte værdier i billedets latente repræsentation til faste, diskrete trin. JPEG AI bruger denne proces til at reducere mængden af data, der er nødvendig for at gemme eller transmittere et billede ved at forenkle den interne numeriske repræsentation.

Selvom kvantisering gør kodning mere effektiv, påfører den også strukturelle regelmæssigheder, der kan ligne artefakterne efter generative modeller – subtile nok til at undgå perception, men forstyrrende for retsmedicinske værktøjer.

Som svar foreslår forfatterne af en ny artikel med titlen Three Forensic Cues for JPEG AI Images fortolkelige, ikke-neurale teknikker, der kan detektere JPEG AI-kompression; bestemme, om et billede er blevet rekompileret; og skelne komprimerede rigtige billeder fra dem, der er genereret helt af AI.

Metode

Farvekorrelationer

Artiklen foreslår tre ‘retsmedicinske hints’ tilpasset JPEG AI-billeder: farvekanalkorrelationer, der introduceres under JPEG AI’s forarbejdningstrin; målbar forringelse af billedkvalitet over gentagne kompressioner, der afslører rekompileringshændelser; og latentspace-kvantiseringsmønstre, der hjælper med at skelne mellem billeder komprimeret af JPEG AI og dem genereret af AI-modeller.

Med hensyn til den farvekorrelationsbaserede tilgang introducerer JPEG AI’s forarbejdningspipeline statistiske afhængigheder mellem billedets farvekanaler, hvilket skaber en signatur, der kan fungere som en retsmedicinsk hint.

JPEG AI konverterer RGB-billeder til YUV-farverum og udfører 4:2:0 chroma-undersampling, hvilket indebærer at nedsample chrominancekanalerne før kompression. Denne proces fører til subtile korrelationer mellem de højfrekvens-residuer af de røde, grønne og blå kanaler – korrelationer, der ikke er til stede i ukomprimerede billeder og som afviger i styrke fra dem, der produceres af traditionel JPEG-kompression eller syntetiske billedgenereringsmodeller.

En sammenligning af, hvordan JPEG AI-kompression ændrer farvekorrelationer i billeder..

Ovenfor kan vi se en sammenligning fra artiklen, der viser, hvordan JPEG AI-kompression ændrer farvekorrelationer i billeder, med brug af den røde kanal som eksempel.

Panel A sammenligner ukomprimerede billeder med JPEG AI-komprimerede billeder og viser, at kompression betydeligt øger interkanalkorrelation; panel B isolerer effekten af JPEG AI’s forarbejdningssteg – kun farveomdannelsen og undersampling – og demonstrerer, at selv dette trin alene øger korrelationerne mærkbart; panel C viser, at traditionel JPEG-kompression også øger korrelationerne lidt, men ikke i samme omfang; og Panel D undersøger syntetiske billeder, hvor Midjourney-V5 og Adobe Firefly viser moderate korrelationsøgninger, mens andre forbliver tæt på ukomprimerede niveauer.

Rate-Distortion

Rate-Distortion-hinten identificerer JPEG AI-rekompilering ved at spore, hvordan billedkvalitet, målt med Peak Signal-to-Noise Ratio (PSNR), falder i et forudsigeligt mønster over flere kompressionsgange.

Forskningen påstår, at gentagne gange komprimere et billede med JPEG AI fører til progressivt mindre, men stadig målbare, tab af billedkvalitet, som kvantificeret af PSNR, og at denne gradvise forringelse danner grundlag for en retsmedicinsk hint for at detektere, om et billede er blevet rekompileret.

I modsætning til traditionel JPEG, hvor tidligere metoder sporedde ændringer i bestemte billedblokke, kræver JPEG AI en anden tilgang på grund af sin neurale kompressionsarkitektur; derfor foreslår forfatterne at overvåge, hvordan både bitrate og PSNR udvikler sig over efterfølgende kompressioner. Hver kompressionsrunde ændrer billedet mindre end den foregående, og denne formindskede ændring (når den bliver plotteret mod bitrate) kan afsløre, om et billede er gået gennem flere kompressionsfaser:

En illustration af, hvordan gentagen kompression påvirker billedkvalitet over forskellige kodeker, viser, at JPEG AI og en neuralt kodek udviklet på https://arxiv.org/pdf/1802.01436 begge viser en stadig nedgang i PSNR med hver yderligere kompression – selv ved lavere bitrates. I modsætning hertil opretholder traditionel JPEG-kompression relativt stabil kvalitet over flere kompressioner, medmindre bitrate er høj. Dette mønster fungerer som et eksempel på, hvordan rekompilering efterlader en målbar spor i AI-baserede kodeker, og tilbyder en potentiel retsmedicinsk signal.

I billedet ovenfor kan vi se en graf, der viser rate-distortion-kurver for JPEG AI; en anden AI-baseret kodek; og traditionel JPEG, og finder, at JPEG AI og den neurale kodek viser en konstant PSNR-nedgang over alle bitrates, mens traditionel JPEG-kompression kun viser nævneværdig forringelse ved højere bitrates. Dette adfærdsmønster giver en kvantificerbar signal, der kan bruges til at flagre rekompilerede JPEG AI-billeder.

Ved at udtrække, hvordan bitrate og billedkvalitet udvikler sig over flere kompressionsrunde, konstruerede forfatterne på samme måde en signatur, der hjælper med at flagre, om et billede er blevet rekompileret, og tilbyder en potentiel praktisk retsmedicinsk hint i konteksten af JPEG AI.

Kvantisering

Som vi så tidligere, er en af de mere udfordrende retsmedicinske problemer, der er rejst af JPEG AI, dens visuelle lighed med syntetiske billeder genereret af diffusionsmodeller. Begge systemer bruger encoder-dekoder-arkitekturer, der behandler billeder i en komprimeret latent rum og ofte efterlader subtile upsampling-artefakter.

Disse fælles træk kan forvirre detektorer – selv dem, der er genoptrænet på JPEG AI-billeder. Men en nøgleforskellighed er til stede: JPEG AI anvender kvantisering, et trin, der afrunder latente værdier til diskrete niveauer for effektiv kompression, mens generative modeller typisk ikke gør.

Den nye artikel bruger denne forskellighed til at designe en retsmedicinsk hint, der indirekte tester for tilstedeværelsen af kvantisering. Metoden analyserer, hvordan den latente repræsentation af et billede reagerer på afrundning, under antagelse af, at hvis et billede allerede er blevet kvantiseret, vil dets latente struktur vise en målbar mønster af alignment med afrundede værdier.

Disse mønstre, selvom de er usynlige for øjet, producerer statistiske forskelle, der kan hjælpe med at skelne mellem komprimerede rigtige billeder og fuldt syntetiske billeder.

Et eksempel på gennemsnitlige Fourier-spektra afslører, at både JPEG AI-komprimerede billeder og billeder genereret af diffusionsmodeller som Midjourney-V5 og Stable Diffusion XL viser regelmæssige grid-lignende mønstre i frekvensdomænet – artefakter, der ofte er forbundet med upsampling. I modsætning hertil mangler rigtige billeder disse mønstre. Denne overlap i spektral struktur hjælper med at forklare, hvorfor retsmedicinske værktøjer ofte forvirrer komprimerede rigtige billeder med syntetiske billeder.

Vigtigt er, at forfatterne viser, at denne hint virker på tværs af forskellige generative modeller og forbliver effektiv, selv når kompression er stærk nok til at nulstille hele sektioner af det latente rum. I modsætning hertil viser syntetiske billeder meget svagere reaktioner på denne afrundningstest, og tilbyder en praktisk måde at skelne mellem de to på.

Resultatet er tænkt som et letvægts- og fortolkeligt værktøj, der sigter mod den grundlæggende forskellighed mellem kompression og generation, snarere end at afhænge af ømtålige overfladeartefakter.

Data og tests

Kompression

For at evaluere, om deres farvekorrelationshint kunne pålideligt detektere JPEG AI-kompression (dvs. en første kompression fra ukomprimeret kilde), testede forfatterne den på højkvalitets ukomprimerede billeder fra RAISE-databasen, komprimeret ved forskellige bitrates, ved brug af JPEG AI-referencen.

De trænede en simpel random forest på de statistiske mønstre af farvekanalkorrelationer (især, hvordan residuel støj i hver kanal alignerede med de andre) og sammenlignede den med en ResNet50 neuralt netværk trænet direkte på billedpixelene.

Detektionsnøjagtighed af JPEG AI-kompression ved brug af farvekorrelationsfunktioner, sammenlignet på tværs af flere bitrates. Metoden er mest effektiv ved lavere bitrates, hvor kompressionsartefakter er stærkere, og viser bedre generalisering til usete kompressionsniveauer end den basale ResNet50-model.

Selvom ResNet50 opnåede højere nøjagtighed, når testdataen nøje matchede dens træningsbetingelser, havde den svært ved at generalisere på tværs af forskellige kompressionsniveauer. Den korrelationsbaserede tilgang, selvom den var langt enklere, viste sig at være mere konsekvent på tværs af bitrates, især ved lavere kompressionsrater, hvor JPEG AI’s forarbejdningssteg havde en stærkere effekt.

Disse resultater antyder, at selv uden dyb læring er det muligt at detektere JPEG AI-kompression ved brug af statistiske hints, der forbliver fortolkelige og robuste.

Rekompilering

For at evaluere, om JPEG AI-rekompilering kan detekteres pålideligt, testede forskerne rate-distortion-hinten på en samling billeder komprimeret ved forskellige bitrates – nogle kun én gang og andre en anden gang ved brug af JPEG AI.

Denne metode involverede at udtrække en 17-dimensionel funktionvektor for at spore, hvordan billedets bitrate og PSNR udviklede sig over tre kompressionsgange. Denne funktionssæt fik fat på, hvor meget kvalitet der gik tabt ved hver trin, og hvordan de latente og hyperprior-rater opførte sig – mål, der traditionelle pixelbaserede metoder ikke let kan nå.

Forskere trænede en random forest på disse funktioner og sammenlignede dens præstation med en ResNet50 trænet på billedstykke:

Resultater for klassifikationsnøjagtigheden af en random forest trænet på rate-distortion-funktioner for at detektere, om et JPEG AI-billede er blevet rekompileret. Metoden fungerer bedst, når den første kompression er stærk (dvs. ved lavere bitrates), og derefter konsekvent overgår en pixelbaseret ResNet50 – især i tilfælde, hvor den anden kompression er mildere end den første.

Random foresten viste sig at være bemærkelsesværdigt effektiv, når den første kompression var stærk (dvs. ved lavere bitrates), og afslørede tydelige forskelle mellem enkelt- og dobbeltkomprimerede billeder. Som med den forrige hint havde ResNet50-iterationen svært ved at generalisere, især når den blev testet på kompressionsniveauer, den ikke havde set under træning.

Rate-distortion-funktionerne, til gengæld, forblev stabile på tværs af en bred vifte af scenarier. Bemærkelsesværdigt fungerede hinten også, når den blev anvendt på en anden AI-baseret kodek, hvilket antyder, at tilgangen generaliserer ud over JPEG AI.

JPEG AI og syntetiske billeder

Til den endelige testrunde testede forfatterne, om deres kvantiseringsbaserede funktioner kan skelne mellem JPEG AI-komprimerede billeder og fuldt syntetiske billeder genereret af modeller som Midjourney, Stable Diffusion, DALL-E 2, Glide og Adobe Firefly.

Til dette formål brugte de en undermængde af Synthbuster-databasen, der kombinerer rigtige fotos fra RAISE-databasen med genererede billeder fra en række diffusions- og GAN-baserede modeller.

Eksempler på syntetiske billeder i Synthbuster, genereret ved brug af tekstprompts inspireret af naturlige fotografier fra RAISE-1k-databasen. Billederne blev skabt med forskellige diffusionsmodeller, med prompts designet til at producere fotorealistiske indhold og teksturer snarere end stiliserede eller kunstneriske gengivelser. Kilde: https://ieeexplore.ieee.org/document/10334046

De rigtige billeder blev komprimeret ved brug af JPEG AI ved flere bitrates, og klassifikationen blev formuleret som en to-vejs opgave: enten JPEG AI versus en specifik generator eller en specifik bitrate versus Stable Diffusion XL.

Kvantiseringsfunktionerne (korrelationer udtrukket fra latente repræsentationer) blev beregnet fra en fast 256×256-region og ført til en random forest-klassifikator. Som baseline blev en ResNet50 trænet på billedstykke fra samme data.

Klassifikationsnøjagtighed af en random forest, der bruger kvantiseringsfunktioner til at skelne mellem JPEG AI-komprimerede billeder og syntetiske billeder.

På tværs af de fleste betingelser overgik den kvantiseringsbaserede tilgang den basale ResNet50, især ved lavere bitrates, hvor kompressionsartefakter var stærkere.

Forfatterne skriver:

‘Den basale ResNet50 performer bedst for Glide-billeder med en nøjagtighed på 66,1%, men ellers generaliserer den dårligere end kvantiseringsfunktionerne. Kvantiseringsfunktionerne viser en god generalisering på tværs af kompressionsstyrker og generatortyper.

‘Vigtigheden af koefficienterne, der kvantiseres til nul, vises i den respektabelle præstation af de afkortede [funktioner], der i mange tilfælde performer sammenligneligt med ResNet50-klassifikatoren.

‘Men kvantiseringsfunktioner, der bruger den uforskudte, fulde integer [vektor], performer dog bemærkelsesværdigt bedre. Disse resultater bekræfter, at mængden af nul efter kvantisering er en vigtig hint for at skelne mellem AI-komprimerede og AI-genererede billeder.

‘Alligevel viser det også, at andre faktorer bidrager. Nøjagtigheden af den fulde vektor for at detektere JPEG AI er for alle bitrates over 91,0%, og stærkere kompression fører til højere nøjagtigheder.’

En projektion af funktionrummet ved brug af UMAP viste en tydelig adskillelse mellem JPEG AI og syntetiske billeder, med lavere bitrates, der øgede afstanden mellem klasser. En konsekvent outlier var Glide, hvis billeder klumpede forskelligt og havde den laveste detektionsnøjagtighed af alle testede generatore.

To-dimensionel UMAP-visualisering af JPEG AI-komprimerede og syntetiske billeder, baseret på kvantiseringsfunktioner. Den venstre plot viser, at lavere JPEG AI-bitrates skaber større adskillelse fra syntetiske billeder; den højre plot viser, hvordan billeder fra forskellige generatore klumperer forskelligt inden for funktionrummet.

Til sidst evaluerede forfatterne, hvor godt funktionerne holdt ved typisk efterbehandling, såsom JPEG-rekompilering eller billednedskalering. Selvom præstationen faldt med tungere behandling, var faldet gradvist, hvilket antyder, at tilgangen beholder en vis robusthed, selv under degraderede betingelser.

Evaluering af kvantiseringsfunktioners robusthed under efterbehandling, herunder JPEG-rekompilering (JPG) og billednedskalering (RS).

Konklusion

Det er ikke garanteret, at JPEG AI vil få bred accept. For det første er der nok infrastruktur-skyld at påføre enhver ny kodek; og selv en ‘konventionel’ kodek med en fin arv og bred enighed om dets værdi, som AV1, har svært ved at fortrænge længe etablerede metoder.

I forhold til systemets potentielle konflikt med AI-genereringsmodeller kan de karakteristiske kvantiseringsartefakter, der hjælper den nuværende generation af AI-billed-detektion, måske blive formindsket eller erstattet af spor af en anden art i senere systemer (under antagelse af, at AI-genereringsmodeller altid efterlader retsmedicinske spor, hvilket ikke er sikkert).

Dette ville betyde, at JPEG AI’s egne kvantiseringsegenskaber, måske sammen med andre hints identificeret af den nye artikel, måske ikke ender med at kollidere med den retsmedicinske spor af de mest effektive nye generative AI-systemer.

Hvis, på den anden side, JPEG AI fortsætter med at fungere som en de facto ‘AI-vask’, der betydeligt udvisker forskellen mellem rigtige og genererede billeder, ville det være svært at fremme et overbevisende argument for dets optagelse.

Først offentliggjort tirsdag, 8. april 2025