Andersons vinkel

JPEG AI suddar gränsen mellan verklig och syntetisk

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

I februari i år publicerades den internationella standarden JPEG AI, efter flera års forskning som syftade till att använda maskinlärningstekniker för att producera en mindre och mer lätt överförbar och lagringsbar bildkod, utan förlust av perceptuell kvalitet.

Från den officiella publiceringskanalen för JPEG AI, en jämförelse mellan Peak Signal-to-Noise Ratio (PSNR) och JPEG AI:s ML-förstärkta tillvägagångssätt. Källa: https://jpeg.org/jpegai/documentation.html

En möjlig anledning till att denna framsteg gjorde få rubriker är att kärndokumenten för denna tillkännagivande (ironiskt nog) inte var tillgängliga genom friåtkomstportaler som Arxiv. Trots detta hade Arxiv redan lagt fram ett antal studier som undersöker betydelsen av JPEG AI över flera aspekter, inklusive metodens ovanliga komprimeringsartefakter och dess betydelse för forensik.

En studie jämförde komprimeringsartefakter, inklusive de från en tidigare utkast av JPEG AI, och fann att den nya metoden hade en tendens att suddiga ut text – inte en bagatell i fall där codecen kan bidra till en beviskedja. Källa: https://arxiv.org/pdf/2411.06810

Eftersom JPEG AI förändrar bilder på sätt som liknar artefakterna från syntetiska bildgenererare, har befintliga forensiska verktyg svårt att skilja på riktiga och falska bilder:

Efter JPEG AI-komprimering kan state-of-the-art-algoritmer inte längre tillförlitligt separera äkta innehåll från manipulerade områden i lokaliseringskartor, enligt en nylig artikel (mars 2025). Exempelbilderna till vänster är manipulerade/falska bilder, där de manipulerade områdena tydligt avgränsas under standardforensiska metoder (mittenbild). Men JPEG AI-komprimering ger de falska bilderna en skikt av trovärdighet (bild längst till höger). Källa: https://arxiv.org/pdf/2412.03261

En anledning är att JPEG AI är tränad med en modellarkitektur som liknar de som används av generativa system som forensiska verktyg syftar till att upptäcka:

Den nya artikeln illustrerar likheten mellan metoderna för AI-driven bildkomprimering och faktiska AI-genererade bilder. Källa: https://arxiv.org/pdf/2504.03191

Därför kan båda modellerna producera några liknande underliggande visuella egenskaper, ur ett forensiskt perspektiv.

Kvantifiering

Denna överlappning sker på grund av kvantifiering, som är gemensam för båda arkitekturerna, och som används i maskinlärning både som en metod för att konvertera kontinuerliga data till diskreta datapunkter, och som en optimeringsteknik som kan betydligt minska filstorleken på en tränad modell (entusiaster för bildsynthetisering kommer att känna igen väntetiden mellan en otymplig officiell modellrelease och en community-ledd kvantiserad version som kan köras på lokal hårdvara).

I detta sammanhang avser kvantifiering processen att konvertera de kontinuerliga värdena i bildens latenta representation till fasta, diskreta steg. JPEG AI använder denna process för att minska mängden data som behövs för att lagra eller överföra en bild genom att förenkla den interna numeriska representationen.

Även om kvantifiering gör kodningen mer effektiv, inför den också strukturella regelbundenheter som kan likna artefakterna som lämnas av generativa modeller – subtila nog att undvika perception, men störande för forensiska verktyg.

Som svar föreslår författarna till en ny artikel med titeln Three Forensic Cues for JPEG AI Images tolkningsbara, icke-neurala metoder som upptäcker JPEG AI-komprimering; bestämmer om en bild har rekompilerats; och skiljer komprimerade riktiga bilder från de som genereras helt av AI.

Metod

Färgkorrelationer

Artikeln föreslår tre ‘forensiska ledtrådar’ anpassade för JPEG AI-bilder: färgkanalkorrelationer, introducerade under JPEG AI:s förbehandlingssteg; mätbara distorsioner i bildkvalitet över upprepade komprimeringar som avslöjar rekompimeringshändelser; och latenta rummets kvantifieringsmönster som hjälper till att skilja mellan bilder komprimerade av JPEG AI och de som genereras av AI-modeller.

När det gäller den färgkorrelationsbaserade metoden introducerar JPEG AI:s förbehandlingspipeline statistiska beroenden mellan bildens färgkanaler, vilket skapar en signatur som kan fungera som en forensisk ledtråd.

JPEG AI konverterar RGB-bilder till YUV-färgrymden och utför 4:2:0 krominanssubsamplning, vilket innebär att nedsampning av krominanskanalerna före komprimering. Denna process leder till subtila korrelationer mellan de högfrekventa resterna av de röda, gröna och blå kanalerna – korrelationer som inte finns i okomprimerade bilder och som skiljer sig i styrka från de som produceras av traditionell JPEG-komprimering eller syntetiska bildgenererare.

<img class="size-full wp-image-215539" src="https://www.unite.ai/wp-content/uploads/2025/04/color-correlations.jpg" alt="En jämförelse av hur JPEG AI-komprimering förändrar färgkorrelationer i bilder, med den röda kanalen som exempel. Panel (a) jämför okomprimerade bilder med JPEG AI-komprimerade, och visar att komprimering betydligt ökar interkanalkorrelation. Panel (b) isolerar effekten av JPEG AI:s förbehandling – bara färgomvandling och subsamplning – och visar att även denna steg ensam ökar korrelationerna märkbart. Panel (c) visar att traditionell JPEG-komprimering också ökar korrelationerna något, men inte i samma utsträckning. Panel (d) undersöker syntetiska bilder, med Midjourney-V5 och Adobe Firefly som visar moderata korrelationsökningar, medan andra förblir närmare okomprimerade nivåer.” width=”1200″ height=”337″ /> En jämförelse av hur JPEG AI-komprimering förändrar färgkorrelationer i bilder..

Ovan kan vi se en jämförelse från artikeln som visar hur JPEG AI-komprimering förändrar färgkorrelationer i bilder, med den röda kanalen som exempel.

Panel A jämför okomprimerade bilder med JPEG AI-komprimerade, och visar att komprimering betydligt ökar interkanalkorrelation; panel B isolerar effekten av JPEG AI:s förbehandling – bara färgomvandling och subsamplning – och visar att även denna steg ensam ökar korrelationerna märkbart; panel C visar att traditionell JPEG-komprimering också ökar korrelationerna något, men inte i samma utsträckning; och panel D undersöker syntetiska bilder, med Midjourney-V5 och Adobe Firefly som visar moderata korrelationsökningar, medan andra förblir närmare okomprimerade nivåer.

Takt-reduktion

Takt-reduktionsledtråden identifierar JPEG AI-rekompimering genom att spåra hur bildkvalitet, mätt i Peak Signal-to-Noise Ratio (PSNR), minskar i ett förutsägbart mönster över flera komprimeringspass.

Forskningen hävdar att upprepad komprimering av en bild med JPEG AI leder till progressivt mindre, men fortfarande mätbara, förluster i bildkvalitet, som kvantifieras av PSNR, och att denna gradvisa försämring utgör grunden för en forensisk ledtråd för att upptäcka om en bild har rekompilerats.

Till skillnad från traditionell JPEG, där tidigare metoder spårade förändringar i specifika bildblock, kräver JPEG AI en annan metod, på grund av dess neurala komprimeringsarkitektur; därför föreslår författarna att man övervakar hur både bitrate och PSNR utvecklas över på varandra följande komprimeringar. Varje omgång komprimering förändrar bilden mindre än den föregående, och denna avtagande förändring (när den plottas mot bitrate) kan avslöja om en bild har gått genom flera komprimeringssteg:

En illustration av hur upprepad komprimering påverkar bildkvalitet över olika codec, som visar att JPEG AI och en neural codec utvecklad på https://arxiv.org/pdf/1802.01436 båda visar en stadig minskning av PSNR med varje ytterligare komprimering, även vid lägre bitrates. I kontrast bibehåller traditionell JPEG-komprimering en relativt stabil kvalitet över flera komprimeringar, såvida inte bitrate är hög. Detta mönster fungerar som en exempel på hur rekompimering lämnar ett mätbart spår i AI-baserade codec, och erbjuder en potentiell forensisk signal.

I bilden ovan ser vi en graf som visar takt-reduktionskurvor för JPEG AI; en andra AI-baserad codec; och traditionell JPEG, och finner att JPEG AI och den neurala codecen visar en konsekvent PSNR-minskning över alla bitrates, medan traditionell JPEG-komprimering bara visar en märkbar försämring vid mycket höga bitrates. Detta beteende erbjuder en kvantifierbar signal som kan användas för att flagga rekompilerade JPEG AI-bilder.

Genom att extrahera hur bitrate och bildkvalitet utvecklas över flera komprimeringsomgångar konstruerade författarna likaså en signatur som hjälper till att flagga om en bild har rekompilerats, och erbjuder en potentiell praktisk forensisk ledtråd i sammanhanget med JPEG AI.

Kvantifiering

Som vi såg tidigare är en av de mer utmanande forensiska problemen som JPEG AI väcker dess visuella likhet med syntetiska bilder genererade av diffusionsmodeller. Båda systemen använder encoder-decoder-arkitekturer som bearbetar bilder i ett komprimerat latentspace och ofta lämnar efter subtila upsampling-artefakter.

Dessa delade egenskaper kan förvirra detektorer – även de som omtränats på JPEG AI-bilder. Men en viktig strukturell skillnad kvarstår: JPEG AI tillämpar kvantifiering, ett steg som avrundar latenta värden till diskreta nivåer för effektiv komprimering, medan generativa modeller vanligtvis inte gör det.

Den nya artikeln använder denna skillnad för att konstruera en forensisk ledtråd som indirekt testar för närvaro av kvantifiering. Metoden analyserar hur den latenta representationen av en bild svarar på avrundning, med antagandet att om en bild redan har kvantifierats, dess latenta struktur kommer att visa en mätbar mönster som kan hjälpa till att skilja mellan komprimerade riktiga bilder och de som genereras av AI-modeller.

Dessa mönster, som är osynliga för ögat, producerar statistiska skillnader som kan hjälpa till att skilja komprimerade riktiga bilder från de som genereras av AI-modeller.

Ett exempel på genomsnittliga Fourier-spektra visar att både JPEG AI-komprimerade bilder och de som genereras av diffusionsmodeller som Midjourney-V5 och Stable Diffusion XL visar regelbundna grid-liknande mönster i frekvensdomänen – artefakter som vanligtvis kopplas till upsampling. I kontrast saknar riktiga bilder dessa mönster. Denna överlappning i spektral struktur hjälper till att förklara varför forensiska verktyg ofta förväxlar komprimerade riktiga bilder med syntetiska.

Viktigt är att författarna visar att denna ledtråd fungerar över olika generativa modeller och förblir effektiv även när komprimering är tillräckligt stark för att nollställa hela delar av latentspace. I kontrast visar syntetiska bilder mycket svagare svar på denna avrundningstest, och erbjuder en praktisk metod för att skilja mellan de två.

Resultatet är tänkt som ett lätt och tolkningsbart verktyg som riktar sig mot den grundläggande skillnaden mellan komprimering och generering, snarare än att förlita sig på bräckliga yttre artefakter.

Data och tester

Komprimering

För att utvärdera om deras färgkorrelationsledtråd kunde tillförlitligt upptäcka JPEG AI-komprimering (dvs. en första omgång från okomprimerad källa), testade författarna den på högkvalitativa okomprimerade bilder från RAISE-databasen, och komprimerade dessa vid olika bitrates med JPEG AI-referensimplementeringen.

De tränade en enkel random forest på de statistiska mönstren av färgkanalkorrelationer (särskilt hur restljud i varje kanal sammanföll med de andra) och jämförde den med en ResNet50 neural nätverksmodell som tränades direkt på bildpixlarna.

Upptäcktsprecision för JPEG AI-komprimering med färgkorrelationsfunktioner, jämförd över flera bitrates. Metoden är mest effektiv vid lägre bitrates, där komprimeringsartefakter är starkare, och visar bättre generalisering till okända komprimeringsnivåer än den grundläggande ResNet50-modellen.

Medan ResNet50 uppnådde högre precision när testdatat nära matchade dess träningsförhållanden, hade den svårt att generalisera över olika komprimeringsnivåer. Färgkorrelationsbaserade metoden, som var betydligt enklare, visade sig vara mer konsekvent över bitrates, särskilt vid lägre komprimeringshastigheter där JPEG AI:s förbehandling hade en starkare effekt.

Dessa resultat tyder på att det är möjligt att upptäcka JPEG AI-komprimering med statistiska ledtrådar som förblir tolkningsbara och robusta, även utan djupinlärning.

Rekompimering

För att utvärdera om JPEG AI-rekompimering kan upptäckas tillförlitligt, testade forskarna takt-reduktionsledtråden på en uppsättning bilder komprimerade vid olika bitrates – vissa bara en gång och andra en andra gång med JPEG AI.

Denna metod innebar att extrahera en 17-dimensionell funktion för att spåra hur bildens bitrate och PSNR utvecklades över tre komprimeringsomgångar. Denna funktionssamling fångade hur mycket kvalitet som förlorades vid varje steg, och hur de latenta och hyperprior hastigheterna betedde sig – mått som traditionella pixelbaserade metoder inte kan komma åt lätt.

Forskarna tränade en random forest på dessa funktioner och jämförde dess prestanda med en ResNet50 tränad på bildpatchar:

Resultat för klassificeringsprecisionen av en random forest tränad på takt-reduktionsfunktioner för att upptäcka om en JPEG AI-bild har rekompilerats. Metoden fungerar bäst när den första komprimeringen är stark (dvs. vid lägre bitrates), och konsekvent överträffar en pixelbaserad ResNet50 – särskilt i fall där den andra komprimeringen är mildare än den första.

Random forest visade sig vara anmärkningsvärt effektiv när den första komprimeringen var stark (dvs. vid lägre bitrates), och avslöjade tydliga skillnader mellan enkel- och dubbelt komprimerade bilder. Liksom tidigare ledtråd hade ResNet50 svårt att generalisera, särskilt när den testades på komprimeringsnivåer den inte sett under träningsfasen.

Takt-reduktionsfunktionerna, å andra sidan, förblev stabila över en bred uppsättning scenarier. Noterbart var att ledtråden fungerade även när den tillämpades på en annan AI-baserad codec, vilket tyder på att metoden generaliserar bortom JPEG AI.

JPEG AI och syntetiska bilder

För den sista testomgången testade författarna om deras kvantifieringsbaserade funktioner kan skilja mellan JPEG AI-komprimerade bilder och fullständigt syntetiska bilder genererade av modeller som Midjourney, Stable Diffusion, DALL-E 2, Glide, och Adobe Firefly.

För detta använde de en delmängd av Synthbuster-databasen, som blandade riktiga foton från RAISE-databasen med genererade bilder från en rad diffusions- och GAN-baserade modeller.

Exempel på syntetiska bilder i Synthbuster, genererade med textprompt inspirerade av naturliga fotografier från RAISE-1k-databasen. Bilderna skapades med olika diffusionsmodeller, med prompt som designades för att producera fotorealistiska innehåll och texturer snarare än stiliserade eller konstnärliga återgivningar. Källa: https://ieeexplore.ieee.org/document/10334046

De riktiga bilderna komprimerades med JPEG AI vid flera bitrates, och klassificeringen ställdes som en tvåvägsuppgift: antingen JPEG AI mot en specifik generator, eller en specifik bitrate mot Stable Diffusion XL.

Kvantifieringsfunktionerna (korrelationer extraherade från latenta representationer) beräknades från en fast 256×256-region och matades till en random forest-klassificerare. Som baseline tränades en ResNet50 på pixelfragment från samma data.

Klassificeringsprecision av en random forest som använder kvantifieringsfunktioner för att skilja JPEG AI-komprimerade bilder från syntetiska bilder.

Över de flesta förhållanden överträffade den kvantifieringsbaserade metoden ResNet50-baslinjen, särskilt vid låga bitrates där komprimeringsartefakter var starkare.

Författarna skriver:

‘Baslinjen ResNet50 presterar bäst för Glide-bilder med en precision på 66,1%, men i övrigt generaliserar den sämre än kvantifieringsfunktionerna. Kvantifieringsfunktionerna visar en god generalisering över komprimeringsstyrka och generatortyper.

‘Vikten av koefficienterna som kvantifieras till noll visas i den respektabla prestationen av de trunkerade [funktionerna], som i många fall presterar jämförbart med ResNet50-klassificeraren.

‘Men kvantifieringsfunktioner som använder den ofullständiga, fullständiga heltalsvektorn presterar fortfarande märkbart bättre. Dessa resultat bekräftar att mängden nollor efter kvantifiering är en viktig ledtråd för att skilja AI-komprimerade och AI-genererade bilder.

‘Ändå visar det också att andra faktorer bidrar. Precisionen för den fullständiga vektorn för att upptäcka JPEG AI är för alla bitrates över 91,0%, och starkare komprimering leder till högre precisioner.’

En projicering av funktionssfyrket med UMAP visade en tydlig separation mellan JPEG AI och syntetiska bilder, med lägre bitrates som ökade avståndet mellan klasserna. En konsekvent utbrytare var Glide, vars bilder klustrade annorlunda och hade den lägsta upptäcktsprecisionen av alla genererade modeller som testades.

Tvådimensionell UMAP-visualisering av JPEG AI-komprimerade och syntetiska bilder, baserade på kvantifieringsfunktioner. Den vänstra grafen visar att lägre JPEG AI-bitrate skapar större separation från syntetiska bilder; den högra grafen visar hur bilder från olika genererare klustrar distinkt inom funktionssfyrket.

Slutligen utvärderade författarna hur väl funktionerna höll i sig under typisk efterbearbetning, som JPEG-rekompimering eller nedskalning. Medan prestandan minskade med kraftigare bearbetning, var minskningen gradvis, vilket tyder på att metoden behåller en viss robusthet även under försämrade förhållanden.

Utvardering av kvantifieringsfunktionernas robusthet under efterbearbetning, inklusive JPEG-rekompimering (JPG) och bildomskalning (RS).

Slutsats

Det är inte säkert att JPEG AI kommer att få en bred tillämpning. En av anledningarna är att det redan finns en stor mängd infrastruktur som kan försvåra införandet av varje ny codec; och även en ‘konventionell’ codec med ett fint ursprung och bred konsensus om dess värde, som AV1, har svårt att fördriva etablerade metoder.

När det gäller systemets potentiella konflikt med AI-genererare kan de karakteristiska kvantifieringsartefakter som hjälper den nuvarande generationen av AI-bilddetektorer kanske minskas eller slutligen ersättas av spår av en annan typ, i senare system (under antagandet att AI-genererare alltid kommer att lämna forensiska spår, vilket inte är säkert).

Detta skulle innebära att JPEG AI:s egna kvantifieringsegenskaper, kanske tillsammans med andra ledtrådar identifierade av den nya artikeln, kanske inte kommer att kollidera med den forensiska spåren från de mest effektiva nya generativa AI-systemen.

Om JPEG AI dock fortsätter att fungera som en de facto ‘AI-tvätt’, som betydligt suddar ut gränsen mellan riktiga och genererade bilder, skulle det vara svårt att göra ett övertygande fall för dess antagande.

Publicerad första gången tisdagen den 8 april 2025