Andersons vinkel

JPEG AI utvisker grensen mellom ekte og syntetisk

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

I februar i år ble den internasjonale standarden JPEG AI publisert, etter flere års forskning med mål om å bruke maskinlærings-teknikker til å produsere en mindre og mer overførbar og lagrbar bildekodek, uten tap i perseptuell kvalitet.

Fra den offisielle publikasjonen for JPEG AI, en sammenligning mellom Peak Signal-to-Noise Ratio (PSNR) og JPEG AI’s ML-augmenterte tilnærming. Kilde: https://jpeg.org/jpegai/documentation.html

En mulig grunn til at denne begivenheten fikk få overskrifter er at de grunnleggende PDF-ene for denne annonseringen ikke var (ironisk nok) tilgjengelige gjennom gratis-tilgangs-portaler som Arxiv. Likevel hadde Arxiv allerede lagt frem en rekke studier som undersøkte betydningen av JPEG AI på flere områder, inkludert metoden sin uvanlige komprimeringsartefakter og dens betydning for rettsmedisin.

En studie sammenlignet komprimeringsartefakter, inkludert de fra en tidligere utkast av JPEG AI, og fant at den nye metoden hadde en tendens til å blurre tekst – ikke en ubetydelig sak i tilfeller hvor kodeken kan bidra til en beviskjede. Kilde: https://arxiv.org/pdf/2411.06810

Fordi JPEG AI endrer bilder på måter som ligner artefaktene fra syntetiske bildegeneratorene, har eksisterende rettsmedisinske verktøy vanskeligheter med å skille ekte fra falske bilder:

Etter JPEG AI-komprimering kan state-of-the-art-algoritmer ikke lenger pålitelig skille autentisk innhold fra manipulerte områder i lokaliseringskart, ifølge en nylig artikkel (mars 2025). Eksemplene til venstre er manipulerte/falske bilder, hvor de manipulerte områdene er tydelig avgrenset under standard rettsmedisinske teknikker (midterbilde). Imidlertid gir JPEG AI-komprimering de falske bildene et lag av troverdighet (bilde til høyre). Kilde: https://arxiv.org/pdf/2412.03261

En grunn til dette er at JPEG AI er trent med en modellarkitektur som ligner de som brukes av generative systemer som rettsmedisinske verktøy prøver å detektere:

Den nye artikkelen illustrerer likheten mellom metodene for AI-drevet bildekomprimering og faktiske AI-genererte bilder. Kilde: https://arxiv.org/pdf/2504.03191

Derfor kan begge modellene produsere noen lignende underliggende visuelle egenskaper, sett fra et rettsmedisinsk ståsted.

Quantisering

Dette kryssingspunktet skjer på grunn av kvantisering, som er felles for begge arkitekturer, og som brukes i maskinlæring både som en metode for å konvertere kontinuerlige data til diskrete datapunkter, og som en optimeringsteknikk som kan betydelig slimme ned filstørrelsen på en trent modell (uoffisielle bilde-syntese-entusiaster vil være kjent med ventetiden mellom en ugrei offisiell modellutgivelse og en community-ledet kvantisert versjon som kan kjøres på lokal maskinvare).

I denne sammenhengen refererer kvantisering til prosessen med å konvertere de kontinuerlige verdiene i bildets latente representasjon til fikse, diskrete trinn. JPEG AI bruker denne prosessen til å redusere mengden data som trengs for å lagre eller overføre et bilde ved å forenkle den interne numeriske representasjonen.

Selv om kvantisering gjør kodning mer effektiv, påfører den også strukturelle regelmessigheter som kan ligne artefaktene etter generative modeller – subtile nok til å unngå persepsjon, men forstyrrende for rettsmedisinske verktøy.

Som svar foreslår forfatterne av en ny artikkel med tittelen Three Forensic Cues for JPEG AI Images tolkningsfulle, ikke-neurale teknikker som kan detektere JPEG AI-komprimering; bestemme om et bilde har blitt rekompimert; og skille komprimerte ekte bilder fra de som er generert helt av AI.

Metode

Fargekorrelasjoner

Artikkelen foreslår tre ‘rettsmedisinske hint’ tilpasset JPEG AI-bilder: fargekanalkorrelasjoner, introdusert under JPEG AI’s forbehandlingssteg; målbare forvrengninger i bildekvalitet over gjentatte komprimeringer som avslører rekompimeringshendelser; og latente kvantiseringmønster som hjelper å skille komprimerte ekte bilder fra de som er generert av AI-modeller.

Med hensyn til fargekorrelasjonsbasert tilnærming, introduserer JPEG AI’s forbehandlingspipeline statistiske avhengigheter mellom bildets fargekanaler, og skaper en signatur som kan fungere som en rettsmedisinsk hint.

JPEG AI konverterer RGB-bilder til YUV-fargerommet og utfører 4:2:0 krominansundersampling, som innebærer å nedsample krominanskanalene før komprimering. Denne prosessen fører til subtile korrelasjoner mellom de høyfrekvente restene av de røde, grønne og blå kanalene – korrelasjoner som ikke er til stede i ukomprimerte bilder, og som skiller seg i styrke fra de produsert av tradisjonell JPEG-komprimering eller syntetiske bildegeneratorene.

En sammenligning av hvordan JPEG AI-komprimering endrer fargekorrelasjoner i bilder..

Ovenfor kan vi se en sammenligning fra artikkelen som viser hvordan JPEG AI-komprimering endrer fargekorrelasjoner i bilder, med rød kanal som eksempel.

Panel A sammenligner ukomprimerte bilder med JPEG AI-komprimerte, og viser at komprimering øker interkanalkorrelasjon betydelig; panel B isolerer effekten av JPEG AI’s forbehandling – bare fargekonvertering og undersampling – og demonstrerer at selv dette steget alene øker korrelasjonene merkbart; panel C viser at tradisjonell JPEG-komprimering også øker korrelasjonene litt, men ikke like mye. Panel D undersøker syntetiske bilder, med Midjourney-V5 og Adobe Firefly som viser moderate korrelasjonsøkninger, mens andre forblir nærmere ukomprimerte nivåer.

Rate-Distortion

Rate-Distortion-hinten identifiserer JPEG AI-rekompimering ved å spore hvordan bildekvalitet, målt med Peak Signal-to-Noise Ratio (PSNR), synker i et forutsigbart mønster over flere komprimeringspass.

Forskningen hevder at å komprimere et bilde med JPEG AI flere ganger fører til stadig mindre, men likevel målbare, tap i bildekvalitet, som kvantifiseres med PSNR, og at denne gradvise forverringen danner grunnlaget for en rettsmedisinsk hint for å detektere om et bilde har blitt rekompimert.

I motsetning til tradisjonell JPEG, hvor tidligere metoder sporet endringer i bestemte bildeblokker, krever JPEG AI en annen tilnærming, på grunn av dens neurale komprimeringsarkitektur; derfor foreslår forfatterne å overvåke hvordan både bitrate og PSNR utvikler seg over påfølgende komprimeringer. Hver runde med komprimering endrer bildet mindre enn den foregående, og denne avtagende endringen (når den plottes mot bitrate) kan avsløre om et bilde har gått gjennom flere komprimeringsstadier:

En illustrasjon av hvordan gjentakende komprimering påvirker bildekvalitet over forskjellige kodeker, viser at JPEG AI og en neural kodek utviklet på https://arxiv.org/pdf/1802.01436 begge viser en jevn nedgang i PSNR med hver ekstra komprimering – selv ved lavere bitrate. I motsetning til dette opprettholder tradisjonell JPEG-komprimering relativt stabil kvalitet over flere komprimeringer, med mindre bitraten er høy. Dette mønsteret tjener som et eksempel på hvordan rekompimering etterlater et målbart spor i AI-baserte kodeker, og tilbyr en potensiell rettsmedisinsk signal.

I bildet over ser vi en graf som viser rate-distortion-kurver for JPEG AI; en annen AI-basert kodek; og tradisjonell JPEG, og finner at JPEG AI og den neurale kodeken viser en jevn nedgang i PSNR over alle bitrater, mens tradisjonell JPEG-komprimering bare viser merkbar forverring ved høyere bitrater. Dette mønsteret gir en kvantifiserbar signal som kan brukes til å flagge rekompimerte JPEG AI-bilder.

Ved å trekke ut hvordan bitrate og bildekvalitet utvikler seg over flere komprimeringsrunder, konstruerte forfatterne en signatur som hjelper å flagge om et bilde har blitt rekompimert, og tilbyr en potensiell praktisk rettsmedisinsk hint i sammenheng med JPEG AI.

Kvantiseringsmønster

Som vi så tidligere, er en av de mer utfordrende rettsmedisinske problemene som JPEG AI reiser, dens visuelle likhet med syntetiske bilder generert av diffusjonsmodeller. Begge systemene bruker encoder–decoder-arkitekturer som prosesserer bilder i et komprimert latent rom og ofte etterlater subtile upsampling-artefakter.

Disse felles trekkene kan forvirre detekterer – selv de som er trent på JPEG AI-bilder. Imidlertid er det en viktig strukturell forskjell: JPEG AI anvender kvantisering, et steg som runder latentverdier til diskrete nivåer for effektiv komprimering, mens generative modeller vanligvis ikke gjør det.

Den nye artikkelen bruker denne forskjellen til å designe en rettsmedisinsk hint som indirekte tester på tilstedeværelsen av kvantisering. Metoden analyserer hvordan den latente representasjonen av et bilde reagerer på avrunding, under antagelse av at hvis et bilde allerede har blitt kvantisert, vil dets latente struktur vise en målbar mønster av justering med avrundede verdier.

Disse mønsterene, selv om de er usynlige for øyet, produserer statistiske forskjeller som kan hjelpe å skille komprimerte ekte bilder fra helt syntetiske bilder.

Et eksempel på gjennomsnittlige Fourier-spektra viser at både JPEG AI-komprimerte bilder og de generert av diffusjonsmodeller som Midjourney-V5 og Stable Diffusion XL viser regelmessige grid-lignende mønster i frekvensdomenet – artefakter som vanligvis er knyttet til upsampling. I motsetning til dette mangler ekte bilder disse mønsterne. Denne overlappende spektrale struktur hjelper å forklare hvorfor rettsmedisinske verktøy ofte forvirrer komprimerte ekte bilder med syntetiske bilder.

Viktig er at forfatterne viser at denne hinten fungerer over forskjellige generative modeller og forblir effektiv selv når komprimering er sterk nok til å nullstille hele seksjoner av det latente rommet. I motsetning til dette viser syntetiske bilder mye svakere reaksjoner på denne avrundingstesten, og tilbyr en praktisk måte å skille mellom de to.

Resultatet er ment som et lettvekts- og tolkningsfullt verktøy som tar sikte på den grunnleggende forskjellen mellom komprimering og generering, snarere enn å stole på skjøre overflataktige artefakter.

Data og tester

Komprimering

For å evaluere om deres fargekorrelasjons-hint kunne pålitelig detektere JPEG AI-komprimering (dvs. en første pass fra ukomprimert kilde), testet forfatterne det på høykvalitets ukomprimerte bilder fra RAISE-databasen, komprimerte disse ved forskjellige bitrater, og brukte JPEG AI-referanseimplementeringen.

De trente en enkel random forest på de statistiske mønsterne av fargekanalkorrelasjoner (spesielt hvordan restende støy i hver kanal sammenfalt med de andre) og sammenlignet dette med en ResNet50 neural nettverk trent direkte på bildepunktene.

Deteksjonsnøyaktighet for JPEG AI-komprimering ved å bruke fargekorrelasjons-egenskaper, sammenlignet over flere bitrater. Metoden er mest effektiv ved lavere bitrater, hvor komprimeringsartefakter er sterkere, og viser bedre generalisering til ukjente komprimeringsnivåer enn den grundleggende ResNet50-modellen.

Mens ResNet50 oppnådde høyere nøyaktighet når testdataen tett sammenfalt med dens treningbetingelser, hadde den vanskeligheter med å generalisere over forskjellige komprimeringsnivåer. Fargekorrelasjonsbasert tilnærming, selv om den var mye enklere, viste seg å være mer konsistent over bitrater, spesielt ved lavere komprimeringsrater hvor JPEG AI’s forbehandling hadde en sterkere effekt.

Disse resultater antyder at selv uten dyp læring er det mulig å detektere JPEG AI-komprimering ved å bruke statistiske hint som forblir tolkningsfulle og robuste.

Rekompimering

For å evaluere om JPEG AI-rekompimering kan detekteres pålitelig, testet forskerne rate-distortion-hinten på en samling av bilder komprimerte ved forskjellige bitrater – noen bare en gang og andre en andre gang med JPEG AI.

Denne metoden involverte å trekke ut en 17-dimensjonal egenskapsvektor for å spore hvordan bildets bitrate og PSNR utviklet seg over tre komprimeringspass. Denne egenskapssettet fanget hvordan mye kvalitet gikk tapt ved hver fase, og hvordan de latente og hyperprior ratene oppførte seg—målinger som tradisjonelle piksel-baserte metoder ikke lett kan nå.

Forskerne trente en random forest på disse egenskapene og sammenlignet dens ytelse med en ResNet50 trent på bildepunktene:

Resultater for klassifikasjonsnøyaktigheten av en random forest trent på rate-distortion-egenskaper for å detektere om et JPEG AI-bilde har blitt rekompimert. Metoden fungerer best når den første komprimeringen er sterk (dvs. ved lavere bitrater), og konsekvent overgår en piksel-basert ResNet50 – spesielt i tilfeller hvor den andre komprimeringen er mildere enn den første.

Random foresten viste seg å være merkbart effektiv når den første komprimeringen var sterk (dvs. ved lavere bitrater), og avslørte tydelige forskjeller mellom enkelt- og dobbelt-komprimerte bilder. Som med den forrige hinten, hadde ResNet50-iterasjonen vanskeligheter med å generalisere, spesielt når testet på komprimeringsnivåer den ikke hadde sett under trening.

Rate-distortion-egenskapene, på den annen side, forble stabile over et bredt spekter av scenarier. Merkverdig nok fungererte hinten også når den ble brukt på en annen AI-basert kodek, noe som antyder at tilnærmingen generaliserer utenfor JPEG AI.

JPEG AI og syntetiske bilder

For den siste testrunden, testet forfatterne om deres kvantisering-baserte egenskaper kunne skille mellom JPEG AI-komprimerte bilder og helt syntetiske bilder generert av modeller som Midjourney, Stable Diffusion, DALL-E 2, Glide, og Adobe Firefly.

For dette, brukte forskerne en undergruppe av Synthbuster-databasen, som blandet ekte fotografier fra RAISE-databasen med genererte bilder fra en rekke diffusjons- og GAN-baserte modeller.

Eksempler på syntetiske bilder i Synthbuster, generert ved hjelp av tekstpromter inspirert av naturlige fotografier fra RAISE-1k-databasen. Bildene ble generert med forskjellige diffusjonsmodeller, med promter designet for å produsere fotorealistiske innhold og teksturer snarere enn stiliserte eller kunstneriske gjengivelser. Kilde: https://ieeexplore.ieee.org/document/10334046

De ekte bildene ble komprimerte med JPEG AI ved flere bitratenivåer, og klassifikasjonen ble stilt som en toveisoppgave: enten JPEG AI versus en bestemt generator, eller en bestemt bitrate versus Stable Diffusion XL.

Kvantiserings-egenskapene (korrelasjoner trekke fra latente representasjoner) ble beregnet fra et fast 256×256-område og matet inn i en random forest-klassifikator. Som en grundleggende sammenligning, ble en ResNet50 trent på piksel-punkt fra samme data.

Klassifikasjonsnøyaktighet av en random forest som bruker kvantisering-egenskaper for å skille JPEG AI-komprimerte bilder fra syntetiske bilder.

Over de fleste betingelser, overgikk kvantisering-basert tilnærming den grundleggende ResNet50, spesielt ved lavere bitrater hvor komprimeringsartefakter var sterkere.

Forfatterne slår fast:

‘Den grundleggende ResNet50 utfører best for Glide-bilder med en nøyaktighet på 66,1%, men ellers generaliserer den dårligere enn kvantisering-egenskapene. Kvantiserings-egenskapene viser en god generalisering over komprimeringsstyrker og generatortyper.

‘Viktigheten av koeffisientene som kvantiseres til null er vist i den respektable ytelsen til de avkortede [egenskapene], som i mange tilfeller utfører sammenlignbare med ResNet50-klassifikatoren.

‘Men likevel utfører kvantisering-egenskaper som bruker den ukortede, fulle integer-[vektoren] merkbart bedre. Disse resultatene bekrefter at mengden nuller etter kvantisering er en viktig hint for å skille AI-komprimerte og AI-genererte bilder.

‘Likevel viser det også at andre faktorer bidrar. Nøyaktigheten av den fulle vektoren for å detektere JPEG AI er for alle bitrater over 91,0%, og sterkere komprimering fører til høyere nøyaktigheter.’

En projeksjon av egenskapsrommet ved hjelp av UMAP viste en tydelig skille mellom JPEG AI og syntetiske bilder, med lavere bitrater som økte avstanden mellom klassene. En konsekvent outlier var Glide, hvis bilder klumpet seg annerledes og hadde den laveste deteksjonsnøyaktigheten av alle generatorene testet.

To-dimensjonal UMAP-visualisering av JPEG AI-komprimerte og syntetiske bilder, basert på kvantisering-egenskaper. Den venstre grafen viser at lavere JPEG AI-bitrater skaper større skille fra syntetiske bilder; den høyre grafen viser hvordan bilder fra forskjellige generatorene klumper seg distinkt i egenskapsrommet.

Til slutt evaluerte forfatterne hvor godt egenskapene holdt seg under typisk etterbehandling, som JPEG-rekompimering eller nedskalering. Mens ytelsen sank med tyngre prosessering, var fallet gradvis, og antyder at tilnærmingen beholder en viss robusthet selv under degraderte betingelser.

Evaluering av kvantisering-egenskaps robusthet under etterbehandling, inkludert JPEG-rekompimering (JPG) og bilde-omskalering (RS).

Konklusjon

Det er ikke garantert at JPEG AI vil oppnå bredt utbredelse. For det første er det nok infrastruktur-gjeld til å påføre friksjon på enhver ny kodek; og selv en ‘konvensjonell’ kodek med en fin arv og bred enighet om dens verdi, som AV1, har en hard tid med å fortrenge etablerte metoder.

Med hensyn til systemets potensielle konflikt med AI-generatorene, kan de karakteristiske kvantisering-artefaktene som hjelper den nåværende generasjonen av AI-bilde-detektorer, bli redusert eller erstattet av spor av en annen type, i senere systemer (under antagelse av at AI-generatorene alltid vil etterlate rettsmedisinske spor, noe som ikke er sikkert).

Dette ville bety at JPEG AI’s egne kvantiseringsegenskaper, kanskje sammen med andre hint identifisert av den nye artikkelen, kanskje ikke ender opp med å kollidere med den rettsmedisinske sporet av de mest effektive nye generative AI-systemene.

Hvis, derimot, JPEG AI fortsetter å fungere som en de facto ‘AI-vask’, og betydelig utvisker skillet mellom ekte og genererte bilder, ville det være vanskelig å fremme et overbevisende argument for dens oppakning.

Først publisert tirsdag, 8. april 2025