Andersons hoek
JPEG AI vervaagt de grens tussen echt en synthetisch

In februari van dit jaar werd de JPEG AI internationale standaard gepubliceerd, na beberapa jaren onderzoek gericht op het gebruik van machine learning-technieken om een kleinere en gemakkelijker overdraagbare en opslaanbare image codec te produceren, zonder verlies van perceptuele kwaliteit.

Uit de officiële publicatiestroom voor JPEG AI, een vergelijking tussen Peak Signal-to-Noise Ratio (PSNR) en JPEG AI’s ML-augmenteerde aanpak. Bron: https://jpeg.org/jpegai/documentation.html
Een mogelijke reden waarom deze ontwikkeling weinig aandacht kreeg, is dat de core PDF’s voor deze aankondiging (ironisch genoeg) niet beschikbaar waren via gratis toegangsportalen zoals Arxiv. Niettemin had Arxiv al een aantal studies gepubliceerd die het belang van JPEG AI onderzochten vanuit verschillende aspecten, waaronder de methode’s ongebruikelijke compressie-artefacten en zijn belang voor forensische analyse.

Een studie vergeleek compressie-artefacten, waaronder die van een eerdere versie van JPEG AI, en vond dat de nieuwe methode de neiging had om tekst te vervagen – geen kleinigheid in gevallen waarin de codec een bijdrage kan leveren aan een bewijsketen. Bron: https://arxiv.org/pdf/2411.06810
Omdat JPEG AI afbeeldingen verandert op manieren die de artefacten van synthetische afbeeldingsgeneratoren imiteren, hebben bestaande forensische tools moeite om echt van nepbeelden te onderscheiden:

Na JPEG AI-compressie kunnen state-of-the-art algoritmen geen authentieke inhoud meer betrouwbaar onderscheiden van gemanipuleerde gebieden in lokaliseringskaarten, volgens een recente publicatie (maart 2025). De bronvoorbeelden links zijn gemanipuleerde/nepbeelden, waarin de gemanipuleerde gebieden duidelijk zijn aangegeven met standaard forensische technieken (middenafbeelding). Echter, JPEG AI-compressie geeft de nepbeelden een laag van geloofwaardigheid (rechtsafbeelding). Bron: https://arxiv.org/pdf/2412.03261
Een reden hiervoor is dat JPEG AI is getraind met een modelarchitectuur die lijkt op die van generatieve systemen die forensische tools proberen te detecteren:

Het nieuwe artikel illustreert de overeenkomst tussen de methodologieën van AI-gedreven beeldcompressie en daadwerkelijk AI-gegenereerde beelden. Bron: https://arxiv.org/pdf/2504.03191
Dit komt doordat beide modellen enkele vergelijkbare onderliggende visuele kenmerken kunnen produceren, vanuit een forensisch oogpunt.
Quantization
Deze overeenkomst treedt op vanwege quantization, die zowel in beide architectuur als in machine learning wordt gebruikt, zowel als een methode om continue gegevens om te zetten in discrete gegevenspunten, en als een optimalisatietechniek die de bestandsgrootte van een getraind model aanzienlijk kan verkleinen (enthousiastelingen van beeldsynthese zullen bekend zijn met de wachttijd tussen een onhandige officiële modelrelease en een community-geleide gequantiseerde versie die op lokale hardware kan worden uitgevoerd).
In deze context verwijst quantization naar het proces van omzetting van de continue waarden in de latent representatie van de afbeelding naar vaste, discrete stappen. JPEG AI gebruikt dit proces om de hoeveelheid gegevens die nodig zijn om een afbeelding op te slaan of over te dragen te verminderen, door de interne numerieke representatie te vereenvoudigen.
Hoewel quantization de codering efficiënter maakt, legt het ook structurele regelmatigheden op die kunnen lijken op de artefacten die achtergelaten worden door generatieve modellen – subtiel genoeg om perceptie te ontwijken, maar storend voor forensische tools.
Als reactie hierop stellen de auteurs van een nieuw artikel getiteld Drie forensische aanwijzingen voor JPEG AI-afbeeldingen voorstelbaar, niet-neurale technieken voor die JPEG AI-compressie detecteren; bepalen of een afbeelding opnieuw is gecomprimeerd; en onderscheid maken tussen gecomprimeerde echte afbeeldingen en die volledig door AI gegenereerd.
Methode
Kleurcorrelaties
Het artikel stelt drie ‘forensische aanwijzingen’ voor die specifiek zijn voor JPEG AI-afbeeldingen: kanaalcorrelaties, die worden geïntroduceerd tijdens de voorverwerkingsstappen van JPEG AI; meetbare distorties in beeldkwaliteit over herhaalde compressies die recompressiegebeurtenissen onthullen; en latent-ruimtekwantiseringspatronen die helpen om gecomprimeerde echte afbeeldingen te onderscheiden van die gegenereerd door AI-modellen.
Met betrekking tot de kleurcorrelatiebenadering introduceert de voorverwerkingspijplijn van JPEG AI statistische afhankelijkheden tussen de kleurkanalen van de afbeelding, waardoor een handtekening ontstaat die als een forensische aanwijzing kan dienen.
JPEG AI converteert RGB-afbeeldingen naar de YUV-kleurruimte en voert 4:2:0 chromasubsampling uit, wat het downsamplen van de chrominantiekanalen voor compressie inhoudt. Dit proces leidt tot subtiele correlaties tussen de hoogfrequente residuen van de rode, groene en blauwe kanalen – correlaties die niet aanwezig zijn in ongecomprimeerde afbeeldingen en die in sterkte verschillen van die geproduceerd door traditionele JPEG-compressie of synthetische afbeeldingsgeneratoren.
<img class="size-full wp-image-215539" src="https://www.unite.ai/wp-content/uploads/2025/04/color-correlations.jpg" alt="Een vergelijking van hoe JPEG AI-compressie de kleurcorrelaties in afbeeldingen verandert, met het rode kanaal als voorbeeld. Paneel (a) vergelijkt ongecomprimeerde afbeeldingen met JPEG AI-gecomprimeerde afbeeldingen, en toont aan dat compressie de interkanaalcorrelatie aanzienlijk verhoogt. Paneel (b) isoleert het effect van de voorverwerking van JPEG AI – alleen de kleuromvorming en subsampling – en toont aan dat zelfs deze stap alleen al de correlaties aanzienlijk verhoogt. Paneel (c) toont aan dat traditionele JPEG-compressie de correlaties ook enigszins verhoogt, maar niet in dezelfde mate. Paneel (d) onderzoekt synthetische afbeeldingen, met Midjourney-V5 en Adobe Firefly die matige correlatieverhogingen vertonen, terwijl anderen dichter bij ongecomprimeerde niveaus blijven.” width=”1200″ height=”337″ /> Een vergelijking van hoe JPEG AI-compressie de kleurcorrelaties in afbeeldingen verandert..
Bovenstaand zien we een vergelijking uit het artikel dat aantoont hoe JPEG AI-compressie de kleurcorrelaties in afbeeldingen verandert, met het rode kanaal als voorbeeld.
Paneel A vergelijkt ongecomprimeerde afbeeldingen met JPEG AI-gecomprimeerde afbeeldingen, en toont aan dat compressie de interkanaalcorrelatie aanzienlijk verhoogt; paneel B isoleert het effect van de voorverwerking van JPEG AI – alleen de kleuromvorming en subsampling – en toont aan dat zelfs deze stap alleen al de correlaties aanzienlijk verhoogt; paneel C toont aan dat traditionele JPEG-compressie de correlaties ook enigszins verhoogt, maar niet in dezelfde mate; en paneel D onderzoekt synthetische afbeeldingen, met Midjourney-V5 en Adobe Firefly die matige correlatieverhogingen vertonen, terwijl anderen dichter bij ongecomprimeerde niveaus blijven.
Rate-Distortion
De rate-distortion-aanwijzing identificeert JPEG AI-recompressie door te volgen hoe de beeldkwaliteit, gemeten door Peak Signal-to-Noise Ratio (PSNR), afneemt in een voorspelbaar patroon over meerdere compressiepassen.
Het onderzoek beweert dat herhaaldelijk comprimeren van een afbeelding met JPEG AI leidt tot progressief kleinere, maar nog steeds meetbare, verliezen in beeldkwaliteit, zoals gemeten door PSNR, en dat deze geleidelijke degradatie de basis vormt van een forensische aanwijzing voor het detecteren van recompressie.
In tegenstelling tot traditionele JPEG, waar eerdere methoden veranderingen in specifieke afbeeldingsblokken volgden, vereist JPEG AI een andere benadering, vanwege zijn neurale compressiearchitectuur; daarom stellen de auteurs voor om te volgen hoe zowel de bitrate als de PSNR evolueren over opeenvolgende compressies. Elke ronde van compressie verandert de afbeelding minder dan de vorige, en deze afnemende verandering (wanneer geplot tegen bitrate) kan onthullen of een afbeelding meerdere compressiestappen heeft ondergaan:

Een illustratie van hoe herhaalde compressie de beeldkwaliteit beïnvloedt over verschillende codecs, met resultaten van JPEG AI en een neurale codec ontwikkeld op https://arxiv.org/pdf/1802.01436; beide vertonen een gestage daling in PSNR met elke extra compressie, zelfs bij lagere bitrates. In tegenstelling tot traditionele JPEG-compressie, die relatief stabiele kwaliteit behoudt over meerdere compressies, tenzij de bitrate hoog is.
In de afbeelding hierboven zien we de geplote rate-distortion-krommen voor JPEG AI; een tweede AI-gebaseerde codec; en traditionele JPEG, waaruit blijkt dat JPEG AI en de neurale codec een consistente daling in PSNR vertonen over alle bitrates, terwijl traditionele JPEG-compressie alleen een merkbare degradatie vertoont bij veel hogere bitrates. Dit gedrag biedt een kwantificeerbaar signaal dat kan worden gebruikt om gerecomprimeerde JPEG AI-afbeeldingen te signaleren.
Door te volgen hoe de bitrate en de beeldkwaliteit evolueren over meerdere compressieronden, construeerden de auteurs een handtekening die helpt bij het detecteren of een afbeelding is gerecomprimeerd, waardoor een potentieel praktisch forensisch signaal ontstaat in de context van JPEG AI.
Quantization
Zoals we eerder zagen, is een van de moeilijkere forensische problemen die door JPEG AI worden opgeworpen, zijn visuele gelijkenis met synthetische afbeeldingen gegenereerd door diffusiemodellen. Beide systemen gebruiken encoder-decoder-architecturen die afbeeldingen verwerken in een gecomprimeerde latent ruimte en vaak subtiele upsampling-artefacten achterlaten.
Deze gedeelde kenmerken kunnen detectors verwarren – zelfs die opnieuw zijn getraind op JPEG AI-afbeeldingen. Echter, een belangrijk structureel verschil blijft bestaan: JPEG AI past quantization toe, een stap die latent waarden afrondt tot discrete niveaus voor efficiënte compressie, terwijl generatieve modellen dit typisch niet doen.
Het nieuwe artikel gebruikt dit onderscheid om een forensische aanwijzing te ontwerpen die indirect test op de aanwezigheid van quantization. De methode analyseert hoe de latent representatie van een afbeelding reageert op afronding, onder de aanname dat als een afbeelding al is gequantiseerd, zijn latent structuur een meetbaar patroon van uitlijning met afgeronde waarden zal vertonen.
Deze patronen, hoewel onzichtbaar voor het oog, produceren statistische verschillen die kunnen helpen om gecomprimeerde echte afbeeldingen te onderscheiden van volledig synthetische afbeeldingen.

Een voorbeeld van gemiddelde Fourier-spectra toont aan dat zowel JPEG AI-gecomprimeerde afbeeldingen als die gegenereerd door diffusiemodellen zoals Midjourney-V5 en Stable Diffusion XL regelmatige grid-achtige patronen vertonen in de frequentiedomein – artefacten die gewoonlijk worden gelinkt aan upsampling. In tegenstelling tot echte afbeeldingen, die deze patronen ontbreken. Deze overlap in spectrale structuur helpt verklaren waarom forensische tools vaak gecomprimeerde echte afbeeldingen verwarren met synthetische afbeeldingen.
Belangrijk is dat de auteurs aantonen dat deze aanwijzing werkt over verschillende generatieve modellen en effectief blijft, zelfs wanneer compressie sterk genoeg is om hele delen van de latent ruimte te wissen. In tegenstelling tot synthetische afbeeldingen, die veel zwakkere reacties op deze afrondingstest vertonen, waardoor een praktische manier ontstaat om tussen de twee te onderscheiden.
Het resultaat is bedoeld als een lichtgewicht en interpreteerbare tool die zich richt op het fundamentele verschil tussen compressie en generatie, in plaats van te vertrouwen op broze oppervlakte-artefacten.
Gegevens en tests
Compressie
Om te evalueren of hun kleurcorrelatie-aanwijzing betrouwbaar JPEG AI-compressie kon detecteren (d.w.z. een eerste compressie vanuit een ongecomprimeerde bron), testten de auteurs deze op hoge kwaliteit ongecomprimeerde afbeeldingen uit de RAISE-dataset, die op verschillende bitrates werden gecomprimeerd met de JPEG AI-referentie-implementatie.
Ze trainden een eenvoudige random forest op de statistische patronen van kleurkanaalcorrelaties (met name hoe residuël lawaai in elk kanaal uitgelijnd was met de anderen) en vergeleken deze met een ResNet50 neurale netwerk getraind op de afbeeldingspixels.

Detectie-accuratesse van JPEG AI-compressie met behulp van kleurcorrelatie-kenmerken, vergeleken over meerdere bitrates. De methode is het meest effectief bij lagere bitrates, waar compressie-artefacten sterker zijn, en toont betere generalisatie naar ongeziene compressieniveaus dan de ResNet50-basismodel.
Hoewel de ResNet50 een hogere nauwkeurigheid bereikte wanneer de testgegevens dicht bij de trainingsomstandigheden lagen, had het moeite om te generaliseren over verschillende compressieniveaus. De correlatie-gebaseerde benadering, hoewel veel eenvoudiger, bleek consistenter over bitrates, vooral bij lagere compressieniveaus waar de voorverwerking van JPEG AI een sterker effect had.
Deze resultaten suggereren dat zelfs zonder diepe leermethoden, het mogelijk is om JPEG AI-compressie te detecteren met behulp van statistische aanwijzingen die interpreteerbaar en robuust blijven.
Recompressie
Om te evalueren of JPEG AI-recompressie betrouwbaar kan worden gedetecteerd, testten de onderzoekers de rate-distortion-aanwijzing op een set afbeeldingen die op verschillende bitrates waren gecomprimeerd – sommige slechts eenmaal en andere tweemaal met JPEG AI.
Deze methode omvatte het extraheren van een 17-dimensionale kenmerkvector om te volgen hoe de bitrate en PSNR van de afbeelding evolueerden over drie compressiepassen. Deze kenmerkset ving de kwaliteitsverlies bij elke stap en hoe de latent en hyperprior tarieven zich gedroegen – metrics die traditionele pixel-gebaseerde methoden niet gemakkelijk kunnen bereiken.
De onderzoekers trainden een random forest op deze kenmerken en vergeleken de prestaties met een ResNet50 getraind op afbeeldingspatches:

Resultaten voor de classificatie-accuratesse van een random forest getraind op rate-distortion-kenmerken voor het detecteren of een JPEG AI-afbeelding is gerecomprimeerd. De methode presteert het beste wanneer de initiële compressie sterk is (d.w.z. bij lagere bitrates), en presteert dan consistent beter dan een pixel-gebaseerde ResNet50 – vooral in gevallen waarin de tweede compressie milder is dan de eerste.
De random forest bleek opvallend effectief wanneer de initiële compressie sterk was (d.w.z. bij lagere bitrates), waardoor duidelijke verschillen tussen enkelvoudig en dubbel gecomprimeerde afbeeldingen zichtbaar werden. Net als bij de vorige aanwijzing, had de ResNet50 moeite om te generaliseren, vooral wanneer getest op compressieniveaus die het niet had gezien tijdens de training.
De rate-distortion-kenmerken bleken stabiel over een breed scala aan scenario’s. Opmerkelijk was dat de aanwijzing werkte, zelfs wanneer toegepast op een andere AI-gebaseerde codec, wat suggereert dat de benadering generaliseert voorbij JPEG AI.
JPEG AI en synthetische afbeeldingen
Voor de laatste testronde evalueerden de auteurs of hun kwantiserings-gebaseerde kenmerken JPEG AI-gecomprimeerde afbeeldingen kunnen onderscheiden van volledig synthetische afbeeldingen gegenereerd door modellen zoals Midjourney, Stable Diffusion, DALL-E 2, Glide, en Adobe Firefly.
Voor dit doel gebruikten de onderzoekers een subset van de Synthbuster-dataset, waarin echte foto’s uit de RAISE-database werden gemengd met gegenereerde afbeeldingen van een reeks diffusie- en GAN-gebaseerde modellen.

Voorbeelden van synthetische afbeeldingen in Synthbuster, gegenereerd met behulp van tekstprompts geïnspireerd door natuurlijke foto’s uit de RAISE-1k-dataset. De afbeeldingen werden gemaakt met verschillende diffusiemodellen, met prompts ontworpen om fotorealistische inhoud en texturen te produceren in plaats van gestileerde of artistieke weergaven. Bron: https://ieeexplore.ieee.org/document/10334046
De echte afbeeldingen werden gecomprimeerd met JPEG AI op verschillende bitrates, en de classificatie werd geformuleerd als een tweezijdige taak: ofwel JPEG AI versus een specifieke generator, ofwel een specifiek bitrate versus Stable Diffusion XL.
De kwantiseringskenmerken (correlaties geëxtraheerd uit latent representaties) werden berekend uit een vaste 256×256 regio en gevoed aan een random forest-classificator. Als basismodel werd een ResNet50 getraind op pixel-patches uit dezelfde gegevens.

Classificatie-accuratesse van een random forest met behulp van kwantiseringskenmerken om JPEG AI-gecomprimeerde afbeeldingen te onderscheiden van synthetische afbeeldingen.
Over de meeste condities heen presteerde de kwantiserings-gebaseerde benadering beter dan de ResNet50-basismodel, vooral bij lagere bitrates waar compressie-artefacten sterker waren.
De auteurs verklaren:
‘De basismodel ResNet50 presteert het beste voor Glide-afbeeldingen met een accuratesse van 66,1%, maar anders generaliseert het slechter dan de kwantiseringskenmerken. De kwantiseringskenmerken vertonen een goede generalisatie over compressiesterktes en generatortypen.
‘Het belang van de coëfficiënten die zijn gequantiseerd tot nul wordt aangetoond door de respectabele prestaties van de getruncateerde [kenmerken], die in veel gevallen vergelijkbaar presteren met de ResNet50-classificator.
‘Echter, kwantiseringskenmerken die het ongetruncateerde, volledige gehele [vector] gebruiken, presteren nog steeds opvallend beter. Deze resultaten bevestigen dat de hoeveelheid nullen na kwantiseren een belangrijke aanwijzing is voor het onderscheiden van AI-gecomprimeerde en AI-gegenereerde afbeeldingen.
‘Niettemin toont het ook aan dat andere factoren bijdragen. De accuratesse van de volledige vector voor het detecteren van JPEG AI is voor alle bitrates boven de 91,0%, en sterker compressie leidt tot hogere accuratesse.’
Een projectie van de kenmerkruimte met behulp van UMAP toonde een duidelijke scheiding tussen JPEG AI- en synthetische afbeeldingen, waarbij lagere bitrates de afstand tussen klassen vergrootten. Een consistente outlier was Glide, waarvan de afbeeldingen anders clusterden en de laagste detectie-accuratesse van alle geteste generatoren hadden.

Tweedimensionale UMAP-weergave van JPEG AI-gecomprimeerde en synthetische afbeeldingen, op basis van kwantiseringskenmerken. Het linkse plot toont aan dat lagere JPEG AI-bitrates grotere scheiding van synthetische afbeeldingen creëren; het rechterplot toont hoe afbeeldingen van verschillende generatoren duidelijk clusteren binnen de kenmerkruimte.
Ten slotte evalueerden de auteurs hoe goed de kenmerken standhielden onder typische post-processing, zoals JPEG-recompressie of downsampling. Hoewel de prestaties daalden met zwaardere verwerking, was de daling geleidelijk, wat suggereert dat de benadering enige robuustheid behoudt, zelfs onder verslechterde omstandigheden.

Evaluatie van de robuustheid van kwantiseringskenmerken onder post-verwerking, inclusief JPEG-recompressie (JPG) en afbeeldingsverkleining (RS).
Conclusie
Het is niet gegarandeerd dat JPEG AI breed zal worden geadopteerd. Enerzijds is er genoeg infrastructuurachterstand om elke nieuwe codec tegen te werken; en zelfs een ‘conventionele’ codec met een goede reputatie en brede consensus over zijn waarde, zoals AV1, heeft moeite om lang gevestigde methoden te verdringen.
Met betrekking tot het potentieel van het systeem om in conflict te komen met AI-generatoren, kunnen de karakteristieke kwantiseringsartefacten die de huidige generatie van AI-afbeeldingdetectoren helpen, mogelijk worden verzwakt of uiteindelijk vervangen door sporen van een andere aard, in latere systemen (onder de aanname dat AI-generatoren altijd forensische sporen achterlaten, wat niet zeker is).
Dit zou betekenen dat de kwantiseringskenmerken van JPEG AI, mogelijk samen met andere aanwijzingen geïdentificeerd door het nieuwe artikel, mogelijk niet in conflict komen met het forensische spoor van de meest effectieve nieuwe generatieve AI-systemen.
Als JPEG AI echter blijft functioneren als een de facto ‘AI-was’, waardoor de onderscheiding tussen echte en gegenereerde afbeeldingen aanzienlijk vervaagt, zou het moeilijk zijn om een overtuigend argument voor zijn adoptie te maken.
Origineel gepubliceerd op dinsdag 8 april 2025












