Andersons Blickwinkel

JPEG AI verwischt die Grenze zwischen Real und Synthetic

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

Im Februar dieses Jahres wurde der JPEG AI internationale Standard veröffentlicht, nach mehrjähriger Forschung, die darauf abzielte, maschinelles Lernen zu verwenden, um einen kleineren und leichter übertragbaren und speicherbaren Bildcodec zu produzieren, ohne einen Verlust in der wahrgenommenen Qualität.

Aus dem offiziellen Veröffentlichungsstrom für JPEG AI, ein Vergleich zwischen Peak Signal-to-Noise Ratio (PSNR) und JPEG AI’s ML-ergänztem Ansatz. Quelle: https://jpeg.org/jpegai/documentation.html

Ein möglicher Grund, warum diese Ankündigung wenig Aufmerksamkeit erregte, ist, dass die Kern-PDFs für diese Ankündigung (ironischerweise) nicht über kostenlose Zugangsportale wie Arxiv verfügbar waren. Dennoch hatte Arxiv bereits eine Reihe von Studien veröffentlicht, die die Bedeutung von JPEG AI in verschiedenen Aspekten untersuchten, einschließlich der Methode der ungewöhnlichen Komprimierungsartefakte und ihrer Bedeutung für die Forensik.

Eine Studie verglich Komprimierungsartefakte, einschließlich derer einer früheren Entwurfsversion von JPEG AI, und fand heraus, dass die neue Methode die Tendenz hatte, Text zu verwischen – kein unwichtiger Punkt in Fällen, in denen der Codec zu einer Beweiskette beitragen könnte. Quelle: https://arxiv.org/pdf/2411.06810

Da JPEG AI Bilder auf eine Weise verändert, die den Artefakten von synthetischen Bildgeneratoren ähnelt, haben bestehende Forensik-Tools Schwierigkeiten, echte von gefälschten Bildern zu unterscheiden:

Nach der JPEG-AI-Komprimierung können state-of-the-art-Algorithmen authentischen Inhalt von manipulierten Bereichen in Lokalisierungskarten nicht mehr zuverlässig trennen, laut einem aktuellen Paper (März 2025). Die Quellbeispiele auf der linken Seite sind manipulierte/ gefälschte Bilder, bei denen die manipulierten Bereiche unter Standard-Forensik-Methoden klar abgegrenzt sind (Bild in der Mitte). Nach der JPEG-AI-Komprimierung erhält das gefälschte Bild jedoch eine Schicht der Glaubwürdigkeit (Bild rechts). Quelle: https://arxiv.org/pdf/2412.03261

Ein Grund dafür ist, dass JPEG AI mit einer Modellarchitektur trainiert wird, die ähnlich wie diejenigen ist, die von generativen Systemen verwendet werden, die Forensik-Tools erkennen sollen:

Das neue Paper illustriert die Ähnlichkeit zwischen den Methoden der AI-getriebenen Bildkomprimierung und tatsächlichen AI-generierten Bildern. Quelle: https://arxiv.org/pdf/2504.03191

Daher können beide Modelle einige ähnliche zugrunde liegende visuelle Merkmale produzieren, aus forensischer Sicht.

Quantisierung

Diese Überschneidung tritt auf, weil die Quantisierung, die in beiden Architekturen verwendet wird, als Methode zur Umwandlung von kontinuierlichen Daten in diskrete Datenpunkte und als Optimierungstechnik verwendet wird, die die Dateigröße eines trainierten Modells erheblich reduzieren kann (begeisterte Bildsynthese-Enthusiasten werden mit dem Warten zwischen einer unhandlichen offiziellen Modellveröffentlichung und einer communitygeführten quantisierten Version vertraut sein, die auf lokalen Hardware läuft).

In diesem Zusammenhang bezieht sich die Quantisierung auf den Prozess der Umwandlung der kontinuierlichen Werte in der latenten Darstellung des Bildes in feste, diskrete Schritte. JPEG AI verwendet diesen Prozess, um die Menge an Daten zu reduzieren, die zum Speichern oder Übertragen eines Bildes benötigt wird, indem die interne numerische Darstellung vereinfacht wird.

Obwohl die Quantisierung die Kodierung effizienter macht, verursacht sie auch strukturelle Regelmäßigkeiten, die den Artefakten von generativen Modellen ähneln – subtil genug, um die Wahrnehmung zu vermeiden, aber störend für Forensik-Tools.

Als Reaktion darauf schlagen die Autoren eines neuen Werks mit dem Titel Drei forensische Hinweise für JPEG-AI-Bilder interpretierbare, nicht-neuronale Techniken vor, die die JPEG-AI-Komprimierung erkennen; bestimmen, ob ein Bild rekomprimiert wurde; und komprimierte reale Bilder von denen unterscheiden, die vollständig von AI generiert wurden.

Methode

Farbkorrelationen

Das Paper schlägt drei ‘forensische Hinweise’ vor, die auf JPEG-AI-Bilder zugeschnitten sind: Farbkanalkorrelationen, die während der Vorverarbeitungsschritte von JPEG AI eingeführt werden; messbare Verzerrungen in der Bildqualität über wiederholte Komprimierungen, die Rekompimiervorgänge aufdecken; und Quantisierungsmuster im Latentraum, die helfen, zwischen Bildern zu unterscheiden, die mit JPEG AI komprimiert und denen, die von AI-Modellen generiert wurden.

In Bezug auf den farbkorrelationsbasierten Ansatz führt die Vorverarbeitungspipeline von JPEG AI statistische Abhängigkeiten zwischen den Farbkanälen des Bildes ein, was eine Signatur erzeugt, die als forensischer Hinweis dienen kann.

JPEG AI wandelt RGB-Bilder in den YUV-Farbraum um und führt eine 4:2:0-Chromasubsampling durch, bei der die Chrominanzkanäle vor der Komprimierung heruntergesampled werden. Dieser Prozess führt zu subtilen Korrelationen zwischen den Hochfrequenzresten der roten, grünen und blauen Kanäle – Korrelationen, die in unkomprimierten Bildern nicht vorhanden sind und die sich in ihrer Stärke von denen unterscheiden, die durch traditionelle JPEG-Komprimierung oder synthetische Bildgeneratoren erzeugt werden.

Ein Vergleich, wie die JPEG-AI-Komprimierung die Farbkorrelationen in Bildern ändert..

Oben können wir einen Vergleich aus dem Paper sehen, der zeigt, wie die JPEG-AI-Komprimierung die Farbkorrelationen in Bildern ändert, wobei der rote Kanal als Beispiel verwendet wird.

Panel A vergleicht unkomprimierte Bilder mit JPEG-AI-komprimierten, und zeigt, dass die Komprimierung die interkanalige Korrelation erheblich erhöht; Panel B isoliert die Wirkung der Vorverarbeitung von JPEG AI – nur die Farbumwandlung und Subsampling – und zeigt, dass bereits dieser Schritt allein die Korrelationen merklich erhöht; Panel C zeigt, dass traditionelle JPEG-Komprimierung auch die Korrelationen leicht erhöht, aber nicht in demselben Ausmaß; und Panel D untersucht synthetische Bilder, wobei Midjourney-V5 und Adobe Firefly moderate Korrelationszunahmen zeigen, während andere näher an unkomprimierten Niveaus bleiben.

Raten-Verzerrung

Der Raten-Verzerrungs-Hinweis identifiziert die JPEG-AI-Rekomprimierung, indem er verfolgt, wie die Bildqualität, gemessen durch Peak Signal-to-Noise Ratio (PSNR), in einem vorhersehbaren Muster über mehrere Komprimierungsdurchläufe abnimmt.

Die Forschung behauptet, dass die wiederholte Komprimierung eines Bildes mit JPEG AI zu progressiv kleineren, aber immer noch messbaren, Verlusten in der Bildqualität führt, wie durch PSNR quantifiziert, und dass diese allmähliche Verschlechterung die Grundlage für einen forensischen Hinweis auf die Erkennung bildet, ob ein Bild rekomprimiert wurde.

Im Gegensatz zu traditionellem JPEG, bei dem frühere Methoden Änderungen in bestimmten Bildblöcken verfolgten, erfordert JPEG AI einen anderen Ansatz, aufgrund seiner neuronalen Komprimierungsarchitektur; daher schlagen die Autoren vor, zu überwachen, wie sowohl die Bitrate als auch die PSNR über aufeinanderfolgende Komprimierungen hinweg evolvieren.

Jeder Komprimierungsdurchlauf ändert das Bild weniger als der vorherige, und diese abnehmende Änderung (wenn gegen die Bitrate aufgetragen) kann aufzeigen, ob ein Bild mehrere Komprimierungsdurchläufe durchlaufen hat:

Eine Darstellung, wie die wiederholte Komprimierung die Bildqualität über verschiedene Codecs hinweg beeinflusst, mit Ergebnissen von JPEG AI und einem neuronalen Codec, der bei https://arxiv.org/pdf/1802.01436 entwickelt wurde; beide zeigen einen stetigen Abfall des PSNR bei jeder zusätzlichen Komprimierung, auch bei niedrigeren Bitraten. Im Gegensatz dazu bleibt die traditionelle JPEG-Komprimierung relativ stabil über mehrere Komprimierungen hinweg, es sei denn, die Bitrate ist hoch. Dieses Muster dient als Beispiel dafür, wie die Rekompimierung eine messbare Spur in AI-basierten Codecs hinterlässt und einen potenziellen forensischen Signal bietet.

In dem Bild oben können wir die aufgetragenen Raten-Verzerrungskurven für JPEG AI; einen zweiten AI-basierten Codec; und traditionelles JPEG sehen, und feststellen, dass JPEG AI und der neurale Codec einen konstanten PSNR-Abfall bei allen Bitraten zeigen, während traditionelle JPEG-Komprimierung nur bei viel höheren Bitraten eine deutliche Verschlechterung zeigt. Dieses Verhalten bietet ein quantifizierbares Signal, das zur Identifizierung rekompimierter JPEG-AI-Bilder verwendet werden kann.

Durch die Extraktion, wie die Bitrate und die Bildqualität über mehrere Komprimierungsdurchläufe hinweg evolvieren, konstruierten die Autoren ähnlich ein Signaturen, das hilft, zu erkennen, ob ein Bild rekomprimiert wurde, und bietet damit einen potenziellen praktischen forensischen Hinweis im Kontext von JPEG AI.

Quantisierung

Wie wir bereits gesehen haben, ist eines der schwierigsten forensischen Probleme, die durch JPEG AI aufgeworfen werden, ihre visuelle Ähnlichkeit mit synthetischen Bildern, die durch Diffusionsmodelle generiert werden. Beide Systeme verwenden Encoder-Decoder-Architekturen, die Bilder in einem komprimierten Latentraum verarbeiten und oft subtile Upsampling-Artefakte hinterlassen.

Diese gemeinsamen Merkmale können Detektoren verwirren – sogar solche, die auf JPEG-AI-Bildern trainiert wurden. Es bleibt jedoch ein wichtiger struktureller Unterschied: JPEG AI wendet Quantisierung an, ein Schritt, der latente Werte auf diskrete Niveaus für effiziente Komprimierung rundet, während generative Modelle dies typischerweise nicht tun.

Das neue Paper nutzt diesen Unterschied, um einen forensischen Hinweis zu entwerfen, der indirekt die Anwesenheit von Quantisierung testet. Die Methode analysiert, wie die latente Darstellung eines Bildes auf Rundung reagiert, unter der Annahme, dass, wenn ein Bild bereits quantisiert wurde, seine latente Struktur ein messbares Muster der Ausrichtung mit gerundeten Werten aufweisen wird.

Diese Muster, obwohl unsichtbar für das Auge, erzeugen statistische Unterschiede, die helfen können, komprimierte reale Bilder von denen zu unterscheiden, die vollständig von AI-Modellen generiert wurden.

Ein Beispiel für durchschnittliche Fourier-Spektren zeigt, dass sowohl JPEG-AI-komprimierte Bilder als auch solche, die mit Diffusionsmodellen wie Midjourney-V5 und Stable Diffusion XL generiert wurden, regelmäßige Gittermuster im Frequenzbereich aufweisen – Artefakte, die häufig mit Upsampling in Verbindung gebracht werden. Im Gegensatz dazu fehlen diese Muster in realen Bildern. Diese Überschneidung in der spektralen Struktur hilft zu erklären, warum Forensik-Tools oft komprimierte reale Bilder mit synthetischen verwechseln.

Wichtig ist, dass die Autoren zeigen, dass dieser Hinweis über verschiedene generative Modelle hinweg funktioniert und auch dann wirksam bleibt, wenn die Komprimierung stark genug ist, um ganze Abschnitte des Latentraums zu eliminieren. Im Gegensatz dazu zeigen synthetische Bilder viel schwächere Reaktionen auf diesen Rundungstest, was eine praktische Möglichkeit bietet, zwischen beiden zu unterscheiden.

Das Ergebnis ist als leichtgewichtiges und interpretierbares Werkzeug konzipiert, das auf den grundlegenden Unterschied zwischen Komprimierung und Generierung abzielt, anstatt sich auf oberflächliche Artefakte zu verlassen.

Daten und Tests

Komprimierung

Um zu bewerten, ob ihr Farbkorrelations-Hinweis zuverlässig die JPEG-AI-Komprimierung erkennen kann (d. h. einen ersten Durchlauf von unkomprimierten Quellen), testeten die Autoren es an hochwertigen unkomprimierten Bildern aus dem RAISE-Datensatz, die bei verschiedenen Bitraten komprimiert wurden, unter Verwendung der JPEG-AI-Referenzimplementierung.

Sie trainierten einen einfachen Random-Forest auf den statistischen Mustern der Farbkanalkorrelationen (insbesondere, wie das Restrauschen in jedem Kanal mit den anderen ausgerichtet war) und verglichen es mit einem ResNet50-Neuronalen Netzwerk, das direkt auf den Bildpixeln trainiert wurde.

Genauigkeit der Erkennung von JPEG-AI-Komprimierung unter Verwendung von Farbkorrelationsmerkmalen, verglichen über verschiedene Bitraten. Die Methode ist am effektivsten bei niedrigeren Bitraten, wo Komprimierungsartefakte stärker sind, und zeigt eine bessere Verallgemeinerung auf nicht gesehene Komprimierungsniveaus als das ResNet50-Modell.

Während das ResNet50 eine höhere Genauigkeit erzielte, wenn die Testdaten eng mit den Trainingsbedingungen übereinstimmten, hatte es Schwierigkeiten, sich zu verallgemeinern über verschiedene Komprimierungsniveaus hinweg. Der korrelationsbasierte Ansatz, obwohl viel einfacher, erwies sich als konsistenter über Bitraten hinweg, insbesondere bei niedrigeren Komprimierungsraten, wo die Vorverarbeitung von JPEG AI einen stärkeren Effekt hat.

Diese Ergebnisse deuten darauf hin, dass es auch ohne Deep Learning möglich ist, die JPEG-AI-Komprimierung unter Verwendung von statistischen Hinweisen zu erkennen, die interpretierbar und widerstandsfähig bleiben.

Rekomprimierung

Um zu bewerten, ob die JPEG-AI-Rekomprimierung zuverlässig erkannt werden kann, testeten die Forscher den Raten-Verzerrungs-Hinweis auf einer Menge von Bildern, die bei verschiedenen Bitraten komprimiert wurden – einige nur einmal und andere ein zweites Mal mit JPEG AI.

Diese Methode umfasste die Extraktion eines 17-dimensionalen Merkmalsvektors, um zu verfolgen, wie die Bitrate und der PSNR des Bildes über drei Komprimierungsdurchläufe hinweg evolvierten. Dieser Merkmalsatz erfasste, wie viel Qualität bei jedem Schritt verloren ging und wie sich die latenten und Hyperprior-Raten verhielten – Metriken, die traditionelle pixelbasierte Methoden nicht leicht zugänglich machen.

Die Forscher trainierten einen Random Forest auf diesen Merkmalen und verglichen seine Leistung mit der eines ResNet50, das auf Bildpatchen trainiert wurde:

Ergebnisse für die Klassifikationsgenauigkeit eines Random Forest, der auf Raten-Verzerrungsmerkmalen trainiert wurde, um zu erkennen, ob ein JPEG-AI-Bild rekomprimiert wurde. Die Methode funktioniert am besten, wenn die anfängliche Komprimierung stark ist (d. h. bei niedrigeren Bitraten), und übertrifft dann konsistent ein pixelbasiertes ResNet50 – insbesondere in Fällen, in denen die zweite Komprimierung milder ist als die erste.

Der Random Forest erwies sich als bemerkenswert effektiv, wenn die anfängliche Komprimierung stark war (d. h. bei niedrigeren Bitraten), und zeigte klare Unterschiede zwischen einfach und doppelt komprimierten Bildern. Wie bei dem vorherigen Hinweis hatte das ResNet50 Schwierigkeiten, sich zu verallgemeinern, insbesondere wenn es auf Komprimierungsniveaus getestet wurde, die es während des Trainings nicht gesehen hatte.

Der Raten-Verzerrungs-Hinweis blieb dagegen stabil über eine breite Palette von Szenarien hinweg. Bemerkenswerterweise funktionierte der Hinweis auch, wenn er auf einen anderen AI-basierten Codec angewendet wurde, was darauf hindeutet, dass der Ansatz über JPEG AI hinaus verallgemeinert.

JPEG AI und synthetische Bilder

Für die abschließende Testrunde testeten die Autoren, ob ihre quantisierungsbezogenen Merkmale JPEG-AI-komprimierte Bilder von vollständig synthetischen Bildern unterscheiden können, die von Modellen wie Midjourney, Stable Diffusion, Adobe Firefly, Glide und DALL-E 2 generiert wurden.

Dazu verwendeten die Forscher einen Teil des Synthbuster-Datensatzes, der reale Fotos aus der RAISE-Datenbank mit generierten Bildern aus einer Reihe von Diffusions- und GAN-basierten Modellen kombinierte.

Beispiele für synthetische Bilder im Synthbuster-Datensatz, generiert mit Textprompts, die von natürlichen Fotografien aus dem RAISE-1k-Datensatz inspiriert sind. Die Bilder wurden mit verschiedenen Diffusionsmodellen erstellt, wobei die Prompts darauf abzielten, photorealistische Inhalte und Texturen zu erzeugen, anstatt stilisierte oder künstlerische Darstellungen, was dem Fokus des Datensatzes auf die Erprobung von Methoden zur Unterscheidung zwischen realen und generierten Bildern entspricht. Quelle: https://ieeexplore.ieee.org/document/10334046

Die realen Bilder wurden mit JPEG AI bei mehreren Bitraten komprimiert, und die Klassifikation wurde als zweiteilige Aufgabe formuliert: entweder JPEG AI gegen einen bestimmten Generator oder ein bestimmtes Bitrat gegen Stable Diffusion XL.

Die Quantisierungsmerkmale (Korrelationen, die aus latenten Darstellungen extrahiert wurden) wurden aus einer festen 256×256-Region berechnet und einem Random-Forest-Klassifizierer zugeführt. Als Vergleichsbasis wurde ein ResNet50 auf Pixel-Patches aus denselben Daten trainiert.

Klassifikationsgenauigkeit eines Random Forest, der Quantisierungsmerkmale verwendet, um JPEG-AI-komprimierte Bilder von synthetischen Bildern zu unterscheiden.

Über die meisten Bedingungen hinweg übertraf der quantisierungsbezogene Ansatz die ResNet50-Baseline, insbesondere bei niedrigeren Bitraten, wo Komprimierungsartefakte stärker waren.

Die Autoren stellen fest:

‘Die ResNet50-Baseline erreicht die beste Leistung für Glide-Bilder mit einer Genauigkeit von 66,1 %, aber ansonsten verallgemeinert sie schlechter als die Quantisierungsmerkmale. Die Quantisierungsmerkmale zeigen eine gute Verallgemeinerung über Komprimierungsstärken und Generatortypen hinweg.

‘Die Bedeutung der Koeffizienten, die auf Null quantisiert werden, wird durch die respektablen Leistungen der getruncierten Merkmale gezeigt, die in vielen Fällen mit der ResNet50-Klassifizierung vergleichbar sind.

‘Jedoch führen Quantisierungsmerkmale, die den ungetruncierten, vollständigen ganzzahligen Vektor verwenden, noch bemerkenswerterweise besser. Diese Ergebnisse bestätigen, dass die Anzahl der Nullen nach der Quantisierung ein wichtiger Hinweis für die Unterscheidung zwischen AI-komprimierten und AI-generierten Bildern ist.

‘Dennoch zeigt es auch, dass andere Faktoren beitragen. Die Genauigkeit des vollständigen Vektors für die Erkennung von JPEG AI liegt für alle Bitraten über 91,0 %, und eine stärkere Komprimierung führt zu höheren Genauigkeiten.’

Eine Projektion des Merkmalsraums unter Verwendung von UMAP zeigte eine klare Trennung zwischen JPEG-AI- und synthetischen Bildern, wobei niedrigere Bitraten die Distanz zwischen den Klassen erhöhten. Ein konsistenter Ausreißer war Glide, dessen Bilder anders clusterierten und die niedrigste Erkennungsrate aller getesteten Generatoren aufwiesen.

Zweidimensionale UMAP-Darstellung von JPEG-AI-komprimierten und synthetischen Bildern, basierend auf Quantisierungsmerkmalen. Das linke Diagramm zeigt, dass niedrigere JPEG-AI-Bitraten eine größere Trennung von synthetischen Bildern erzeugen; das rechte Diagramm zeigt, wie Bilder von verschiedenen Generatoren innerhalb des Merkmalsraums unterschiedlich clusterieren.

Schließlich bewerteten die Autoren, wie gut die Merkmale unter typischer Nachbearbeitung wie JPEG-Rekomprimierung oder Downsampling bestehen. Obwohl die Leistung bei stärkerer Verarbeitung abnahm, war der Rückgang allmählich, was darauf hindeutet, dass der Ansatz einige Robustheit auch unter degradierten Bedingungen beibehält.

Bewertung der Robustheit von Quantisierungsmerkmalen unter Nachbearbeitung, einschließlich JPEG-Rekomprimierung (JPG) und Bildgrößenänderung (RS).

Schlussfolgerung

Es ist nicht garantiert, dass JPEG AI weite Verbreitung finden wird. Einerseits gibt es genug infrastrukturelle Schulden, um jeden neuen Codec zu behindern; und selbst ein ‘konventioneller’ Codec mit einem feinen Pedigree und breiter Konsens über seinen Wert, wie AV1, hat Schwierigkeiten, etablierte Methoden zu verdrängen.

In Bezug auf das potenzielle Zusammenstoßen des Systems mit AI-Generatoren können die charakteristischen Quantisierungsartefakte, die den aktuellen Generationen von AI-Bild-Detektoren helfen, möglicherweise abgeschwächt oder ersetzt werden durch Spuren einer anderen Art, in späteren Systemen (unter der Annahme, dass AI-Generatoren immer forensische Spuren hinterlassen, was nicht sicher ist).

Dies würde bedeuten, dass die eigenen Quantisierungseigenschaften von JPEG AI, möglicherweise zusammen mit anderen Hinweisen, die durch das neue Paper identifiziert wurden, möglicherweise nicht mit der forensischen Spur der effektivsten neuen generativen AI-Systeme kollidieren.

Wenn jedoch JPEG AI weiterhin als de facto ‘AI-Waschmittel’ fungiert, die Unterscheidung zwischen realen und generierten Bildern erheblich verwischt, wäre es schwierig, einen überzeugenden Fall für seine Übernahme zu machen.

Erstveröffentlicht am Dienstag, 8. April 2025