Künstliche Intelligenz

Mit JPEG-Komprimierung die neuronale Netzwerktrainings verbessern

Published October 10, 2024

Updated May 20, 2026

Martin Anderson

An AI-generated image, using ChatGPTY-4o, with the prompt ' Please create a panoramic photorealistic image of a landscape sunset where the right half of the image gradually becomes full of ugly JPEG artifacts'

Eine neue Forschungsarbeit aus Kanada hat einen Rahmen vorgeschlagen, der absichtlich JPEG-Komprimierung in das Trainingsprogramm eines neuronalen Netzwerks einführt und bessere Ergebnisse erzielt – und eine bessere Resistenz gegenüber adversarialen Angriffen.

Dies ist eine ziemlich radikale Idee, da die aktuelle allgemeine Weisheit besagt, dass JPEG-Artefakte, die für die menschliche Wahrnehmung optimiert sind und nicht für das maschinelle Lernen, im Allgemeinen einen schädlichen Effekt auf neuronale Netze haben, die auf JPEG-Daten trainiert werden.

Ein Beispiel für den Unterschied in der Klarheit zwischen JPEG-Bildern, die bei verschiedenen Verlustwerten komprimiert wurden.

Ein Bericht von 2022 der University of Maryland und Facebook AI behauptete, dass JPEG-Komprimierung “eine signifikante Leistungsstrafe” im Training von neuronalen Netzen verursacht, trotz früherer Arbeiten, die behaupteten, dass neuronale Netze relativ widerstandsfähig gegenüber Bildkomprimierungsartefakten seien.

Ein Jahr zuvor war ein neuer Gedankengang in der Literatur aufgetaucht: dass JPEG-Komprimierung tatsächlich für verbesserte Ergebnisse im Modelltraining genutzt werden kann.

Die Autoren dieser Arbeit konnten jedoch verbesserte Ergebnisse im Training von JPEG-Bildern mit verschiedenen Qualitätsstufen erzielen, aber das vorgeschlagene Modell war so komplex und belastend, dass es nicht praktikabel war. Darüber hinaus erwies sich die Verwendung von Standard-JPEG-Optimierungs-Einstellungen (Quantifizierung) als Hindernis für die Trainingswirksamkeit.

Ein späteres Projekt (2023’s JPEG-kompatible Komprimierung für DNN-Vision) experimentierte mit einem System, das bessere Ergebnisse aus JPEG-komprimierten Trainingsbildern mit der Verwendung eines eingefrorenen tiefen neuronalen Netzwerks (DNN) erzielte. Allerdings führt das Einfrieren von Teilen eines Modells während des Trainings tendenziell zu einer verringerten Vielseitigkeit des Modells sowie seiner breiteren Widerstandsfähigkeit gegenüber neuen Daten.

JPEG-DL

Stattdessen bietet die neue Arbeit, mit dem Titel JPEG-Inspired Deep Learning, eine viel einfachere Architektur, die sogar auf bestehende Modelle aufgesetzt werden kann.

Die Forscher von der University of Waterloo erklären:

‘Die Ergebnisse zeigen, dass JPEG-DL die Standard-DL in verschiedenen DNN-Architekturen konsistent und signifikant übertrifft, mit einer vernachlässigbaren Erhöhung der Modellkomplexität.

Insbesondere verbessert JPEG-DL die Klassifizierungspräzision um bis zu 20,9% in einigen feinkörnigen Klassifizierungsdatensätzen, während nur 128 trainierbare Parameter zur DL-Pipeline hinzugefügt werden. Darüber hinaus wird die Überlegenheit von JPEG-DL gegenüber der Standard-DL durch die verbesserte Widerstandsfähigkeit der gelernten Modelle und die reduzierten Dateigrößen der Eingabebilder weiter unterstrichen.’

Die Autoren behaupten, dass ein optimaler JPEG-Komprimierungsqualitätslevel einem neuronalen Netzwerk helfen kann, die zentrale(n) Sache(n) eines Bildes zu erkennen. Im folgenden Beispiel sehen wir Baseline-Ergebnisse (links), die den Vogel in den Hintergrund einblenden, wenn Merkmale durch das neuronale Netzwerk ermittelt werden. Im Gegensatz dazu gelingt es JPEG-DL (rechts), den Gegenstand des Fotos zu erkennen und abzugrenzen.

Tests gegen Baseline-Methoden für JPEG-DL.

‘Dieses Phänomen,’ erklären sie, ‘bezeichnet als “Komprimierung hilft” in der [2021] Arbeit, ist gerechtfertigt durch die Tatsache, dass die Komprimierung Rauschen und störende Hintergrundmerkmale entfernen kann, wodurch das Hauptobjekt in einem Bild hervorgehoben wird, was DNNs dabei hilft, bessere Vorhersagen zu treffen.’

Method

JPEG-DL führt einen differenzierbaren Soft-Quantizer ein, der den nicht-differenzierbaren Quantisierungs-Operation in einem Standard-JPEG-Optimierungs-Verfahren ersetzt.

Dies ermöglicht die gradientbasierte Optimierung der Bilder. Dies ist in konventioneller JPEG-Kodierung nicht möglich, die einen uniformen Quantizer mit einer Rundungsoperation verwendet, die den nächsten Koeffizienten approximiert.

Die Differenzierbarkeit des JPEG-DL-Schemas ermöglicht die gemeinsame Optimierung der Trainingsmodell-Parameter und der JPEG-Quantisierung (Komprimierung). Die gemeinsame Optimierung bedeutet, dass sowohl das Modell als auch die Trainingsdaten im End-to-End-Prozess angepasst werden, und keine Einfrierung von Schichten erforderlich ist.

Im Wesentlichen passt das System die JPEG-Komprimierung eines (rohen) Datensatzes an die Logik des Generalisierungsprozesses an.

Konzeptuelles Schema für JPEG-DL.

Man könnte annehmen, dass Rohdaten das ideale Futter für das Training wären; schließlich werden Bilder vollständig dekomprimiert in einen geeigneten Vollfarbraum, wenn sie in Batches ausgeführt werden; was also macht die ursprüngliche Formatierung aus?

Nun, da JPEG-Komprimierung für die menschliche Wahrnehmung optimiert ist, wirft sie Bereiche von Details oder Farben weg, die mit diesem Ziel übereinstimmen. Bei einem Bild eines Sees unter einem blauen Himmel werden erhöhte Komprimierungsstufen auf den Himmel angewendet, da er keine “wesentlichen” Details enthält.

Andererseits fehlt es einem neuronalen Netzwerk an den exzentrischen Filtern, die es uns ermöglichen, uns auf zentrale Themen zu konzentrieren. Stattdessen ist es wahrscheinlich, dass es jedes Banding-Artefakt im Himmel als gültige Daten assimiliert, die in seinen latenten Raum aufgenommen werden.

Obwohl ein Mensch das Banding im Himmel in einem stark komprimierten Bild (links) ablehnt, hat ein neuronales Netzwerk keine Ahnung, dass dieser Inhalt weggeworfen werden sollte, und benötigt ein Bild höherer Qualität (rechts).

Daher ist es unwahrscheinlich, dass ein Level der JPEG-Komprimierung für den gesamten Inhalt eines Trainingsdatensatzes geeignet ist, es sei denn, es stellt einen sehr spezifischen Bereich dar. Bilder von Menschenmengen erfordern viel weniger Komprimierung als ein eng fokussiertes Bild eines Vogels, zum Beispiel.

Die Autoren bemerken, dass diejenigen, die mit den Herausforderungen der Quantisierung nicht vertraut sind, aber mit den Grundlagen der Transformer-Architektur vertraut sind, diese Prozesse als ‘Aufmerksamkeits-Operation’ betrachten können.

Daten und Tests

JPEG-DL wurde gegen transformerbasierte Architekturen und konvolutionale neuronale Netze (CNNs) getestet. Die verwendeten Architekturen waren EfficientFormer-L1; ResNet; VGG; MobileNet; und ShuffleNet.

Die ResNet-Versionen, die verwendet wurden, waren spezifisch für den CIFAR-Datensatz: ResNet32, ResNet56 und ResNet110. VGG8 und VGG13 wurden für die VGG-basierten Tests ausgewählt.

Für CNN wurde die Trainingsmethodik aus der Arbeit von 2020 Contrastive Representation Distillation (CRD) abgeleitet. Für EfficientFormer-L1 (transformatorbasiert) wurde die Trainingsmethode aus der Arbeit von 2023 Initializing Models with Larger Ones verwendet.

Für feinkörnige Aufgaben, die in den Tests vorgestellt wurden, wurden vier Datensätze verwendet: Stanford Dogs; die University of Oxford’s Flowers; CUB-200-2011 (CalTech Birds); und Pets (‘Cats and Dogs’, eine Zusammenarbeit zwischen der University of Oxford und Hyderabad in Indien).

Für feinkörnige Aufgaben bei CNNs wurden PreAct ResNet-18 und DenseNet-BC verwendet. Für EfficientFormer-L1 wurde die in der oben genannten Initializing Models With Larger Ones beschriebene Methode verwendet.

Über die CIFAR-100- und feinkörnigen Aufgaben hinweg wurde die varying Magnitude der diskreten Cosinus-Transformation (DCT)-Frequenzen im JPEG-Komprimierungsansatz mit dem Adam-Optimizer behandelt, um den Lernalgorithmus für die JPEG-Schicht über die getesteten Modelle anzupassen.

Bei den Tests auf ImageNet-1K wurden in allen Experimenten PyTorch, SqueezeNet, ResNet-18 und ResNet-34 als Kernmodelle verwendet.

Bei der JPEG-Schicht-Optimierungsbewertung verwendeten die Forscher Stochastic Gradient Descent (SGD) anstelle von Adam für eine stabilere Leistung. Bei den ImageNet-1K-Tests wurde jedoch die Methode aus der Arbeit von 2019 Learned Step Size Quantization eingesetzt.

Oben die Top-1-Validierungspräzision für die Baseline im Vergleich zu JPEG-DL auf CIFAR-100, mit Standard- und Mittelabweichungen, die über drei Läufe gemittelt wurden. Unten die Top-1-Validierungspräzision auf verschiedenen feinkörnigen Bildklassifizierungsaufgaben, über verschiedene Modellarchitekturen hinweg, ebenfalls über drei Läufe gemittelt.

Die Autoren erklären:

‘Über alle sieben getesteten Modelle für CIFAR-100 hinweg bietet JPEG-DL konsistente Verbesserungen, mit Gewinnen von bis zu 1,53% in der Top-1-Präzision. Bei den feinkörnigen Aufgaben bietet JPEG-DL eine wesentliche Leistungssteigerung, mit Verbesserungen von bis zu 20,90% über alle Datensätze hinweg, bei Verwendung von zwei verschiedenen Modellen.’

Die Ergebnisse für die ImageNet-1K-Tests sind unten dargestellt:

Top-1-Validierungspräzisionsergebnisse auf ImageNet über verschiedene Frameworks hinweg.

Hier erklärt die Arbeit:

‘Mit einer trivialen Erhöhung der Komplexität (Hinzufügen von 128 Parametern) erzielt JPEG-DL einen Gewinn von 0,31% in der Top-1-Präzision für SqueezeNetV1.1 im Vergleich zur Baseline, bei Verwendung einer einzigen Runde der Quantisierungsoperation.

‘Durch die Erhöhung der Anzahl der Quantisierungsrunden auf fünf beobachten wir eine zusätzliche Verbesserung von 0,20%, was zu einer Gesamtverbesserung von 0,51% gegenüber der Baseline führt.’

Die Forscher testeten das System auch mit Daten, die durch adversarialen Angriffe beeinträchtigt wurden, wie dem Fast Gradient Signed Method (FGSM) und dem Projected Gradient Descent (PGD).

Die Angriffe wurden auf CIFAR-100 über zwei der Modelle durchgeführt:

Testergebnisse für JPEG-DL gegen zwei Standard-Angriffsframeworks.

Die Autoren erklären:

‘Die JPEG-DL-Modelle verbessern die Widerstandsfähigkeit gegenüber adversarialen Angriffen im Vergleich zu den Standard-DNN-Modellen signifikant, mit Verbesserungen von bis zu 15% für FGSM und 6% für PGD.’

Darüber hinaus führten die Autoren einen Vergleich der extrahierten Merkmalskarten mit GradCAM++ durch – einem Framework, das Merkmale in visueller Form hervorheben kann.

Eine GradCAM++-Darstellung für die Baseline- und JPEG-DL-Bildklassifizierung, mit hervorgehobenen Merkmalen.

Die Arbeit bemerkt, dass JPEG-DL ein verbessertes Ergebnis erzielt und dass es in einem Fall sogar ein Bild klassifizieren konnte, das die Baseline nicht identifizieren konnte. Bezüglich des oben gezeigten Bildes mit Vögeln erklären die Autoren:

‘Es ist offensichtlich, dass die Merkmalskarten des JPEG-DL-Modells einen wesentlich besseren Kontrast zwischen der Vordergrundinformation (dem Vogel) und dem Hintergrund im Vergleich zu den Merkmalskarten des Baseline-Modells aufweisen.’

‘Insbesondere ist das Vordergrundobjekt in den Merkmalskarten von JPEG-DL innerhalb einer gut definierten Kontur eingeschlossen, was es visuell von dem Hintergrund unterscheidbar macht. ‘

‘Im Gegensatz dazu zeigen die Merkmalskarten des Baseline-Modells eine mehr verschmolzene Struktur, in der das Vordergrundobjekt höhere Energie in niedrigen Frequenzen aufweist, was es glatter mit dem Hintergrund verbindet.’

Conclusion

JPEG-DL ist für den Einsatz in Situationen gedacht, in denen Rohdaten verfügbar sind – aber es wäre interessant zu sehen, ob einige der in diesem Projekt vorgestellten Prinzipien auf konventionelles Datensatz-Training angewendet werden könnten, bei dem der Inhalt möglicherweise eine geringere Qualität aufweist (wie es häufig bei hyperskaligen Datensätzen vorkommt, die aus dem Internet gesammelt werden).

Wie es derzeit steht, bleibt dies größtenteils ein Anmerkungsproblem, obwohl es in der verkehrsorientierten Bilderkennung und anderswo angegangen wurde.

Erstveröffentlichung: Donnerstag, 10. Oktober 2024