Stummel Der Bildsynthesesektor hat eine fehlerhafte Metrik übernommen, behaupten Forschungsergebnisse – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Der Bildsynthesesektor hat laut Forschungsergebnissen eine fehlerhafte Metrik übernommen

mm
Aktualisiert on

2021 war ein Jahr beispielloser Fortschritte und eines rasanten Veröffentlichungstempos im Bereich der Bildsynthese, das eine Flut neuer Innovationen und Verbesserungen bei Technologien mit sich brachte, die in der Lage sind, menschliche Persönlichkeiten zu reproduzieren neuronale Wiedergabe, Deepfakes und viele andere neuartige Ansätze.

Allerdings behaupten Forscher aus Deutschland nun, dass der Standard, der zur automatischen Beurteilung des Realismus synthetischer Bilder verwendet wird, fatal fehlerhaft ist; und dass die Hunderte, sogar Tausende von Forschern auf der ganzen Welt, die sich darauf verlassen, um die Kosten für die teure Auswertung menschlicher Ergebnisse zu senken, möglicherweise in eine Sackgasse geraten.

Um zu zeigen, wie der Standard funktioniert, Fréchet-Anfangsdistanz (FID), nicht den menschlichen Standards für die Auswertung von Bildern entspricht, setzten die Forscher ihre eigenen GANs ein, optimiert für FID (heute eine gängige Metrik). Sie fanden heraus, dass FID seinen eigenen Obsessionen folgt, die auf einem zugrunde liegenden Code mit einem ganz anderen Zweck als dem der Bildsynthese basieren, und dass es ihm regelmäßig nicht gelingt, einen „menschlichen“ Standard der Unterscheidung zu erreichen:

FID-Scores (niedriger desto besser) für Bilder, die von verschiedenen Modellen unter Verwendung von Standarddatensätzen und -architekturen generiert wurden. Die Forscher des neuen Papiers stellen die Frage: „Würden Sie dieser Rangliste zustimmen?“ Quelle: https://openreview.net/pdf?id=mLG96UpmbYz

FID-Scores (niedriger desto besser) für Bilder, die von verschiedenen Modellen unter Verwendung von Standarddatensätzen und -architekturen generiert wurden. Die Forscher des neuen Papiers stellen die Frage: „Würden Sie dieser Rangliste zustimmen?“ Quelle: https://openreview.net/pdf?id=mLG96UpmbYz

Zusätzlich zu der Behauptung, dass FID für seine vorgesehene Aufgabe nicht geeignet sei, schlägt das Papier außerdem vor, dass „offensichtliche“ Abhilfemaßnahmen, wie der Austausch des internen Motors gegen konkurrierende Engines, einfach eine Reihe von Voreingenommenheiten gegen eine andere austauschen würden. Die Autoren schlagen vor, dass es nun neuen Forschungsinitiativen obliegt, bessere Metriken zur Beurteilung der „Authentizität“ synthetisch erzeugter Fotos zu entwickeln.

Das Krepppapier ist betitelt Internalisierte Vorurteile in der Fréchet-Anfangsdistanz, und stammt von Steffen Jung vom Max-Planck-Institut für Informatik im Saarland und Margret Keuper, Professorin für Visual Computing an der Universität Siegen.

Die Suche nach einem Bewertungssystem für die Bildsynthese

Wie die neue Forschung feststellt, haben die Fortschritte bei Bildsynthese-Frameworks wie GANs und Encoder-/Decoder-Architekturen die Methoden, mit denen die Ergebnisse solcher Systeme beurteilt werden können, überholt. Abgesehen davon, dass sie teuer und daher schwer zu skalieren ist, bietet die menschliche Bewertung der Ergebnisse dieser Systeme keine empirische und reproduzierbare Bewertungsmethode.

Aus diesem Grund sind eine Reihe metrischer Rahmenwerke entstanden, darunter: Inception-Score (IS), vorgestellt im Jahr 2016 Krepppapier Verbesserte Techniken zum Training von GANs, Co-Autor von GAN Erfinder, Ian Goodfellow.

Die Diskreditierung des IS-Scores als allgemein anwendbare Metrik für mehrere GAN-Netzwerke im Jahr 2018 angegeben führte zur weit verbreiteten Einführung von FID in der GAN-Bildsynthese-Community. Allerdings basiert FID wie der Inception Score auf dem von Google Inception v3-Bildklassifizierungsnetzwerk (IV3).

Die Autoren des neuen Artikels argumentieren, dass die Fréchet-Inception-Distanz schädliche Verzerrungen in IV3 propagiert, was zu einer unzuverlässigen Klassifizierung der Bildqualität führt.

Da FID als Diskriminator (ein eingebetteter „Richter“, der entscheidet, ob das GAN gut funktioniert oder es „noch einmal versuchen“ sollte) in ein Framework für maschinelles Lernen integriert werden kann, muss es die Standards, die ein Mensch bei der Bewertung anwenden würde, genau wiedergeben die Bilder.

Fréchet-Anfangsdistanz

FID vergleicht die Verteilung der Features über den Trainingsdatensatz, der zum Erstellen eines GAN-Modells (oder eines Modells mit ähnlicher Funktionalität) verwendet wird, und die Ergebnisse dieses Systems.

Wenn also ein GAN-Framework auf 10,000 Bilder von (zum Beispiel) Prominenten trainiert wird, vergleicht FID die ursprünglichen (echten) Bilder mit den vom GAN erzeugten gefälschten Bildern. Je niedriger der FID-Wert, desto näher ist das GAN den „fotorealistischen“ Bildern gemäß den FID-Kriterien gekommen.

Aus dem Papier stammen die Ergebnisse eines GAN, das auf FFHQ64 trainiert wurde, einer Teilmenge des sehr beliebten FFHQ-Datensatzes von NVIDIA. Obwohl der FID-Wert hier bei wunderbar niedrigen 5.38 liegt, sind die Ergebnisse für den Durchschnittsmenschen weder erfreulich noch überzeugend.

Aus dem Papier stammen die Ergebnisse eines GAN-Trainings auf FFHQ64, einer sehr beliebten Teilmenge von NVIDIA FFHQ-Datensatz. Obwohl der FID-Wert hier bei wunderbar niedrigen 5.38 liegt, sind die Ergebnisse für den Durchschnittsmenschen weder erfreulich noch überzeugend.

Das Problem besteht laut den Autoren darin, dass Inception v3, dessen Annahmen Fréchet Inception Distance zugrunde legen, nicht an den richtigen Stellen sucht – zumindest nicht, wenn man die anstehende Aufgabe berücksichtigt.

Inception V3 ist darauf trainiert ImageNet-Objekterkennungsherausforderung, eine Aufgabe, die wohl im Widerspruch zu der Art und Weise steht, wie sich die Ziele der Bildsynthese in den letzten Jahren entwickelt haben. IV3 stellt die Robustheit eines Modells durch eine Datenerweiterung in Frage: Es dreht Bilder zufällig um, schneidet sie auf einen zufälligen Maßstab zwischen 8 und 100 % zu, ändert das Seitenverhältnis (im Bereich von 3/4 bis 4/3) und fügt sie zufällig ein Farbverzerrungen in Bezug auf Helligkeit, Sättigung und Kontrast.

Die in Deutschland ansässigen Forscher haben herausgefunden, dass IV3 tendenziell die Extraktion von Kanten und Texturen bevorzugt, statt Farb- und Intensitätsinformationen, die aussagekräftigere Authentizitätsindizes für synthetische Bilder wären; und dass sein ursprünglicher Zweck der Objekterkennung daher unangemessen für eine ungeeignete Aufgabe isoliert wurde. Die Autoren geben an*:

„[Inception v3] tendiert dazu, Merkmale basierend auf Kanten und Texturen zu extrahieren und nicht auf Farb- und Intensitätsinformationen. Dies steht im Einklang mit seiner Augmentationspipeline, die Farbverzerrungen einführt, aber hochfrequente Informationen intakt hält (im Gegensatz beispielsweise zur Augmentation mit Gaußscher Unschärfe).

„Folglich übernimmt FID diese Voreingenommenheit.“ Bei der Verwendung als Ranking-Metrik sind generative Modelle, die Texturen gut reproduzieren, möglicherweise Modellen vorzuziehen, die Farbverteilungen gut reproduzieren.'

Daten und Methode

Um ihre Hypothese zu testen, trainierten die Autoren zwei GAN-Architekturen: DCGAN und SNGAN, auf NVIDIAs FFHQ-Datensatz menschlicher Gesichter, heruntergerechnet auf 642 Bildauflösung, wobei der abgeleitete Datensatz FFHQ64 heißt.

Es wurden drei GAN-Trainingsverfahren verfolgt: GAN G+D, ein Standard diskriminatorbasiert Netzwerk; GAN FID|G+D, wobei FID als zusätzlicher Diskriminator fungiert; und GAN FID|G. wobei das GAN vollständig vom rollierenden FID-Score abhängt.

Technisch gesehen, so die Autoren, sollte der FID-Verlust das Training stabilisieren und möglicherweise sogar dazu in der Lage sein komplett ersetzen den Diskriminator (wie es in #3, GAN FID|G der Fall ist), während er menschenfreundliche Ergebnisse ausgibt.

In der Praxis fallen die Ergebnisse recht unterschiedlich aus, da – so die Hypothese der Autoren – die FID-gestützten Modelle „überpassend“ auf die falschen Metriken reagieren. Die Forscher stellen fest:

„Wir gehen davon aus, dass der Generator lernt, ungeeignete Merkmale zu erzeugen, die der Verteilung der Trainingsdaten entsprechen.“ Diese Beobachtung wird im Fall von [GAN FID|G] noch schwerwiegender. Hier stellen wir fest, dass der fehlende Diskriminator zu räumlich inkohärenten Merkmalsverteilungen führt. Zum Beispiel fügt [SNGAN FID|G] hauptsächlich einzelne Augen hinzu und gleicht Gesichtsmerkmale auf entmutigende Weise aus.'

Beispiele für Gesichter, die von SNGAN FID|G erstellt wurden.

Beispiele für Gesichter, die von SNGAN FID|G erstellt wurden.

Die Autoren kommen zu dem Schluss*:

„Während menschliche Annotatoren sicherlich von SNGAN D+G erstellte Bilder gegenüber SNGAN FID|G bevorzugen würden (in Fällen, in denen Datentreue gegenüber Kunst bevorzugt wird), sehen wir, dass sich dies nicht in FID widerspiegelt.“ Daher ist FID nicht auf die menschliche Wahrnehmung abgestimmt.

„Wir argumentieren, dass die von Bildklassifizierungsnetzwerken bereitgestellten Unterscheidungsmerkmale nicht ausreichen, um die Grundlage für eine aussagekräftige Metrik zu bilden.“

Keine einfachen Alternativen

Die Autoren stellten außerdem fest, dass der Austausch von Inception V3 gegen eine ähnliche Engine das Problem nicht linderte. Durch Ersetzen von IV3 durch „eine umfangreiche Auswahl verschiedener Klassifizierungsnetzwerke“, anhand derer getestet wurde ImageNet-C (eine Teilmenge von ImageNet, die zum Benchmarking häufig erzeugter Verfälschungen und Störungen in Ausgabebildern von Bildsynthese-Frameworks entwickelt wurde) konnten die Forscher ihre Ergebnisse nicht wesentlich verbessern:

'[Vorurteile] Die in Inception v3 vorhandenen Elemente sind auch in anderen Klassifizierungsnetzwerken weit verbreitet. Darüber hinaus sehen wir, dass verschiedene Netzwerke unterschiedliche Rankings zwischen den Korruptionsarten erzeugen würden.“

Die Autoren schließen das Papier mit der Hoffnung, dass die weitere Forschung eine „menschengerechte und unvoreingenommene Metrik“ entwickeln wird, die eine gerechtere Rangfolge für Bildgeneratorarchitekturen ermöglichen kann.

 

* Hervorhebung der Autoren.


Erstveröffentlichung am 2. Dezember 2021, 1:2 Uhr GMT+XNUMX.