Stummel So erkennen Sie, wann Bildsynthesesysteme wirklich „originales“ Material produzieren – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

So erkennen Sie, wann Bildsynthesesysteme wirklich „originales“ Material produzieren

mm
Aktualisiert on
„Teddybären arbeiten unter Wasser an neuer KI-Forschung mit Technologie der 1990er Jahre“ – Quelle: https://www.creativeboom.com/features/meet-dall-e/
„Teddybären arbeiten unter Wasser an neuer KI-Forschung mit Technologie der 1990er Jahre“ – Quelle: https://www.creativeboom.com/features/meet-dall-e/

Eine neue Studie aus Südkorea hat eine Methode vorgeschlagen, um festzustellen, ob Bildsynthesesysteme wirklich neuartige Bilder oder „geringfügige“ Varianten der Trainingsdaten erzeugen, was möglicherweise das Ziel solcher Architekturen (wie die Produktion neuartiger und origineller Bilder) zunichte macht. .

Sehr oft, so legt das Papier nahe, trifft Letzteres zu, da die bestehenden Metriken, die solche Systeme verwenden, um ihre generativen Kapazitäten im Laufe des Trainings zu verbessern, gezwungen sind, Bilder zu bevorzugen, die den (nicht gefälschten) Quellbildern im Datensatz relativ nahe kommen .

Denn wenn ein generiertes Bild „visuell nah“ an den Quelldaten ist, ist es zwangsläufig wahrscheinlicher, dass es bei „Authentizität“ besser abschneidet als bei „Originalität“, da es „treu“ ist – wenn es nicht inspiriert ist.

In einem Sektor, der zu jung und unerprobt ist, als dass seine rechtlichen Auswirkungen noch bekannt wären, könnte dies der Fall sein erweisen sich als wichtige rechtliche Frage, wenn sich herausstellt, dass kommerzialisierte synthetische Bildinhalte sich nicht ausreichend von dem derzeit (häufig) urheberrechtlich geschützten Ausgangsmaterial unterscheiden durchströmen lassen im Forschungssektor in Form beliebter Web-Scraping-Datensätze (das Potenzial für künftige Verletzungsklagen dieser Art besteht). erst vor kurzem an Bedeutung gewonnen im Hinblick auf Microsofts GitHub Co-Pilot AI).

Im Hinblick auf die zunehmend kohärente und semantisch robuste Ausgabe von Systemen wie OpenAI DALL-E2, Googles Imagen, , und Chinas CogView Veröffentlichungen (sowie die niedriger spezifizierten dall-e mini), da sind sehr wenige Post facto Möglichkeiten, die Originalität eines generierten Bildes zuverlässig zu testen.

Tatsächlich führt die Suche nach einigen der beliebtesten der neuen DALL-E 2-Bilder je nach Suchmaschine oft nur zu weiteren Instanzen derselben Bilder.

Das Hochladen einer vollständigen DALL-E 9-Ausgabegruppe mit 2 Bildern führt nur zu mehr DALL-E 2-Ausgabegruppen. Das Trennen und Hochladen des ersten Bildes (aus diesem Twitter-Beitrag vom 8. Juni 2022, vom Konto „Weird Dall-E Generations“) führt dazu, dass Google sich auf den Basketball im Bild fixiert und die bildbasierte Suche in eine semantische Sackgasse führt. Für die gleiche bildbasierte Suche scheint Yandex zumindest einige tatsächliche pixelbasierte Dekonstruktionen und Funktionsabgleiche durchzuführen.

Das Hochladen einer vollständigen DALL-E 9-Ausgabegruppe mit 2 Bildern führt nur zu mehr DALL-E 2-Ausgabegruppen, da die Gitterstruktur das stärkste Merkmal ist. Trennen und Hochladen des ersten Bildes (von dieser Twitter-Beitrag vom 8. Juni 2022, aus dem Account „Weird Dall-E Generations“) führt dazu, dass Google sich auf den Basketball im Bild fixiert und die bildbasierte Suche in eine semantische Sackgasse führt. Für die gleiche bildbasierte Suche scheint Yandex zumindest eine tatsächliche pixelbasierte Dekonstruktion und Merkmalsanpassung durchzuführen.

Allerdings ist es wahrscheinlicher, dass Yandex die tatsächliche Suchmaschine verwendet als die Google-Suche Funktionen (d. h. ein Bild wird abgeleitet/berechnet Funktionen, nicht unbedingt Gesichtszüge von Menschen) und visuell (statt semantischer) Merkmale eines übermittelten Bildes, um ähnliche Bilder zu finden, über die alle bildbasierten Suchmaschinen verfügen eine Art Agenda oder Übung Dies kann es schwierig machen, Fälle von zu identifizieren Quelle>generiert Plagiate über Websuchen.

Darüber hinaus sind die Trainingsdaten für ein generatives Modell möglicherweise nicht vollständig öffentlich verfügbar, was eine forensische Untersuchung der Originalität der generierten Bilder zusätzlich erschwert.

Interessant ist die Durchführung einer bildbasierten Websuche nach einem der von Google angebotenen synthetischen Bilder dedizierte Imagen-Site findet absolut nichts Vergleichbares zum Thema des Bildes, was die tatsächliche Betrachtung des Bildes und die unvoreingenommene Suche nach ähnlichen Bildern betrifft. Vielmehr erlauben die Google-Bildersuchergebnisse für dieses Imagen-Bild, wie immer semantisch fixiert, keine reine bildbasierte Websuche des Bildes, ohne den Suchbegriff „imagen google“ als zusätzlichen (und einschränkenden) Parameter hinzuzufügen:

Yandex hingegen findet eine Vielzahl ähnlicher (oder zumindest visuell verwandter) Bilder aus der realen Welt aus der Amateurkünstler-Community:

Im Allgemeinen wäre es besser, wenn die Neuheit oder Originalität der Ausgabe von Bildsynthesesystemen auf irgendeine Weise gemessen werden könnte, ohne dass zum Zeitpunkt des Modelltrainings Merkmale aus jedem möglichen webseitigen Bild im Internet extrahiert werden müssten in nicht öffentlichen Datensätzen, die möglicherweise urheberrechtlich geschütztes Material verwenden.

Im Zusammenhang mit diesem Problem haben Forscher der Kim Jaechul Graduate School of AI am Korea Advanced Institute of Science and Technology (KAIST AI) mit dem globalen IKT- und Suchunternehmen NAVER Corp zusammengearbeitet, um ein zu entwickeln Seltenheitswert Dies kann dabei helfen, die originelleren Kreationen von Bildsynthesesystemen zu identifizieren.

Die Bilder hier werden über StyleGAN-FFHQ generiert. Von links nach rechts zeigen die Spalten die schlechtesten bis besten Ergebnisse an. Wir können sehen, dass die Metrik „Kürzungstrick“ (siehe unten) und die Metrik „Realismus“ ihre eigenen Ziele verfolgen, während die neue Bewertung „Rarität“ (obere Reihe) nach zusammenhängenden, aber originellen Bildern sucht (und nicht nur nach zusammenhängenden Bildern). Quelle: https://arxiv.org/pdf/2206.08549.pdf

Die Bilder hier werden über StyleGAN-FFHQ generiert. Von links nach rechts zeigen die Spalten die schlechtesten bis besten Ergebnisse an. Wir können sehen, dass die Metrik „Kürzungstrick“ (siehe unten) und die Metrik „Realismus“ ihre eigenen Ziele verfolgen, während die neue Bewertung „Rarität“ (obere Reihe) nach zusammenhängenden, aber originellen Bildern sucht (und nicht nur nach zusammenhängenden Bildern). Da es in diesem Artikel Einschränkungen hinsichtlich der Bildgröße gibt, sehen Sie sich für weitere Details und Auflösung bitte das Quellpapier an. Quelle: https://arxiv.org/pdf/2206.08549.pdf

The new Krepppapier ist betitelt Seltenheitswert: Eine neue Metrik zur Bewertung der Ungewöhnlichkeit synthetisierter Bilderund stammt von drei Forschern bei KAIST und drei von NAVER Corp.

Jenseits des „billigen Tricks“

Zu den früheren Kennzahlen, die das neue Papier verbessern möchte, gehört der „Truncation-Trick“. in 2019 vorgeschlagen in einer Zusammenarbeit zwischen der britischen Heriot-Watt-Universität und Googles DeepMind.

Der Truncation-Trick verwendet im Wesentlichen eine andere latente Verteilung für die Stichprobenziehung als für das Training des generativen Modells.

Die Forscher, die diese Methode entwickelt haben, waren überrascht, dass sie funktionierte, räumten jedoch in der Originalarbeit ein, dass sie die Vielfalt der generierten Ergebnisse verringert. Nichtsdestotrotz ist der Truncation-Trick effektiv und beliebt geworden, und zwar im Kontext dessen, was man wohl als „billigen Trick“ umschreiben könnte, um authentisch aussehende Ergebnisse zu erhalten, die nicht wirklich alle den Daten innewohnenden Möglichkeiten berücksichtigen, und möglicherweise den Quelldaten mehr ähneln als gewünscht.

In Bezug auf den Truncation Trick stellen die Autoren des neuen Papiers fest:

„[Es] ist nicht dazu gedacht, seltene Proben in Trainingsdatensätzen zu generieren, sondern typische Bilder stabiler zu synthetisieren.“ „Wir gehen davon aus, dass bestehende generative Modelle in der Lage sein werden, Proben zu erzeugen, die eine reichhaltigere reale Datenverteilung aufweisen, wenn der Generator dazu gebracht werden kann, seltene Proben effektiv zu produzieren.“

Von der allgemeinen Tendenz, sich auf traditionelle Metriken wie die Frechet Inception Distance (FID) zu verlassen geriet in heftige Kritik im Dezember 2021), Inception Score (IS) und Kernel Inception Distance (KID) als „Fortschrittsindikatoren“ während des Trainings eines generativen Modells, kommentieren die Autoren weiter*:

„Dieses Lernschema führt dazu, dass der Generator nicht viele seltene Proben synthetisiert, die einzigartig sind und starke Eigenschaften aufweisen, die keinen großen Teil der realen Bildverteilung ausmachen.“ Beispiele für seltene Proben aus öffentlichen Datensätzen sind Personen mit verschiedenen Accessoires FFHQ, weiße Tiere im AFHQ und ungewöhnliche Statuen in Metfaces.

„Die Fähigkeit, seltene Proben zu generieren, ist nicht nur deshalb wichtig, weil sie mit der Edge-Fähigkeit der generativen Modelle zusammenhängt, sondern auch, weil Einzigartigkeit bei kreativen Anwendungen wie virtuellen Menschen eine wichtige Rolle spielt.“

„Die qualitativen Ergebnisse mehrerer neuerer Studien enthalten jedoch selten diese seltenen Beispiele.“ Wir vermuten, dass die Natur des kontradiktorischen Lernschemas eine erzeugte Bildverteilung ähnlich der eines Trainingsdatensatzes erzwingt. Daher nehmen Bilder mit eindeutiger Individualität oder Seltenheit in den von den Modellen synthetisierten Bildern nur einen geringen Anteil ein.“

Technik

Der neue Rarity Score der Forscher adaptiert eine Idee, die in vorgestellt wird früher Werk - die Verwendung von K-Nächste Nachbarn (KNNs) zur Darstellung der Arrays echter (Trainings-) und synthetischer (Ausgabe-)Daten in einem Bildsynthesesystem.

Zu dieser neuartigen Analysemethode behaupten die Autoren:

„Wir nehmen an, dass gewöhnliche Proben näher beieinander liegen würden, während einzigartige und seltene Proben spärlich im Merkmalsraum verteilt wären.“

Das Ergebnisbild oben zeigt die kleinsten NNDs (Nearest Neighbor Distances) bis hin zu den größten in einer trainierten StyleGAN-Architektur FFHQ.

„Für alle Datensätze zeigen Proben mit den kleinsten NNDs repräsentative und typische Bilder.“ „Im Gegenteil, die Proben mit den größten NNDs weisen eine starke Individualität auf und unterscheiden sich deutlich von den typischen Bildern mit den kleinsten NNDs.“

Theoretisch könnte ein generatives System durch die Verwendung dieser neuen Metrik als Diskriminator oder zumindest durch die Einbindung in eine komplexere Diskriminatorarchitektur von der reinen Nachahmung weg und hin zu einem erfinderischeren Algorithmus gelenkt werden, während gleichzeitig die wesentliche Kohärenz möglicherweise entscheidender Konzepte erhalten bleibt für authentische Bildproduktion (z.B 'Mann', 'Frau', 'Auto', 'Kirche', Etc.).

Vergleiche und Experimente

In Tests führten die Forscher einen Vergleich der Leistung des Rarity Score sowohl mit dem Truncation Trick als auch mit NVIDIAs 2019 durch Realismus-Scoreund fanden heraus, dass der Ansatz über eine Vielzahl von Frameworks und Datensätzen hinweg in der Lage ist, „einzigartige“ Ergebnisse zu erzielen.

Obwohl die in der Arbeit vorgestellten Ergebnisse zu umfangreich sind, um sie hier aufzunehmen, scheinen die Forscher die Fähigkeit der neuen Methode gezeigt zu haben, Seltenheit sowohl in Originalbildern (real) als auch in generierten (gefälschten) Bildern in einem generativen Verfahren zu identifizieren:

Wählen Sie Beispiele aus den umfangreichen visuellen Ergebnissen aus, die in der Arbeit wiedergegeben werden (weitere Informationen finden Sie oben unter der Quell-URL). Links echte Beispiele aus dem FFHQ, die im Originaldatensatz nur sehr wenige nahe Nachbarn haben (d. h. neuartig und ungewöhnlich sind); auf der rechten Seite gefälschte Bilder, die von StyleGAN generiert wurden und die die neue Metrik als wirklich neuartig identifiziert hat.

Wählen Sie Beispiele aus den umfangreichen visuellen Ergebnissen aus, die in der Arbeit wiedergegeben werden (weitere Informationen finden Sie oben unter der Quell-URL). Links echte Beispiele aus dem FFHQ, die im Originaldatensatz nur sehr wenige nahe Nachbarn haben (d. h. neuartig und ungewöhnlich sind); auf der rechten Seite gefälschte Bilder, die von StyleGAN generiert wurden und die die neue Metrik als wirklich neuartig identifiziert hat. Da es in diesem Artikel Einschränkungen hinsichtlich der Bildgröße gibt, sehen Sie sich für weitere Details und Auflösung bitte das Quellpapier an.

Die neue Rarity-Score-Metrik ermöglicht nicht nur die Identifizierung „neuartiger“ generativer Ausgaben in einer einzelnen Architektur, sondern ermöglicht laut den Forschern auch Vergleiche zwischen generativen Modellen verschiedener und unterschiedlicher Architekturen (z. B. Autoencoder, VAE, GAN usw.). ).

Das Papier stellt fest, dass sich der Rarity Score von früheren Metriken dadurch unterscheidet, dass er sich auf die Fähigkeit eines generativen Frameworks konzentriert, einzigartige und seltene Bilder zu erstellen, im Gegensatz zu „traditionellen“ Metriken, die (eher kurzsichtig) die Vielfalt zwischen Generationen während des Trainings des Modells untersuchen.

Über begrenzte Aufgaben hinaus

Obwohl die Forscher des neuen Artikels Tests mit begrenzten Domänen-Frameworks durchgeführt haben (z. B. Generator-/Datensatz-Kombinationen, die beispielsweise gezielt Bilder von Menschen oder Katzen erzeugen sollen), kann der Rarity Score möglicherweise auf jedes beliebige Bildsyntheseverfahren angewendet werden, bei dem Es ist erwünscht, generierte Beispiele zu identifizieren, die die aus den trainierten Daten abgeleiteten Verteilungen verwenden, anstatt die Authentizität zu erhöhen (und die Vielfalt zu verringern), indem fremde latente Verteilungen eingefügt werden oder auf andere „Abkürzungen“ zurückgegriffen wird, die die Neuheit zugunsten der Authentizität beeinträchtigen.

Tatsächlich könnte eine solche Metrik möglicherweise wirklich neuartige Ausgabeinstanzen in Systemen wie der DALL-E-Serie unterscheiden, indem sie den identifizierten Abstand zwischen einem scheinbaren „Ausreißer“-Ergebnis, den Trainingsdaten und Ergebnissen aus ähnlichen Eingabeaufforderungen oder Eingaben (z. B. Bild) verwendet -basierte Eingabeaufforderungen).

In der Praxis und in Ermangelung eines klaren Verständnisses darüber, inwieweit das System visuelle und semantische Konzepte wirklich assimiliert hat (was oft durch begrenzte Kenntnisse über die Trainingsdaten behindert wird), könnte dies eine praktikable Methode sein, um einen echten „Moment von“ zu identifizieren „Inspiration“ in einem generativen System – der Punkt, an dem eine ausreichende Anzahl von eingegebenen Konzepten und Daten zu etwas wirklich Erfinderischem geführt hat, anstatt zu etwas, das übermäßig abgeleitet ist oder den Quelldaten nahe kommt.

 

* Meine Umwandlungen der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlichung am 20. Juni 2022.