Stummel Ein KI-System, das Bilder von Menschen „schöner“ machen kann – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Ein KI-System, das Bilder von Menschen „schöner“ machen kann

mm
Aktualisiert on
Hintergrundbild: DALL-E 2 „Preisgekröntes 8K-Foto des schönsten kaukasischen Laufstegmodells der Welt“ – https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Hintergrundbild: DALL-E 2 „Preisgekröntes 8K-Foto des schönsten kaukasischen Laufstegmodells der Welt“ – https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Forscher aus China haben ein neues KI-basiertes Bildverbesserungssystem entwickelt, das Bilder einer Person „schöner“ machen kann, basierend auf einem neuartigen Ansatz des verstärkenden Lernens.

Der neue Ansatz verwendet ein „Netzwerk zur Vorhersage der Gesichtsschönheit“, um Variationen eines Bildes auf der Grundlage einer Reihe von Faktoren zu durchlaufen, darunter „Beleuchtung“ und Augenhaltungen können entscheidende Faktoren sein. Hier stammen die Originalquellen (links in jeder Spalte) aus dem EigenGAN-System, die neuen Ergebnisse rechts davon. Quelle: https://arxiv.org/pdf/2208.04517.pdf

Der neue Ansatz verwendet ein „Netzwerk zur Vorhersage der Gesichtsschönheit“, um Variationen eines Bildes auf der Grundlage einer Reihe von Faktoren zu durchlaufen, darunter „Beleuchtung“ und Augenhaltungen können entscheidende Faktoren sein. Hier stammen die Originalquellen (links in jeder Spalte) aus dem EigenGAN-System, die neuen Ergebnisse rechts davon. Quelle: https://arxiv.org/pdf/2208.04517.pdf

Die Technik stützt sich auf Innovationen, die für die entdeckt wurden EigenGAN-Generator, ein weiteres chinesisches Projekt aus dem Jahr 2021, das bemerkenswerte Fortschritte bei der Identifizierung und Erlangung einer gewissen Kontrolle über die Vielfalt machte semantische Attribute innerhalb des latenten Raums von Generative Adversarial Networks (GANs).

Der EigenGAN-Generator 2021 war in der Lage, hochrangige Konzepte wie „Haarfarbe“ innerhalb des latenten Raums eines generativen gegnerischen Netzwerks zu individualisieren. Die neue Arbeit baut auf dieser innovativen Instrumentalität auf, um ein System bereitzustellen, das Quellbilder „verschönern“ kann, ohne jedoch die erkennbare Identität zu verändern – ein Problem bei früheren Ansätzen. Quelle: https://arxiv.org/pdf/2104.12476.pdf

Der EigenGAN-Generator 2021 war in der Lage, hochrangige Konzepte wie „Haarfarbe“ innerhalb des latenten Raums eines generativen gegnerischen Netzwerks zu individualisieren. Die neue Arbeit baut auf dieser innovativen Instrumentalität auf, um ein System bereitzustellen, das Quellbilder „verschönern“ kann, ohne jedoch die erkennbare Identität zu verändern – ein Problem bei früheren Ansätzen. Quelle: https://arxiv.org/pdf/2104.12476.pdf

Das System nutzt ein von abgeleitetes „Ästhetik-Score-Netzwerk“. SCUT-FBP5500 (SCUT), ein Benchmark-Datensatz aus dem Jahr 2018 zur Vorhersage der Gesichtsschönheit, von der South China University of Technology in Guangzhou.

Aus der Veröffentlichung „SCUT-FBP2018: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction“ aus dem Jahr 5500, in der ein „Facial Beauty Prediction“ (FBP)-Netzwerk vorgestellt wurde, das Gesichter hinsichtlich der wahrgenommenen Attraktivität einstufen kann, das sich jedoch nicht wirklich umwandeln lässt oder „Upgrade“-Gesichter. Quelle: https://arxiv.org/pdf/1801.06345.pdf

Aus der Veröffentlichung „SCUT-FBP2018: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction“ aus dem Jahr 5500, in der ein „Facial Beauty Prediction“ (FBP)-Netzwerk vorgestellt wurde, das Gesichter hinsichtlich der wahrgenommenen Attraktivität einstufen kann, das sich jedoch nicht wirklich umwandeln lässt oder „Upgrade“-Gesichter.  Quelle: https://arxiv.org/pdf/1801.06345.pdf

Im Gegensatz zur neuen Arbeit kann das Projekt von 2018 keine tatsächlichen Transformationen durchführen, sondern enthält algorithmische Werturteile für 5,500 Gesichter, die von 60 gemischtgeschlechtlichen Labelern bereitgestellt werden (eine 50/50-Aufteilung). Diese wurden wirksam in das neue System übernommen Diskriminator, um Transformationen zu ermöglichen, die wahrscheinlich die „Attraktivität“ eines Bildes steigern.

Interessanterweise neues Papier ist betitelt Attributsteuerbare Erzeugung schöner kaukasischer Gesichter durch ästhetikgesteuertes Verstärkungslernen. Der Grund dafür, dass alle Rassen außer Kaukasiern vom System ausgeschlossen sind (bedenken Sie auch, dass die Forscher selbst Chinesen sind), liegt darin, dass die Quelldaten für SCUT insbesondere auf asiatische Quellen verweisen (4000 gleichmäßig verteilte asiatische Frauen/Männer, 1500 gleichmäßig verteilte kaukasische Frauen). /männlich), wodurch die „durchschnittliche Person“ in diesem Datensatz braunhaarig und braunäugig ist.

Um Farbunterschiede zumindest innerhalb einer Rasse zu berücksichtigen, war es daher notwendig, die asiatische Komponente aus den Originaldaten auszuschließen oder andernfalls erhebliche Kosten für die Rekonstruktion der Daten auf sich zu nehmen, um eine Methode zu entwickeln, die sich möglicherweise nicht bewährt hätte. Zusätzlich, Unterschiede in der kulturellen Wahrnehmung von Schönheit bedeuten unweigerlich, dass solche Systeme ein gewisses Maß an geografischer Konfigurierbarkeit im Hinblick darauf benötigen, was „Attraktivität“ ausmacht.

Relevante Attribute

Um die primären Faktoren zu ermitteln, die zu einem „attraktiven“ Foto einer Person beitragen, testeten die Forscher auch die Wirkung verschiedener Bildänderungen im Hinblick darauf, wie gut solche Erweiterungen die algorithmische Wahrnehmung von „Schönheit“ steigerten. Sie fanden heraus, dass mindestens einer der Aspekte für eine gute Fotografie wichtiger ist als eine gute Genetik:

Neben der Beleuchtung waren die Aspekte, die den größten Einfluss auf den Beauty-Score hatten, der Pony (der bei Männern oft gleichbedeutend ist mit einer vollen Haarpracht), die Körperhaltung und die Augenposition (bei der Auseinandersetzung mit dem Der Blickwinkel der Kamera steigert die Attraktivität.

(Was die „Lippenstiftfarbe“ betrifft, so individualisiert das neue System, das sowohl bei männlichen als auch bei weiblichen Darstellungen des Geschlechts effektiv wirken kann, nicht das Erscheinungsbild des Geschlechts, sondern stützt sich in dieser Hinsicht eher auf das neuartige Unterscheidungssystem als „Filter“.)

Versandart

Die Belohnungsfunktion im Reinforcement-Learning-Mechanismus im neuen System basiert auf einer einfachen Regression über die SCUT-Daten, die Vorhersagen zur Gesichtsschönheit liefert.

Das Trainingssystem iteriert über die Dateneingabebilder (unten links im Schema unten). Zunächst eine Vorschulung ResNet18 Modell (trainiert am IMAGEnet) extrahiert Merkmale aus den fünf identischen („y“) Bildern. Als nächstes wird eine mögliche transformative Aktion aus dem verborgenen Zustand von a abgeleitet vollständig verbundene Schicht (GRUCell, im Bild unten) und die angewendeten Transformationen, was zu fünf veränderten Bildern führt, die in das Ästhetik-Score-Netzwerk eingespeist werden, deren Rangfolge im Darwin-Stil bestimmt, welche Variationen entwickelt und welche verworfen werden.

Eine umfassende Darstellung des Arbeitsablaufs für das neue System.

Eine Darstellung des Arbeitsablaufs für das neue System.

Das Ästhetik-Score-Netzwerk verwendet einen effizienten Aufmerksamkeitskanal (ACE)-Modul, während eine Anpassung einer vorab trainierten Instanz von EfficientNet-B4 hat die Aufgabe, aus jedem Bild 1,792 Merkmale zu extrahieren.

Nach der Normalisierung durch a ReLU-Aktivierungsfunktion, ein 4-dimensionaler Vektor wird vom ECA-Modul zurückerhalten, der dann nach der Aktivierung zu einem eindimensionalen Vektor abgeflacht wird und adaptives Durchschnittspooling. Abschließend werden die Ergebnisse in die eingespeist Regressionsnetzwerk, das eine Ästhetikbewertung abruft.

Ein qualitativer Vergleich der Ergebnisse des Systems. In der unteren Reihe sehen wir die aggregierte Summe aller einzelnen Facetten, die mit der EigenGAN-Methode identifiziert und anschließend verbessert wurden. Die gemittelten FID-Werte für die Bilder befinden sich links von den Bildzeilen (je höher, desto besser).

Ein qualitativer Vergleich der Ergebnisse des Systems. In der unteren Reihe sehen wir die aggregierte Summe aller einzelnen Facetten, die mit der EigenGAN-Methode identifiziert und anschließend verbessert wurden. Die gemittelten FID-Werte für die Bilder befinden sich links von den Bildzeilen (je höher, desto besser).

Tests und Benutzerstudie

Fünf Varianten der vorgeschlagenen Methode wurden algorithmisch bewertet (siehe Bild oben), wobei die Fréchet-Inzeptionsdistanz (FID, in manchen Kreisen umstritten) Bewertungen, die insgesamt 1000 durch das System gesendeten Bildern zugewiesen wurden.

Die Forscher stellen fest, dass eine Verbesserung der Beleuchtung zu einer besseren Attraktivität der Motive auf den Fotos führte als mehrere andere, „offensichtlichere“ mögliche Änderungen (z. B. am tatsächlichen Aussehen der abgebildeten Person).

Bis zu einem gewissen Grad wird das Testen des Systems auf diese Weise durch die Exzentrizität der SCUT-Daten eingeschränkt, die nicht viele „helle Lächeln“ aufweisen, und die Autoren argumentieren, dass dies den typischeren „rätselhaften“ Look übermäßig überbewerten könnte die Daten im Vergleich zu den wahrscheinlichen Präferenzen potenzieller Endnutzer (in diesem Fall vermutlich ein westlicher Markt).

Da das gesamte System jedoch von den durchschnittlichen Meinungen von nur 60 Personen abhängt (im EigenGAN-Papier) und die untersuchte Qualität alles andere als empirisch ist, könnte man argumentieren, dass das Verfahren fundierter ist als der Datensatz.

Obwohl es in der Arbeit nur sehr kurz behandelt wird, wurden Bilder von EigenGAN und den fünf Varianten des Systems auch in einer begrenzten Benutzerstudie (acht Teilnehmer) gezeigt, die gebeten wurden, das „beste Bild“ (das Wort „attraktiv“ war) auszuwählen vermieden werden).

Oben: Die GUI wurde der kleinen Studiengruppe vorgestellt. Unten die Ergebnisse.

Oben: Die GUI wurde der kleinen Studiengruppe vorgestellt. Unten die Ergebnisse.

Die Ergebnisse zeigen, dass die Ausgabe des neuen Systems die höchste Auswahlquote unter den Teilnehmern erzielte („MAES“ im Bild oben).

Das (ziellose?) Streben nach Schönheit

Der Nutzen eines solchen Systems lässt sich trotz aller scheinbaren Schwierigkeiten nur schwer feststellen bemerkenswert loci of Anstrengung in China auf diese Ziele hinarbeiten. Keine davon wird in der neuen Veröffentlichung beschrieben.

Das vorherige EigenGAN-Papier legt nahe*, dass ein Schönheitserkennungssystem in der Gesichtsbehandlung eingesetzt werden könnte Empfehlungssysteme für die Make-up-Synthese, ästhetische Chirurgie, Gesichtsverschönerungoder inhaltsbasierter Bildabruf.

Vermutlich könnte ein solcher Ansatz auch auf Dating-Seiten von Endnutzern genutzt werden, um ihre eigenen Profilfotos zu einem garantierten „Glücksschuss“ zu „verbessern“, als Alternative zur Verwendung veralteter Fotos oder Fotos von anderen Menschen.

Ebenso könnten Dating-Sites selbst ihre Kunden „bewerten“, um Bewertungen zu erstellen und sogar Ebenen mit eingeschränktem Zugriff, obwohl dies vermutlich nur über eine Erfassung der Live-Authentifizierung und nicht über eingereichte Fotos funktionieren würde (die ebenfalls von den Kunden „verbessert“ werden könnten, wenn der Ansatz populär werden sollte).

In der Werbung eine algorithmische Methode zur Beurteilung von Schönheit (eine Technologie, die der verstorbene Science-Fiction-Autor Michael Crichton 1982 in seinem Kinoausflug vorhersagte). Schau) könnte verwendet werden, um die nicht verbesserte kreative Ausgabe auszuwählen, die am wahrscheinlichsten eine Zielgruppe anspricht, während die Fähigkeit, die ästhetische Wirkung von Gesichtsbildern tatsächlich zu maximieren, ohne sie tatsächlich im Stil von Deepfakes zu überschreiben, bereits beabsichtigte wirksame Bilder steigern könnte öffentliches Interesse zu wecken.

Die neue Arbeit wird unter anderem von der National Natural Science Foundation of China, dem Open Fund Project des State Key Laboratory of Complex System Management and Control und dem Project of Philosophy and Social Science Research des chinesischen Bildungsministeriums unterstützt.

 

* Viele der Empfehlungen des EigenGAN-Papiers deuten eher auf ein im Handel erhältliches Buch aus dem Jahr 2016 mit dem Titel „Computer Models for Facial Beauty Analysis“ als auf akademische Ressourcen hin.

Erstveröffentlichung am 11. August 2022.