Künstliche Intelligenz
Ein KI-System, das Bilder von Menschen “schöner” machen kann

Forscher aus China haben ein neues KI-basiertes Bildverbesserungssystem entwickelt, das in der Lage ist, Bilder von Personen “schöner” zu machen, basierend auf einem neuen Ansatz für das Reinforcement Learning.

Das neue Verfahren verwendet ein ‘Facial Beauty Prediction Network’, um Variationen eines Bildes basierend auf einer Reihe von Faktoren zu iterieren, unter denen ‘Beleuchtung’ und Augenhaltung kritische Faktoren sein können. Hier sind die ursprünglichen Quellen (links in jeder Spalte) aus dem EigenGAN-System, mit den neuen Ergebnissen rechts davon. Quelle: https://arxiv.org/pdf/2208.04517.pdf
Die Technik basiert auf Innovationen, die für den EigenGAN-Generator entdeckt wurden, einem anderen chinesischen Projekt aus dem Jahr 2021, das bemerkenswerte Fortschritte bei der Identifizierung und Kontrolle der vielfältigen semantischen Attribute im latenten Raum von Generative Adversarial Networks (GANs) erzielt hat.

Der EigenGAN-Generator aus dem Jahr 2021 konnte hochrangige Konzepte wie ‘Haarfarbe’ im latenten Raum eines generativen adversarialen Netzwerks individuieren. Die neue Arbeit baut auf dieser innovativen Instrumentalität auf, um ein System zu liefern, das Quellbilder ‘verschönern’ kann, ohne die erkennbare Identität zu ändern – ein Problem in früheren Ansätzen. Quelle: https://arxiv.org/pdf/2104.12476.pdf
Das System verwendet ein ‘Ästhetik-Score-Netzwerk’, das aus SCUT-FBP5500 (SCUT) abgeleitet ist, einer Benchmark-Datensammlung für Gesichtsschönheitsvorhersage aus dem Jahr 2018, von der South China University of Technology in Guangzhou.

Aus dem Paper ‘SCUT-FBP5500: Eine vielfältige Benchmark-Datensammlung für multi-paradigmatische Gesichtsschönheitsvorhersage’ aus dem Jahr 2018, das ein ‘Gesichtsschönheitsvorhersage’-Netzwerk (FBP) vorstellte, das Gesichter in Bezug auf wahrgenommene Attraktivität bewerten kann, aber nicht tatsächlich Gesichter transformieren oder ‘upgraden’ kann. Quelle: https://arxiv.org/pdf/1801.06345.pdf
Im Gegensatz zur neuen Arbeit kann das Projekt aus dem Jahr 2018 tatsächlich keine Transformationen durchführen, aber es enthält algorithmische Werturteile für 5.500 Gesichter, die von 60 gemischten Geschlechtslabeln (eine 50/50-Aufteilung) bereitgestellt wurden. Diese wurden in das neue System als effektiver Diskriminator eingebaut, um Transformationen zu informieren, die wahrscheinlich die ‘Anziehungskraft’ eines Bildes erhöhen.
Interessanterweise ist der neue Paper betitelt Attribute-Controllable-Beautiful-Caucasian-Face-Generation-by-Aesthetics-Driven-Reinforcement-Learning. Der Grund, warum alle Rassen außer der kaukasischen aus dem System ausgeschlossen sind (beachten Sie, dass die Forscher selbst Chinesen sind), liegt darin, dass die Quelldaten für SCUT deutlich zu asiatischen Quellen tendieren (4.000 gleichmäßig aufgeteilte asiatische Frauen/Männer, 1.500 gleichmäßig aufgeteilte kaukasische Frauen/Männer), was den ‘durchschnittlichen Menschen’ in dieser Datensammlung braunhaarig und braunäugig macht.
Daher war es notwendig, den asiatischen Anteil aus den ursprünglichen Daten auszuschließen oder einen erheblichen Aufwand zu betreiben, um die Daten neu zu konstituieren, um eine Methode zu entwickeln, die möglicherweise nicht funktioniert hätte. Darüber hinaus bedeutet die Variation in kulturellen Wahrnehmungen von Schönheit, dass solche Systeme einige Grad an geografischer Konfigurierbarkeit in Bezug auf das benötigen, was ‘Anziehungskraft’ ausmacht.
Pertinente Attribute
Um die primären beitragenden Faktoren zu einem ‘attraktiven’ Foto einer Person zu bestimmen, testeten die Forscher auch die Wirkung verschiedener Änderungen an Bildern, in Bezug auf die Verbesserung der algorithmischen Wahrnehmung von ‘Schönheit’. Sie fanden heraus, dass mindestens eines der Aspekte mehr mit guter Fotografie als mit guter Genetik zu tun hat:

Neben der Beleuchtung hatten die Aspekte, die den größten Einfluss auf den Schönheitsscore hatten, den größten Einfluss auf die Schönheit: Stirnfransen (die im Falle von Männern oft gleichbedeutend mit einem vollen Haar sind), Körperhaltung und Augenverhalten (wo die Beteiligung am Kamerasichtpunkt ein Plus für Attraktivität ist).
(In Bezug auf ‘Lippenstiftfarbe’ individuiert das neue System, das effektiv auf männliche und weibliche Darstellungen von Geschlecht arbeiten kann, nicht das Erscheinungsbild des Geschlechts, sondern verlässt sich auf das neue Diskriminatorsystem als ‘Filter’ in dieser Hinsicht)
Methode
Die Belohnungsfunktion im Reinforcement-Learning-Mechanismus des neuen Systems wird durch eine einfache Regression über die SCUT-Daten angetrieben, die Gesichtsschönheitsvorhersagen ausgibt.
Das Trainingsystem iteriert über die Eingabebilder (unten links im Schemata). Zunächst extrahiert ein vorgefertigter ResNet18-Modell (trainiert auf ImageNet) Merkmale aus den fünf identischen (‘y’) Bildern. Als Nächstes wird eine potenzielle transformative Aktion aus dem versteckten Zustand einer vollständig verbundenen Schicht (GRUCell, im Bild unten) abgeleitet, und die Transformationen werden angewendet, was zu fünf veränderten Bildern führt, die in das Ästhetik-Score-Netzwerk eingespeist werden, dessen Ranglisten, Darwin-style, bestimmen werden, welche Variationen entwickelt und welche verworfen werden.
Das Ästhetik-Score-Netzwerk verwendet ein Efficient Channel Attention (ECA)-Modul, während eine Anpassung eines vorgefertigten EfficientNet-B4 mit der Aufgabe betraut wird, 1.792 Merkmale aus jedem Bild zu extrahieren.
Nach der Normalisierung durch eine ReLU-Aktivierungsfunktion wird ein 4-dimensionaler Vektor aus dem ECA-Modul zurückgewonnen, der dann zu einem eindimensionalen Vektor flachgezogen wird, nachdem er aktiviert und adaptive Durchschnittspooling durchlaufen hat. Schließlich werden die Ergebnisse in das Regressionsnetzwerk eingespeist, das einen Ästhetik-Score abruft.

Ein qualitativ Vergleich des Ausgangs des Systems. In der unteren Zeile sehen wir die aggregierte Summe aller individuierten Aspekte, die durch die EigenGAN-Methode identifiziert und anschließend verbessert wurden. Die durchschnittlichen FID-Scores für die Bilder sind links von den Bildzeilen (höher ist besser).
Tests und Benutzerstudie
Fünf Varianten des vorgeschlagenen Verfahrens wurden algorithmisch ausgewertet (siehe Bild oben), wobei Fréchet-Inception-Distanz (FID, umstritten in einigen Kreisen) Scores für insgesamt 1000 Bilder, die durch das System verarbeitet wurden, zugewiesen wurden.
Die Forscher bemerken, dass die Verbesserung der Beleuchtung einen besseren Attraktivitätsscore für die Personen in den Fotos erzielte als mehrere andere mögliche Änderungen (z. B. an dem tatsächlichen Aussehen der abgebildeten Person).
In gewissem Maße ist das Testen des Systems auf diese Weise durch die Eigenheiten der SCUT-Daten eingeschränkt, die nicht viele ‘helle Lächeln’ haben, und die Autoren argumentieren, dass dies den mehr typischen ‘rätselhaften’ Blick in den Daten im Vergleich zu den wahrscheinlichen Vorlieben potenzieller Endnutzer (vermutlich in diesem Fall ein westlicher Markt) überbewerten könnte.
Jedoch, da das gesamte System von den mittleren Meinungen von nur 60 Personen (im EigenGAN-Paper) abhängt und da die Qualität, die untersucht wird, weit von empirisch entfernt ist, könnte argumentiert werden, dass das Verfahren solider ist als die Datensammlung.
Obwohl es im Paper nur kurz behandelt wird, wurden Bilder von EigenGAN und den fünf Varianten des Systems auch in einer begrenzten Benutzerstudie (acht Teilnehmer) gezeigt, die aufgefordert wurden, das ‘beste Bild’ (das Wort ‘attraktiv’ wurde vermieden) auszuwählen.

Oben, die Benutzeroberfläche, die der kleinen Studiengruppe präsentiert wurde; unten, die Ergebnisse.
Die Ergebnisse zeigen, dass die Ausgabe des neuen Systems den höchsten Auswahlrate unter den Teilnehmern erreichte (‘MAES’ im Bild oben).
Die (ziellose?) Verfolgung von Schönheit
Die Nützlichkeit eines solchen Systems ist schwer zu etablieren, trotz dessen, was wie ein beachtlicher Schwerpunkt der Anstrengung in China in Richtung dieser Ziele aussieht. Keines wird in der neuen Veröffentlichung skizziert.
Das vorherige EigenGAN-Paper legt nahe*, dass ein Schönheitserkennungssystem in Gesichts-Make-up-Synthese-Empfehlungssystemen, ästhetischer Chirurgie, Gesichtsverschönerung oder inhaltsbasierten Bildsuche verwendet werden könnte.
Vermutlich könnte ein solcher Ansatz auch auf Dating-Seiten durch Endnutzer verwendet werden, um ihre eigenen Profilfotos in einen garantierten ‘Glücksschuss’ zu ‘verbessern’, als Alternative zur Verwendung veralteter Fotos oder Fotos von anderen Personen.
Ebenso könnten Dating-Seiten selbst ihre Kunden ‘bewerten’, um Ratings und sogar eingeschränkte Zugangsstufen erstellen, obwohl dies vermutlich nur über eine Liveness-Authentifizierungskapatur funktionieren würde, anstatt über eingereichte Fotos (die ebenfalls von den Kunden ‘verbessert’ werden könnten, wenn der Ansatz populär wird).
In der Werbung könnte ein algorithmischer Ansatz zur Bewertung von Schönheit (eine Technologie, die vom verstorbenen Science-Fiction-Autor Michael Crichton in seinem 1982er Film Looker vorhergesagt wurde) verwendet werden, um die nicht veränderte kreative Ausgabe auszuwählen, die wahrscheinlich das Zielpublikum ansprechen wird, während die Fähigkeit, die ästhetische Wirkung von Gesichtsbildern tatsächlich zu maximieren, ohne sie tatsächlich zu überlagern, wie bei Deepfakes, bereits effektive Bilder, die darauf abzielen, die öffentliche Aufmerksamkeit zu gewinnen, stärken könnte.
Die neue Arbeit wird von der Nationalen Naturwissenschaftlichen Stiftung Chinas, dem Offenen Fondsprojekt des Staatskey-Labors für komplexe Systemmanagement und -Steuerung und dem Projekt der philosophischen und sozialwissenschaftlichen Forschung des chinesischen Bildungsministeriums unterstützt, unter anderen Unterstützern.
* Viele der Empfehlungen des EigenGAN-Papers weisen auf ein kommerziell verfügbares Buch aus dem Jahr 2016 hin, das ‘Computer-Modelle für Gesichtsschönheitsanalyse’ betitelt ist, anstatt auf akademische Ressourcen.
Erstveröffentlicht am 11. August 2022.













