Künstliche Intelligenz
Künstliche ‘bessere’ Körper mit KI

Neue Forschungsergebnisse von der Alibaba DAMO-Akademie bieten einen KI-gesteuerten Workflow für die Automatisierung der Neugestaltung von Körperbildern – eine seltene Anstrengung in einem Computer-Vision-Sektor, der derzeit von gesichtsbasierten Manipulationen wie Deepfakes und GAN-basierten Gesichtseditierungen besetzt ist.

In den ‘Ergebnis’-Spalten sind die generierten Aufmerksamkeitskarten zu sehen, die die zu ändernden Bereiche definieren. Quelle: https://arxiv.org/pdf/2203.04670.pdf
Die Architektur der Forscher verwendet die Skelett-Pose-Schätzung, um die größere Komplexität zu bewältigen, mit der Bildsynthese- und Bildbearbeitungssysteme konfrontiert sind, wenn sie bestehende Körperbilder konzeptualisieren und parametrisieren, zumindest auf einem Level von Granularität, das tatsächlich sinnvolle und selektive Bearbeitung ermöglicht.

Geschätzte Skelett-Karten helfen, Bereiche des Körpers zu individualisieren und die Aufmerksamkeit auf Bereiche zu lenken, die wahrscheinlich retuschiert werden, wie z. B. den Oberarmbereich.
Das System ermöglicht es dem Benutzer letztendlich, Parameter festzulegen, die das Aussehen von Gewicht, Muskelmasse oder Gewichtsverteilung in Voll- oder Mittellängenfotos von Personen ändern können, und es kann willkürliche Transformationen auf bekleidete oder unbekleidete Körperbereiche generieren.

Links, das Eingabebild; Mitte, eine Heatmap der abgeleiteten Aufmerksamkeitsbereiche; rechts, das transformierte Bild.
Die Motivation für die Arbeit ist die Entwicklung automatisierter Workflows, die die mühsamen digitalen Manipulationen ersetzen könnten, die von Fotografen und Grafikdesignern in verschiedenen Bereichen der Medien, von der Mode bis hin zu Magazin- und Publicity-Material, durchgeführt werden.
Im Allgemeinen erkennen die Autoren an, dass diese Transformationen normalerweise mit “Warp”-Techniken in Photoshop und anderen herkömmlichen Bitmap-Editoren angewendet werden und fast ausschließlich auf Bildern von Frauen verwendet werden. Folglich besteht die benutzerdefinierte Datenbank, die zur Erleichterung des neuen Prozesses entwickelt wurde, hauptsächlich aus Bildern von weiblichen Probanden:
‘Da Körperretuschen hauptsächlich von Frauen gewünscht werden, besteht die Mehrheit unserer Sammlung aus Frauenfotos, wobei die Vielfalt der Altersgruppen, Rassen (Afrikaner:Asiatische:Kaukasier = 0,33:0,35:0,32), Posen und Kleidungsstücke berücksichtigt wird.’
Das Papier trägt den Titel Structure-Aware Flow Generation for Human Body Reshaping und stammt von fünf Autoren, die mit der globalen DAMO-Akademie von Alibaba in Verbindung stehen.
Datensatzentwicklung
Wie in der Regel bei Bildsynthese- und Bildbearbeitungssystemen der Fall ist, erforderte die Architektur des Projekts einen benutzerdefinierten Trainingsdatensatz. Die Autoren beauftragten drei Fotografen, Standard-Photoshop-Manipulationen von geeigneten Bildern von der Stock-Fotografie-Website Unsplash durchzuführen, was zu einem Datensatz – betitelt BR-5K* – von 5.000 hochwertigen Bildern mit einer Auflösung von 2K führte.
Die Forscher betonen, dass das Ziel des Trainings auf diesem Datensatz nicht darin besteht, “idealisierte” und verallgemeinerte Merkmale in Bezug auf einen Index von Attraktivität oder wünschenswerter Erscheinung zu produzieren, sondern vielmehr die zentralen Merkmalzuordnungen zu extrahieren, die mit professionellen Manipulationen von Körperbildern verbunden sind.
Allerdings räumen sie ein, dass die Manipulationen letztendlich transformative Prozesse widerspiegeln, die eine Entwicklung von “real” zu einer voreingestellten Vorstellung von “ideal” kartieren:
‘Wir laden drei professionelle Künstler ein, Körper mit Photoshop unabhängig voneinander zu retuschieren, mit dem Ziel, schlanke Figuren zu erstellen, die der populären Ästhetik entsprechen, und wählen die beste als Referenz aus.’
Da das Framework überhaupt nicht mit Gesichtern arbeitet, wurden diese vor der Aufnahme in den Datensatz unscharf gemacht.
Architektur und Kernkonzepte
Der Workflow des Systems umfasst das Einlesen eines hochauflösenden Porträts, das Downsampling auf eine niedrigere Auflösung, die in die verfügbaren Rechenressourcen passt, und das Extrahieren einer geschätzten Skelett-Karten-Pose (zweites Bild von links in der Abbildung unten), sowie Part Affinity Fields (PAFs), die 2016 von The Robotics Institute an der Carnegie Mellon University innoviert wurden (siehe Video, das direkt unterhalb eingebettet ist).
Part Affinity Fields helfen, die Ausrichtung der Gliedmaßen und die allgemeine Assoziation mit dem umfassenderen Skelettgerüst zu definieren, wodurch dem neuen Projekt ein zusätzliches Aufmerksamkeits-/Lokalisierungstool zur Verfügung steht.

Aus dem Part Affinity Fields-Papier von 2016: Vorhergesagte PAFs kodieren die Ausrichtung der Gliedmaßen als Teil eines 2D-Vektors, der auch die allgemeine Position der Gliedmaßen enthält. Quelle: https://arxiv.org/pdf/1611.08050.pdf
Trotz ihrer offensichtlichen Irrelevanz für das Aussehen von Gewicht sind Skelett-Karten nützlich, um die endgültigen transformatorischen Prozesse auf Körperbereiche zu lenken, die geändert werden sollen, wie z. B. Oberarme, Rücken und Oberschenkel.
Danach werden die Ergebnisse an eine Structure Affinity Self-Attention (SASA) im zentralen Engpass des Prozesses (siehe Bild unten) weitergeleitet.

Die SASA reguliert die Konsistenz des Flow-Generators, der den Prozess antreibt, und die Ergebnisse werden dann an das Warping-Modul (zweites von rechts in der Abbildung oben) weitergeleitet, das die Transformationen anwendet, die aus dem Training auf den manuellen Revisionen im Datensatz gelernt wurden.

Das Structure Affinity Self-Attention (SASA)-Modul weist Aufmerksamkeit auf relevante Körperbereiche zu, wodurch unerwünschte oder irrelevante Transformationen vermieden werden.
Das Ausgabebild wird anschließend wieder auf die ursprüngliche Auflösung von 2K hochskaliert, wobei Prozesse verwendet werden, die denen der Standard-Deepfake-Architektur von 2017 ähneln, aus der beliebte Pakete wie DeepFaceLab abgeleitet wurden; der Upsampling-Prozess ist auch in GAN-Editierframeworks üblich.
Das Aufmerksamkeitsnetzwerk für das Schema ist dem Compositional De-Attention Networks (CODA) nachempfunden, einer US-Singapur-Kollaboration von 2019 mit Amazon AI und Microsoft.
Tests
Der flowbasierte Rahmen wurde gegen vorherige flowbasierte Methoden FAL und Animating Through Warping (ATW) sowie gegen Bildübersetzungsarchitekturen Pix2PixHD und GFLA getestet, wobei SSIM, PSNR und LPIPS als Bewertungsmetriken verwendet wurden.

Ergebnisse der anfänglichen Tests (Pfeilrichtung in den Überschriften zeigt an, ob niedrigere oder höhere Werte besser sind).
Basierend auf diesen übernommenen Metriken übertrifft das System der Autoren die vorherigen Architekturen.

Ausgewählte Ergebnisse. Bitte verweisen Sie auf das im Artikel verlinkte Original-PDF für höher aufgelöste Vergleiche.
Zusätzlich zu den automatischen Metriken führten die Forscher eine Benutzerstudie durch (letzte Spalte der Ergebnistabelle, die oben abgebildet ist), bei der 40 Teilnehmer jeweils 30 Fragen aus einem Pool von 100 Fragen zum Thema der durch die verschiedenen Methoden erzeugten Bilder sahen. 70 % der Befragten bevorzugten die neue Technik als “visuell ansprechender”.
Herausforderungen
Das neue Papier stellt eine seltene Exkursion in die KI-basierte Körpermanipulation dar. Der Bildsynthese-Sektor ist derzeit viel mehr an der Generierung von editierbaren Körpern durch Methoden wie Neural Radiance Fields (NeRF) oder an der Erforschung des latenten Raums von GANs und dem Potenzial von Autoencodern für Gesichtsmanipulationen interessiert.
Die Initiative der Autoren ist derzeit auf die Erzeugung von Änderungen im wahrgenommenen Gewicht beschränkt, und sie haben keine Art von Inpainting-Technik implementiert, die den Hintergrund wiederherstellen würde, der unweigerlich durch die KI-gesteuerte Abnahme des Körpergewichts in einem Bild von jemandem aufgedeckt wird.
Allerdings schlagen sie vor, dass Portrait-Matting und Hintergrund-Blending durch texturale Inferenz das Problem der Wiederherstellung der Teile der Welt, die früher in dem Bild durch menschliche “Unvollkommenheit” verborgen waren, trivial lösen könnten.

Ein vorgeschlagener Lösungsansatz für die Wiederherstellung des Hintergrunds, der durch die KI-gesteuerte Fettreduktion aufgedeckt wird.
* Obwohl der Vorabdruck ergänzende Informationen über den Datensatz sowie weitere Beispiele aus dem Projekt anbietet, ist der Speicherort dieses Materials im Papier nicht angegeben, und der entsprechende Autor hat noch nicht auf unsere Anfrage um Zugang reagiert.
Erstveröffentlichung am 10. März 2022.










