Artificial Intelligence
Mit KI „bessere“ Körper vortäuschen
Neue Forschungsergebnisse der Alibaba DAMO-Akademie bieten einen KI-gesteuerten Workflow zur Automatisierung der Umformung von Körperbildern – eine seltene Leistung in einem Computer-Vision-Sektor, mit dem sich derzeit beschäftigt Gesichtsmanipulationen wie Deepfakes und GAN-basiert Gesichtsbearbeitung.
Die Architektur der Forscher nutzt die Schätzung der Skeletthaltung, um die größere Komplexität zu bewältigen, mit der Bildsynthese- und Bearbeitungssysteme bei der Konzeptualisierung und Parametrisierung vorhandener Körperbilder konfrontiert sind, zumindest bis zu einem Grad an Granularität, der tatsächlich eine sinnvolle und selektive Bearbeitung ermöglicht.
Das System ermöglicht es einem Benutzer letztendlich, Parameter festzulegen, die das Erscheinungsbild von Gewicht, Muskelmasse oder Gewichtsverteilung in Ganz- oder Mittellängenfotos von Menschen verändern können, und ist in der Lage, beliebige Transformationen an bekleideten oder unbekleideten Körperabschnitten zu erzeugen.
Die Motivation für die Arbeit ist die Entwicklung automatisierter Arbeitsabläufe, die die mühsamen digitalen Manipulationen ersetzen könnten, die Fotografen und Produktionsgrafiker in verschiedenen Medienzweigen vornehmen, von der Mode bis zur magazinartigen Ausgabe Werbematerial.
Im Allgemeinen, so geben die Autoren zu, werden diese Transformationen normalerweise mit „Warp“-Techniken in Photoshop und anderen herkömmlichen Bitmap-Editoren angewendet und fast ausschließlich bei Bildern von Frauen verwendet. Folglich besteht der benutzerdefinierte Datensatz, der zur Erleichterung des neuen Prozesses entwickelt wurde, hauptsächlich aus Bildern weiblicher Probanden:
„Da Körperretuschen hauptsächlich von Frauen gewünscht werden, besteht der Großteil unserer Sammlung aus Frauenfotos, wenn man die Vielfalt an Alter, Rasse (Afrikanisch:Asiatisch:Kaukasier = 0.33:0.35:0.32), Posen und Kleidung berücksichtigt.“
Das Krepppapier ist betitelt Strukturbewusste Strömungserzeugung zur Umformung des menschlichen Körpersund stammt von fünf Autoren, die mit der globalen DAMO-Akademie von Alibaba verbunden sind.
Datensatzentwicklung
Wie bei Bildsynthese- und Bearbeitungssystemen üblich, erforderte die Architektur des Projekts einen maßgeschneiderten Trainingsdatensatz. Die Autoren beauftragten drei Fotografen mit der Erstellung standardmäßiger Photoshop-Manipulationen passender Bilder der Stock-Fotografie-Website Unsplash. Das Ergebnis war ein Datensatz mit dem Titel BR-5K* – von 5,000 hochwertigen Bildern mit 2K-Auflösung.
Die Forscher betonen, dass das Ziel des Trainings auf diesem Datensatz nicht darin besteht, „idealisierte“ und verallgemeinerte Merkmale in Bezug auf einen Index der Attraktivität oder des wünschenswerten Aussehens zu erzeugen, sondern vielmehr darin, die zentralen Merkmalszuordnungen zu extrahieren, die mit professionellen Manipulationen von Körperbildern verbunden sind.
Sie räumen jedoch ein, dass die Manipulationen letztendlich transformative Prozesse widerspiegeln, die einen Fortschritt von „real“ zu einer vorgegebenen Vorstellung von „ideal“ abbilden:
„Wir laden drei professionelle Künstler ein, Körper unabhängig voneinander mit Photoshop zu retuschieren, mit dem Ziel, schlanke Figuren zu erzielen, die der beliebten Ästhetik entsprechen, und die beste davon als Grundwahrheit auszuwählen.“
Da sich das Framework überhaupt nicht mit Gesichtern befasst, wurden diese vor der Aufnahme in den Datensatz unscharf gemacht.
Architektur und Kernkonzepte
Der Arbeitsablauf des Systems umfasst das Einspeisen eines Porträts mit hoher Auflösung, dessen Downsampling auf eine niedrigere Auflösung, die in die verfügbaren Rechenressourcen passt, und das Extrahieren einer geschätzten Skelettkartenhaltung (zweite Abbildung von links im Bild unten) sowie von Teilaffinitätsfeldern (PAFs), die waren innoviert im Jahr 2016 vom Robotics Institute der Carnegie Mellon University (siehe Video direkt unten eingebettet).
Teilaffinitätsfelder helfen dabei, die Ausrichtung der Gliedmaßen und die allgemeine Assoziation mit dem breiteren Skelettgerüst zu definieren, und stellen dem neuen Projekt ein zusätzliches Aufmerksamkeits-/Lokalisierungstool zur Verfügung.
Trotz ihrer offensichtlichen Irrelevanz für das Erscheinungsbild des Gewichts sind Skelettkarten nützlich, um die endgültigen Transformationsprozesse auf zu ändernde Körperteile wie Oberarme, Gesäß und Oberschenkel zu lenken.
Anschließend werden die Ergebnisse einem Structure Affinity Self-Attention (SASA) im zentralen Flaschenhals des Prozesses zugeführt (siehe Abbildung unten).
Die SASA regelt die Konsistenz des Flussgenerators, der den Prozess antreibt, dessen Ergebnisse dann an das Warping-Modul (zweiter von rechts im Bild oben) weitergeleitet werden, das die aus dem Training gelernten Transformationen auf die im Datensatz enthaltenen manuellen Revisionen anwendet .
Das Ausgabebild wird anschließend wieder auf die ursprüngliche 2K-Auflösung hochgesampelt, wobei Verfahren verwendet werden, die der Standard-Deepfake-Architektur im Stil von 2017 nicht unähnlich sind, von der beliebte Pakete wie DeepFaceLab seitdem abgeleitet wurden; Der Upsampling-Prozess ist auch in GAN-Bearbeitungsframeworks üblich.
Das Aufmerksamkeitsnetzwerk für das Schema ist nachempfunden Kompositorische De-Aufmerksamkeits-Netzwerke (CODA), eine akademische Zusammenarbeit zwischen den USA und Singapur im Jahr 2019 mit Amazon AI und Microsoft.
Tests
Das flussbasierte Framework wurde im Vergleich zu früheren flussbasierten Methoden getestet FAL und Animieren durch Warping (ATW) sowie Bildübersetzungsarchitekturen Pix2PixHD und GFLA, mit SSIM, PSNR und LPIPS als Bewertungsmaßstab.
Basierend auf diesen übernommenen Metriken übertrifft das System der Autoren frühere Architekturen.
Zusätzlich zu den automatisierten Metriken führten die Forscher eine Benutzerstudie durch (letzte Spalte der Ergebnistabelle oben abgebildet), bei der 40 Teilnehmern jeweils 30 Fragen angezeigt wurden, die zufällig aus einem Pool von 100 Fragen ausgewählt wurden und sich auf die mit den verschiedenen Methoden erstellten Bilder bezogen. 70 % der Befragten bevorzugten die neue Technik als „optisch ansprechender“.
Herausforderungen
Das neue Papier stellt einen seltenen Ausflug in die KI-basierte Körpermanipulation dar. Der Bildsynthesesektor ist derzeit viel mehr daran interessiert, bearbeitbare Körper mithilfe von Methoden wie Neural Radiance Fields (NeRF) zu erzeugen, oder ist auf die Erforschung des latenten Raums von GANs und des Potenzials von Autoencodern für die Gesichtsmanipulation fixiert.
Die Initiative der Autoren beschränkt sich derzeit darauf, Veränderungen im wahrgenommenen Gewicht herbeizuführen, und sie haben keinerlei Inpainting-Technik implementiert, die den Hintergrund wiederherstellen würde, der unvermeidlich zum Vorschein kommt, wenn man ein Bild von jemandem verschlankt.
Sie schlagen jedoch vor, dass Porträtmattierung und Hintergrundmischung durch Texturschluss das Problem der Wiederherstellung der Teile der Welt, die früher durch menschliche „Unvollkommenheit“ im Bild verborgen waren, trivial lösen könnten.
* Obwohl sich der Vorabdruck auf ergänzendes Material bezieht, das weitere Details zum Datensatz sowie weitere Beispiele aus dem Projekt enthält, wird der Speicherort dieses Materials im Artikel nicht angegeben und der entsprechende Autor hat noch nicht auf unsere Anfrage nach Zugang geantwortet .
Erstveröffentlichung am 10. März 2022.