Artificial Intelligence

Mit KI „bessere“ Körper vortäuschen

Aktualisiert on 9. Dezember 2022

Neue Forschungsergebnisse der Alibaba DAMO-Akademie bieten einen KI-gesteuerten Workflow zur Automatisierung der Umformung von Körperbildern – eine seltene Leistung in einem Computer-Vision-Sektor, mit dem sich derzeit beschäftigt Gesichtsmanipulationen wie Deepfakes und GAN-basiert Gesichtsbearbeitung.

In den „Ergebnis“-Spalten sind die generierten Aufmerksamkeitskarten eingefügt, die die zu ändernden Bereiche definieren. Quelle: https://arxiv.org/pdf/2203.04670.pdf

Die Architektur der Forscher nutzt die Schätzung der Skeletthaltung, um die größere Komplexität zu bewältigen, mit der Bildsynthese- und Bearbeitungssysteme bei der Konzeptualisierung und Parametrisierung vorhandener Körperbilder konfrontiert sind, zumindest bis zu einem Grad an Granularität, der tatsächlich eine sinnvolle und selektive Bearbeitung ermöglicht.

Geschätzte Skelettkarten helfen dabei, Bereiche des Körpers, die wahrscheinlich retuschiert werden müssen, wie beispielsweise den Oberarmbereich, zu identifizieren und die Aufmerksamkeit auf diese zu lenken.

Das System ermöglicht es einem Benutzer letztendlich, Parameter festzulegen, die das Erscheinungsbild von Gewicht, Muskelmasse oder Gewichtsverteilung in Ganz- oder Mittellängenfotos von Menschen verändern können, und ist in der Lage, beliebige Transformationen an bekleideten oder unbekleideten Körperabschnitten zu erzeugen.

Links das Eingabebild; Mitte: eine Heatmap der abgeleiteten Aufmerksamkeitsbereiche; rechts, das transformierte Bild.

Die Motivation für die Arbeit ist die Entwicklung automatisierter Arbeitsabläufe, die die mühsamen digitalen Manipulationen ersetzen könnten, die Fotografen und Produktionsgrafiker in verschiedenen Medienzweigen vornehmen, von der Mode bis zur magazinartigen Ausgabe Werbematerial.

Im Allgemeinen, so geben die Autoren zu, werden diese Transformationen normalerweise mit „Warp“-Techniken in Photoshop und anderen herkömmlichen Bitmap-Editoren angewendet und fast ausschließlich bei Bildern von Frauen verwendet. Folglich besteht der benutzerdefinierte Datensatz, der zur Erleichterung des neuen Prozesses entwickelt wurde, hauptsächlich aus Bildern weiblicher Probanden:

„Da Körperretuschen hauptsächlich von Frauen gewünscht werden, besteht der Großteil unserer Sammlung aus Frauenfotos, wenn man die Vielfalt an Alter, Rasse (Afrikanisch:Asiatisch:Kaukasier = 0.33:0.35:0.32), Posen und Kleidung berücksichtigt.“

Das Krepppapier ist betitelt Strukturbewusste Strömungserzeugung zur Umformung des menschlichen Körpersund stammt von fünf Autoren, die mit der globalen DAMO-Akademie von Alibaba verbunden sind.

Datensatzentwicklung

Wie bei Bildsynthese- und Bearbeitungssystemen üblich, erforderte die Architektur des Projekts einen maßgeschneiderten Trainingsdatensatz. Die Autoren beauftragten drei Fotografen mit der Erstellung standardmäßiger Photoshop-Manipulationen passender Bilder der Stock-Fotografie-Website Unsplash. Das Ergebnis war ein Datensatz mit dem Titel BR-5K* – von 5,000 hochwertigen Bildern mit 2K-Auflösung.

Die Forscher betonen, dass das Ziel des Trainings auf diesem Datensatz nicht darin besteht, „idealisierte“ und verallgemeinerte Merkmale in Bezug auf einen Index der Attraktivität oder des wünschenswerten Aussehens zu erzeugen, sondern vielmehr darin, die zentralen Merkmalszuordnungen zu extrahieren, die mit professionellen Manipulationen von Körperbildern verbunden sind.

Sie räumen jedoch ein, dass die Manipulationen letztendlich transformative Prozesse widerspiegeln, die einen Fortschritt von „real“ zu einer vorgegebenen Vorstellung von „ideal“ abbilden:

„Wir laden drei professionelle Künstler ein, Körper unabhängig voneinander mit Photoshop zu retuschieren, mit dem Ziel, schlanke Figuren zu erzielen, die der beliebten Ästhetik entsprechen, und die beste davon als Grundwahrheit auszuwählen.“

Da sich das Framework überhaupt nicht mit Gesichtern befasst, wurden diese vor der Aufnahme in den Datensatz unscharf gemacht.

Architektur und Kernkonzepte

Der Arbeitsablauf des Systems umfasst das Einspeisen eines Porträts mit hoher Auflösung, dessen Downsampling auf eine niedrigere Auflösung, die in die verfügbaren Rechenressourcen passt, und das Extrahieren einer geschätzten Skelettkartenhaltung (zweite Abbildung von links im Bild unten) sowie von Teilaffinitätsfeldern (PAFs), die waren innoviert im Jahr 2016 vom Robotics Institute der Carnegie Mellon University (siehe Video direkt unten eingebettet).

2D-Echtzeitschätzung der menschlichen Pose für mehrere Personen mithilfe von Teilaffinitätsfeldern, CVPR 2017, mündlich

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

Teilaffinitätsfelder helfen dabei, die Ausrichtung der Gliedmaßen und die allgemeine Assoziation mit dem breiteren Skelettgerüst zu definieren, und stellen dem neuen Projekt ein zusätzliches Aufmerksamkeits-/Lokalisierungstool zur Verfügung.

Aus dem Artikel „Part Affinity Fields“ aus dem Jahr 2016 geht hervor, dass vorhergesagte PAFs die Ausrichtung der Gliedmaßen als Teil eines 2D-Vektors kodieren, der auch die allgemeine Position der Gliedmaßen umfasst. Quelle: https://arxiv.org/pdf/1611.08050.pdf

Trotz ihrer offensichtlichen Irrelevanz für das Erscheinungsbild des Gewichts sind Skelettkarten nützlich, um die endgültigen Transformationsprozesse auf zu ändernde Körperteile wie Oberarme, Gesäß und Oberschenkel zu lenken.

Anschließend werden die Ergebnisse einem Structure Affinity Self-Attention (SASA) im zentralen Flaschenhals des Prozesses zugeführt (siehe Abbildung unten).

Die SASA regelt die Konsistenz des Flussgenerators, der den Prozess antreibt, dessen Ergebnisse dann an das Warping-Modul (zweiter von rechts im Bild oben) weitergeleitet werden, das die aus dem Training gelernten Transformationen auf die im Datensatz enthaltenen manuellen Revisionen anwendet .

Das Structure Affinity Self-Attention (SASA)-Modul richtet die Aufmerksamkeit auf relevante Körperteile und hilft so, überflüssige oder irrelevante Transformationen zu vermeiden.

Das Ausgabebild wird anschließend wieder auf die ursprüngliche 2K-Auflösung hochgesampelt, wobei Verfahren verwendet werden, die der Standard-Deepfake-Architektur im Stil von 2017 nicht unähnlich sind, von der beliebte Pakete wie DeepFaceLab seitdem abgeleitet wurden; Der Upsampling-Prozess ist auch in GAN-Bearbeitungsframeworks üblich.

Das Aufmerksamkeitsnetzwerk für das Schema ist nachempfunden Kompositorische De-Aufmerksamkeits-Netzwerke (CODA), eine akademische Zusammenarbeit zwischen den USA und Singapur im Jahr 2019 mit Amazon AI und Microsoft.

Tests

Das flussbasierte Framework wurde im Vergleich zu früheren flussbasierten Methoden getestet FAL und Animieren durch Warping (ATW) sowie Bildübersetzungsarchitekturen Pix2PixHD und GFLA, mit SSIM, PSNR und LPIPS als Bewertungsmaßstab.

Ergebnisse erster Tests (Pfeilrichtung in den Kopfzeilen zeigt an, ob niedrigere oder höhere Werte am besten sind).

Basierend auf diesen übernommenen Metriken übertrifft das System der Autoren frühere Architekturen.

Ausgewählte Ergebnisse. Vergleiche mit höherer Auflösung finden Sie im Original-PDF, das in diesem Artikel verlinkt ist.

Zusätzlich zu den automatisierten Metriken führten die Forscher eine Benutzerstudie durch (letzte Spalte der Ergebnistabelle oben abgebildet), bei der 40 Teilnehmern jeweils 30 Fragen angezeigt wurden, die zufällig aus einem Pool von 100 Fragen ausgewählt wurden und sich auf die mit den verschiedenen Methoden erstellten Bilder bezogen. 70 % der Befragten bevorzugten die neue Technik als „optisch ansprechender“.

Herausforderungen

Das neue Papier stellt einen seltenen Ausflug in die KI-basierte Körpermanipulation dar. Der Bildsynthesesektor ist derzeit viel mehr daran interessiert, bearbeitbare Körper mithilfe von Methoden wie Neural Radiance Fields (NeRF) zu erzeugen, oder ist auf die Erforschung des latenten Raums von GANs und des Potenzials von Autoencodern für die Gesichtsmanipulation fixiert.

Die Initiative der Autoren beschränkt sich derzeit darauf, Veränderungen im wahrgenommenen Gewicht herbeizuführen, und sie haben keinerlei Inpainting-Technik implementiert, die den Hintergrund wiederherstellen würde, der unvermeidlich zum Vorschein kommt, wenn man ein Bild von jemandem verschlankt.

Sie schlagen jedoch vor, dass Porträtmattierung und Hintergrundmischung durch Texturschluss das Problem der Wiederherstellung der Teile der Welt, die früher durch menschliche „Unvollkommenheit“ im Bild verborgen waren, trivial lösen könnten.

Ein Lösungsvorschlag zur Wiederherstellung des Hintergrunds, der durch KI-gesteuerte Fettreduktion aufgedeckt wird.

* Obwohl sich der Vorabdruck auf ergänzendes Material bezieht, das weitere Details zum Datensatz sowie weitere Beispiele aus dem Projekt enthält, wird der Speicherort dieses Materials im Artikel nicht angegeben und der entsprechende Autor hat noch nicht auf unsere Anfrage nach Zugang geantwortet .

Erstveröffentlichung am 10. März 2022.

Verwandte Themen:Deepfake DeepFakes Bildsynthese Forschungsprojekte

Als nächstes

Propaganda mit maschinellem Lernen generieren und identifizieren

Verpassen Sie nicht

Forschung deutet auf Zusammenhang zwischen Computerchips und Gensynthese hin

Martin Anderson

Autor über maschinelles Lernen, künstliche Intelligenz und Big Data.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai

Unite.AI

Mit KI „bessere“ Körper vortäuschen

Artificial Intelligence