Vernetzen Sie sich mit uns

Künstliche Intelligenz

Umgestaltung menschlicher Körpertypen mit KI

mm

Eine neue Forschungskooperation aus China bietet eine neuartige Methode zur Umformung des menschlichen Körpers in Bildern durch den Einsatz eines koordinierten neuronalen Zwillings-Encoder-Netzwerks, das von einem parametrischen Modell gesteuert wird und es einem Endbenutzer ermöglicht, Gewicht, Größe und Körperproportionen zu modulieren in einer interaktiven GUI.

Parametrisierte Modulation der Körperform, wobei Schieberegler die drei verfügbaren Funktionen ändern. Quelle: https://arxiv.org/pdf/2203.10496.pdf

Parametrisierte Modulation der Körperform, wobei Schieberegler die drei verfügbaren Funktionen ändern. Quelle: https://arxiv.org/pdf/2203.10496.pdf

Die Arbeit bietet mehrere Verbesserungen gegenüber a aktuelles ähnliches Projekt von Alibaba, da es Größe und Körperproportionen sowie Gewicht überzeugend verändern kann und über ein spezielles neuronales Netzwerk verfügt, um den (nicht vorhandenen) Hintergrund, der durch „schlankere“ Körperbilder sichtbar wird, zu „übermalen“. Es verbessert auch eine bemerkenswerte frühere parametrische Methode für die Körperumformung, da kein umfangreicher menschlicher Eingriff während der Formulierung der Transformation erforderlich ist.

Betitelt NeuralReshaperDie neue Architektur passt eine parametrische 3D-menschliche Vorlage an ein Quellbild an und verwendet dann Verzerrungen in der Vorlage, um das Originalbild an die neuen Parameter anzupassen.

Das System ist in der Lage, Körpertransformationen sowohl bei bekleideten als auch bei halbbekleideten (z. B. Strandkleidung) Figuren durchzuführen.

Transformationen dieser Art sind derzeit von großem Interesse Mode-KI Forschungssektor, der eine Reihe von StyleGAN/CycleGAN-basierten und allgemeinen neuronalen Netzwerkplattformen für entwickelt hat virtuelle Anprobe Dies kann verfügbare Kleidungsstücke an die Körperform und den Typ eines vom Benutzer übermittelten Bildes anpassen oder auf andere Weise zur visuellen Konformität beitragen.

Die Krepppapier ist betitelt Einzelbild-Umformung des menschlichen Körpers mit tiefen neuronalen Netzen, und stammt von Forschern der Zhejiang-Universität in Hangzhou und der School of Creative Media der City University of Hong Kong.

SMPL-Anpassung

NeuralReshaper nutzt das Skinned Multi-Person Linear Model (SMPL) entwickelt vom Max-Planck-Institut für Intelligente Systeme und dem renommierten VFX-Haus Industrial Light and Magic im Jahr 2015.

SMPL Parametrische Menschen aus der Planck/ILM-Kollaboration 2015. Quelle: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametrische Menschen aus der Planck/ILM-Kollaboration 2015. Quelle: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

In der ersten Phase des Prozesses wird ein SMPL-Modell aus einem Quellbild generiert, an dem Körpertransformationen vorgenommen werden sollen. Es folgt die Anpassung des SMPL-Modells an das Bild Methodik der 2018 von Universitäten in Deutschland und den USA vorgeschlagenen Human Mesh Recovery (HMR)-Methode.

In diesem Schritt werden die drei Parameter für die Verformung (Gewicht, Größe, Körperproportion) berechnet, zusammen mit einer Berücksichtigung der Kameraparameter, wie z. B. der Brennweite. 2D-Schlüsselpunkte und die generierte Silhouettenausrichtung bilden den Rahmen für die Verformung in Form einer 2D-Silhouette, eine zusätzliche Optimierungsmaßnahme, die die Grenzgenauigkeit erhöht und eine authentische Hintergrundeinmalung weiter unten in der Pipeline ermöglicht.

SMPL-Anpassungsphasen: links das Quellbild; Zweiter von links: das Optimierungsergebnis, das mit der im Jahr 2016 vom Max-Planck-Institut für Intelligente Systeme durchgeführten Forschung erzielt wurde; Dritter von links, ein direktes Schlussfolgerungsergebnis aus dem vorab trainierten Modell für die End-to-End-Wiederherstellung der menschlichen Form und Pose; zweiter von rechts, die nach der Optimierung der 2D-Schlüsselpunkte erhaltenen Ergebnisse; und schließlich, richtig, die fertige Passform nach der Silhouettenoptimierung (siehe oben).

SMPL-Anpassungsphasen: links das Quellbild; Zweitens das Optimierungsergebnis, das mit der im Jahr 2016 beschriebenen Methode erzielt wurde Forschungsprojekte geleitet vom Max-Planck-Institut für Intelligente Systeme; Drittens ein direktes Schlussfolgerungsergebnis aus dem vorab trainierten Modell für End-to-End-Wiederherstellung der menschlichen Form und Haltung; viertens die Ergebnisse, die nach der Optimierung der 2D-Schlüsselpunkte erzielt wurden; und schließlich, fünftens, die fertige Passform nach der Silhouettenoptimierung (siehe oben).

Die 3D-Verformung wird dann in den Bildraum der Architektur projiziert, um ein dichtes Verzerrungsfeld zu erzeugen, das die Verformung definiert. Dieser Vorgang dauert etwa 30 Sekunden pro Bild.

NeuralReshaper-Architektur

NeuralReshaper führt zwei neuronale Netzwerke parallel aus: einen Vordergrund-Encoder, der die transformierte Körperform generiert, und einen Hintergrund-Encoder, der sich auf das Ausfüllen von „deokkludierten“ Hintergrundbereichen konzentriert (zum Beispiel beim Verschlanken eines Körpers – siehe Abbildung unten).

Das U-Net-Framework integriert die Ausgabe der beiden Encoder-Funktionen und übergibt das Ergebnis an einen einheitlichen Encoder, der schließlich aus den beiden Eingaben ein neues Bild erzeugt. Die Architektur verfügt über einen neuartigen Warp-gesteuerten Mechanismus, der die Integration ermöglicht.

Training und Experimente

NeuralReshaper ist in PyTorch auf einer einzelnen NVIDIA 1080ti-GPU mit 11 GB VRAM implementiert. Das Netzwerk wurde für 100 Epochen unter dem Adam-Optimierer trainiert, wobei der Generator auf einen Zielverlust von 0.0001 und der Diskriminator auf einen Zielverlust von 0.0004 eingestellt war. Das Training erfolgte mit einer Stapelgröße von 8 für einen proprietären Outdoor-Datensatz (aus KOKOSNUSS, MPII, und LSP) und 2 für das Training auf dem DeepFashion Datensatz.

Links die Originalbilder, rechts die neuproportionierte Ausgabe von NeuralReshaper.

Links die Originalbilder, rechts die neuproportionierte Ausgabe von NeuralReshaper.

Nachfolgend finden Sie einige Beispiele ausschließlich aus dem für NeuralReshaper trainierten DeepFashion-Datensatz, wobei sich die Originalbilder immer auf der linken Seite befinden.

Die drei steuerbaren Attribute sind entkoppelt und können separat angewendet werden.

Transformationen des abgeleiteten Outdoor-Datensatzes stellen eine größere Herausforderung dar, da sie häufig das Ausfüllen komplexer Hintergründe und eine klare und überzeugende Abgrenzung der transformierten Körpertypen erfordern:

Parametrische Notwendigkeit

Wie in der Arbeit festgestellt wird, stellen Gleichbildtransformationen dieser Art ein schlecht gestelltes Problem bei der Bildsynthese dar. Viele transformative GAN- und Encoder-Frameworks können gepaarte Bilder nutzen (z. B. die verschiedenen Projekte, die darauf ausgelegt sind). Skizze>Foto und Foto>Skizze Transformationen).

Im vorliegenden Fall wären hierfür allerdings Bildpaare erforderlich, die dieselben Personen in unterschiedlichen körperlichen Konfigurationen zeigen, wie etwa die „Vorher-Nachher“-Bilder in der Werbung für Diäten oder plastische Chirurgie – Daten, die schwer zu beschaffen oder zu generieren sind.

Alternativ können transformative GAN-Netzwerke auf viel vielfältigeren Daten trainieren und Transformationen bewirken, indem sie nach ihnen suchen latente Richtung zwischen der Quelle (latenter Code des Originalbildes) und der gewünschten Klasse (in diesem Fall „dick“, „dünn“, „groß“ usw.). Für die Zwecke einer fein abgestimmten Körperumformung ist dieser Ansatz derzeit jedoch zu begrenzt.

Neuronale Strahlungsfelder (Nerf( knapp an Verkleinerung des gesamten Körpers relativ zu seiner Umgebung).

Der latente Raum des GAN ist schwer zu beherrschen; VAEs allein können die Komplexität der Ganzkörperreproduktion noch nicht bewältigen; und die Fähigkeit von NeRF, menschliche Körper konsistent und realistisch umzumodellieren, steckt noch in den Kinderschuhen. Daher dürfte die Einbeziehung „traditioneller“ CGI-Methoden wie SMPL in der Forschung zur menschlichen Bildsynthese fortgesetzt werden, um Merkmale, Klassen und latente Codes zu bündeln und zu konsolidieren, deren Parameter und Nutzbarkeit in diesen neuen Technologien noch nicht vollständig verstanden sind.

 

Erstveröffentlichung am 31. März 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai