Vernetzen Sie sich mit uns

KĂĽnstliche Intelligenz

Gesichter in Videos mit maschinellem Lernen neu strukturieren

mm

Eine Forschungskooperation zwischen China und Großbritannien hat eine neue Methode entwickelt, um Gesichter in Videos umzugestalten. Die Technik ermöglicht eine überzeugende Verbreiterung und Verengung der Gesichtsstruktur bei hoher Konsistenz und ohne Artefakte.

Aus einem YouTube-Video, das den Forschern als Ausgangsmaterial diente, geht hervor, dass die Schauspielerin Jennifer Lawrence eine eher vulgäre Persönlichkeit zu sein scheint (rechts). Weitere Beispiele mit besserer Auflösung finden Sie im begleitenden Video am Ende des Artikels. Quelle: https://www.youtube.com/watch?v=tA2BxvrKvjE

Aus einem YouTube-Video, das den Forschern als Ausgangsmaterial diente, geht hervor, dass die Schauspielerin Jennifer Lawrence eine hagerere Persönlichkeit zu sein scheint (rechts). Weitere Beispiele mit besserer Auflösung finden Sie im begleitenden Video am Ende des Artikels. Quelle: https://www.youtube.com/watch?v=tA2BxvrKvjE

Diese Art der Transformation ist normalerweise nur mit herkömmlichen CGI-Methoden möglich, bei denen das Gesicht mithilfe detaillierter und teurer Motion-Capping-, Rigging- und Texturierungsverfahren vollständig neu erstellt werden müsste.

Stattdessen wird das in der Technik enthaltene CGI als parametrische 3D-Gesichtsinformationen in eine neuronale Pipeline integriert, die anschlieĂźend als Grundlage fĂĽr einen maschinellen Lernworkflow verwendet wird.

Traditionelle parametrische Gesichter werden zunehmend als Richtlinien fĂĽr Transformationsprozesse verwendet, die KI anstelle von CGI verwenden. Quelle: https://arxiv.org/pdf/2205.02538.pdf

Traditionelle parametrische Gesichter werden zunehmend als Richtlinien fĂĽr Transformationsprozesse verwendet, die KI anstelle von CGI verwenden. Quelle: https://arxiv.org/pdf/2205.02538.pdf

Die Autoren geben an:

„Unser Ziel ist es, qualitativ hochwertige Umformungsergebnisse für Porträtvideos zu erzielen, indem wir die Gesamtform der Porträtgesichter entsprechend der natürlichen Gesichtsverformung in der realen Welt bearbeiten.“ Dies kann für Anwendungen wie die Generierung wohlgeformter Gesichter zur Seligsprechung und die Gesichtsüberhöhung für visuelle Effekte verwendet werden.“

Obwohl 2D-Gesichtsverzerrungen und -verzerrungen seit der Einführung von Photoshop für Verbraucher verfügbar sind (und zu seltsamen und oft inakzeptablen Ergebnissen geführt haben). Subkulturen B. Gesichtsverzerrungen und Körperdysmorphien), ist es ein schwieriger Trick, den man in Videos ohne den Einsatz von CGI umsetzen kann.

Mark Zuckerbergs Dimensionen wurden durch die chinesisch-britische Technik erweitert und verengt.

Die Gesichtsdimensionen von Mark Zuckerberg wurden durch die neue chinesisch-britische Technik erweitert und verkleinert.

Die Körperumformung ist derzeit ein Bereich von intensives Interesse im Computer-Vision-Sektor, hauptsächlich aufgrund seines Potenzials im Mode-E-Commerce, obwohl es derzeit ein Problem ist, jemanden größer oder skelettartig vielfältig erscheinen zu lassen bemerkenswerte Herausforderung.

Ebenso war es Gegenstand der Arbeit, die Form eines Kopfes in Videoaufnahmen auf konsistente und überzeugende Weise zu verändern vorherige Arbeit von den Forschern des neuen Papiers, obwohl diese Implementierung unter Artefakten und anderen Einschränkungen litt. Das neue Angebot erweitert die Möglichkeiten dieser früheren Forschung von der statischen auf die Videoausgabe.

Das neue System wurde auf einem Desktop-PC mit einem AMD Ryzen 9 3950X mit 32 GB Speicher trainiert und nutzt einen Optical-Flow-Algorithmus von OpenCV für Bewegungskarten, geglättet durch die StrukturFlow Rahmen; das Facial Alignment Network (FAN) Komponente zur Orientierungspunktschätzung, die auch in den beliebten Deepfakes-Paketen verwendet wird; und das Ceres-Löser Optimierungsherausforderungen zu lösen.

Ein extremes Beispiel fĂĽr eine Gesichtsverbreiterung mit dem neuen System.

Ein extremes Beispiel fĂĽr eine Gesichtsverbreiterung mit dem neuen System.

Der Krepppapier ist betitelt Parametrische Umformung von Porträts in Videos, und stammt von drei Forschern der Zhejiang-Universität und einem von der University of Bath.

Ăśber das Gesicht

Unter dem neuen System wird das Video in eine Bildsequenz extrahiert und zunächst eine starre Pose für jedes Gesicht geschätzt. Anschließend wird eine repräsentative Anzahl nachfolgender Frames gemeinsam geschätzt, um konsistente Identitätsparameter entlang der gesamten Bildfolge (dh der Frames des Videos) zu erstellen.

Architektonischer Ablauf des Face-Warping-Systems.

Architektonischer Ablauf des Face-Warping-Systems.

Anschließend wird der Ausdruck ausgewertet und ergibt einen Umformungsparameter, der durch lineare Regression implementiert wird. Als nächstes eine neuartige vorzeichenbehaftete Distanzfunktion (SDF)-Ansatz erstellt eine dichte 2D-Abbildung der Gesichtszüge vor und nach der Umformung.

AbschlieĂźend wird eine inhaltsbezogene Warping-Optimierung am Ausgabevideo durchgefĂĽhrt.

Parametrische Flächen

Der Prozess nutzt zunehmend ein 3D Morphable Face Model (3DMM). beliebte Ergänzungt zu neuronalen und GAN-basierten Gesichtssynthesesystemen sowie zu Sein anwendbar für Deepfake-Erkennungssysteme.

Nicht aus dem Papier, sondern ein Beispiel eines 3D Morphable Face Model (3DMM) – eines parametrischen Gesichtsprototyps, der im neuen Projekt verwendet wird. Oben links: Wahrzeichenanwendung auf einer 3DMM-Fläche. Oben rechts: die 3D-Netzscheitelpunkte einer Isokarte. Unten links zeigt die Orientierungspunktanpassung; Unten-Mitte: eine Isomap der extrahierten Gesichtstextur; und unten rechts eine resultierende Passform und Form. Quelle: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Nicht aus dem neuen Artikel, sondern ein Beispiel eines 3D Morphable Face Model (3DMM) – eines parametrischen Gesichtsprototyps, der im neuen Projekt verwendet wird. Oben links: Wahrzeichenanwendung auf einer 3DMM-Fläche. Oben rechts: die 3D-Netzscheitelpunkte einer Isokarte. Unten links zeigt die Orientierungspunktanpassung; Unten-Mitte: eine Isomap der extrahierten Gesichtstextur; und unten rechts eine resultierende Passform und Form. Quelle: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Der Arbeitsablauf des neuen Systems muss Fälle von Okklusion berücksichtigen, beispielsweise wenn die Person wegschaut. Dies ist eine der größten Herausforderungen bei Deepfake-Software, da FAN-Wahrzeichen kaum in der Lage sind, diese Fälle zu berücksichtigen, und dazu neigen, an Qualität zu verlieren, wenn das Gesicht abgewendet oder verdeckt wird.

Das neue System kann diese Falle umgehen, indem es eine definiert Konturenergie Dies ist in der Lage, die Grenze zwischen dem 3D-Gesicht (3DMM) und dem 2D-Gesicht (wie durch FAN-Orientierungspunkte definiert) abzugleichen.

Optimierung

Ein sinnvoller Einsatz für ein solches System wäre die Implementierung einer Echtzeitverformung, beispielsweise in Video-Chat-Filtern. Das aktuelle Framework ermöglicht dies nicht, und die erforderlichen Rechenressourcen würden die „Live“-Verformung zu einer erheblichen Herausforderung machen.

Dem Papier zufolge und unter der Annahme eines 24-fps-Videoziels stellen die Vorgänge pro Bild in der Pipeline eine Latenz von 16.344 Sekunden für jede Sekunde des Filmmaterials dar, mit zusätzlichen einmaligen Treffern für die Identitätsschätzung und die 3D-Gesichtsverformung (321 ms bzw. 160 ms). .

Daher ist die Optimierung der Schlüssel zum Fortschritt bei der Reduzierung der Latenz. Da eine gemeinsame Optimierung über alle Frames hinweg einen erheblichen Mehraufwand für den Prozess bedeuten würde und eine Optimierung im Init-Stil (unter der Annahme der konsistenten nachfolgenden Identität des Sprechers ab dem ersten Frame) zu Anomalien führen könnte, haben die Autoren ein Sparse-Schema zur Berechnung der Koeffizienten übernommen von Bildern, die in praktischen Intervallen abgetastet werden.

AnschlieĂźend wird an dieser Teilmenge von Frames eine gemeinsame Optimierung durchgefĂĽhrt, was zu einem schlankeren Rekonstruktionsprozess fĂĽhrt.

Gesichtsverzerrung

Die im Projekt verwendete Warping-Technik ist eine Adaption der Arbeit der Autoren aus dem Jahr 2020 Tiefgründige Porträts (DSP).

Deep Shapely Portraits, eine Einreichung aus dem Jahr 2020 bei ACM Multimedia. Das Papier wird von Forschern des ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab geleitet. Quelle: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Deep Shapely Portraits, eine Einreichung aus dem Jahr 2020 bei ACM Multimedia. Das Papier wird von Forschern des ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab geleitet. Quelle: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Die Autoren beobachten „Wir erweitern diese Methode von der Umformung eines monokularen Bildes auf die Umformung der gesamten Bildsequenz.“

Tests

Das Papier stellt fest, dass es kein vergleichbares frĂĽheres Material gab, anhand dessen die neue Methode bewertet werden konnte. Daher verglichen die Autoren Frames ihrer verzerrten Videoausgabe mit der statischen DSP-Ausgabe.

Testen des neuen Systems anhand statischer Bilder von Deep Shapely Portraits.

Testen des neuen Systems anhand statischer Bilder von Deep Shapely Portraits.

Die Autoren weisen darauf hin, dass bei der DSP-Methode aufgrund der Verwendung von Sparse Mapping Artefakte entstehen – ein Problem, das das neue Framework durch Dense Mapping löst. Darüber hinaus heißt es in dem von DSP produzierten Video: zeigt Mangel an Glätte und visueller Kohärenz.

Die Autoren geben an:

„Die Ergebnisse zeigen, dass unser Ansatz zuverlässig kohärente, umgeformte Porträtvideos erzeugen kann, während die bildbasierte Methode leicht zu auffälligen Flimmerartefakten führen kann.“

Weitere Beispiele finden Sie im begleitenden Video unten:

Parametrische Umformung von Porträts in Videos – ACM MM 2021

 

Erstveröffentlichung am 9. Mai 2022. Geändert um 6:XNUMX Uhr EET, „Feld“ durch „Funktion“ für SDF ersetzt.

Autor zum Thema maschinelles Lernen, Fachspezialist fĂĽr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂĽr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂĽtzt]
Twitter: @manders_ai