Vernetzen Sie sich mit uns

Künstliche Intelligenz

Der Beginn gefälschter Emotionen

mm

Forscher haben eine neue Technik des maschinellen Lernens entwickelt, um Gesichtern in Videos willkürlich neue Emotionen aufzuzwingen und dabei bestehende Technologien anzupassen, die kürzlich als Lösungen aufgetaucht sind, um Lippenbewegungen an die Synchronisation in Fremdsprachen anzupassen.

Die Forschung ist eine gleichberechtigte Zusammenarbeit zwischen der Northeastern University in Boston und dem Media Lab am MIT und trägt den Titel Invertable Frowns: Video-zu-Video-Übersetzung von Gesichtsemotionen. Obwohl die Forscher einräumen, dass die anfängliche Qualität der Ergebnisse durch weitere Forschung verbessert werden muss, behaupten sie, dass die Technik namens Wav2Lip-Emotion die erste ihrer Art ist, die sich direkt mit der Modifikation des vollständigen Videoausdrucks durch neuronale Netzwerktechniken befasst.

Der Basiscode war freigegeben auf GitHub, obwohl Modellprüfpunkte später zum Open-Source-Repository hinzugefügt werden, versprechen die Autoren.

Links ein „trauriger“ Frame des Quellvideos. Rechts ein „glücklicher“ Rahmen. In der Mitte sind zwei neue Ansätze zur Synthese alternativer Emotionen zu sehen – obere Reihe: ein vollständig maskiertes Gesicht, bei dem die gesamte Ausdrucksoberfläche ersetzt wurde; untere Reihe: eine traditionellere Wav2Lip-Methode, die nur den unteren Teil des Gesichts ersetzt. Quelle: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Links ein „trauriges“ Bild des Quellvideos. Rechts ein „fröhliches“ Bild. In der Mitte sind zwei neue Ansätze zur Synthese alternativer Emotionen zu sehen – obere Reihe: ein vollständig maskiertes Gesicht, bei dem die gesamte Ausdrucksfläche ersetzt wurde; untere Reihe: eine traditionellere Wav2Lip-Methode, bei der nur der untere Teil des Gesichts ersetzt wird. Quelle: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Einzelnes Video als Quelldaten

Theoretisch sind solche Manipulationen jetzt durch umfassendes Training in traditionellen Deepfake-Repositories wie möglich DeepFaceLab oder FaceSwapDer Standardablauf würde jedoch die Verwendung einer alternativen Identität zur Zielidentität beinhalten, beispielsweise einen Schauspieler, der die Zielperson imitiert und dessen eigene Mimik zusammen mit dem Rest der Performance auf eine andere Person übertragen würde. Zusätzlich wären in der Regel Deepfake-Stimmklontechniken erforderlich, um die Illusion zu vervollständigen.

Darüber hinaus ändert sich tatsächlich der Ausdruck von Ziel1>Ziel1 In einem einzigen Quellvideo unter diesen beliebten Frameworks wäre eine Änderung der erforderlich Gesichtsausrichtungsvektoren in einer Weise, die diese Architekturen derzeit nicht ermöglichen.

Wav2Lip-Emotion behält die Lippensynchronisation des ursprünglichen Video-Audio-Dialogs bei und transformiert gleichzeitig die zugehörigen Ausdrücke.

Wav2Lip-Emotion behält die Lippensynchronisation des ursprünglichen Video-Audio-Dialogs bei und transformiert gleichzeitig die zugehörigen Ausdrücke.

Stattdessen versucht Wav2Lip-Emotion, emotionsbezogene Ausdrücke aus einem Teil eines Videos zu „kopieren und einzufügen“ und sie an anderen Stellen einzusetzen. Dabei wird eine selbst auferlegte Sparsamkeit bei den Quelldaten angewandt, die letztendlich eine Methode zur Ausdrucksmanipulation mit geringerem Aufwand bieten soll.

Später könnten Offline-Modelle entwickelt werden, die anhand alternativer Videos des Sprechers trainiert werden. Dadurch entfällt die Notwendigkeit, dass jedes Video eine „Palette“ von Ausdruckszuständen enthält, mit denen das Video bearbeitet werden kann.

Mögliche Zwecke

Die Autoren schlagen eine Reihe von Anwendungen zur Gesichtsausdrucksmodifikation vor, darunter einen Live-Videofilter, um die Auswirkungen von PTBS und Fazialisparese-Patienten auszugleichen. Das Papier stellt fest:

„Personen mit oder ohne gehemmte Mimik können davon profitieren, ihre Mimik besser an ihre sozialen Umstände anzupassen. Man möchte vielleicht die Mimik in Videos verändern, die man ihnen zeigt. Sprecher schreien sich während einer Videokonferenz vielleicht an, möchten aber dennoch den Inhalt ihres Austauschs ohne unangenehme Mimik zusammenfassen. Oder ein Filmregisseur möchte vielleicht die Mimik eines Schauspielers verstärken oder abschwächen.“

Da der Gesichtsausdruck ein Schlüssel- und Kernindikator der AbsichtAuch wenn es an den gesprochenen Worten reibt, bietet die Fähigkeit, den Ausdruck zu verändern, in gewissem Maße auch die Möglichkeit, die Art und Weise der Kommunikation zu verändern Received.

Vorherige Arbeit

Das Interesse an Ausdrucksänderungen durch maschinelles Lernen reicht mindestens bis ins Jahr 2012 zurück, als a Zusammenarbeit zwischen Adobe, Facebook und der Rutgers University schlugen eine Methode zur Änderung von Ausdrücken mithilfe eines Tensor-basierten 3D-Geometrie-Rekonstruktionsansatzes vor, bei dem aufwendig ein CGI-Netz über jedes Bild eines Zielvideos gelegt wurde, um die Änderung zu bewirken.

Bei der Adobe/Facebook-Forschung aus dem Jahr 2012 wurden Gesichtsausdrücke manipuliert, indem dem Videomaterial herkömmliche, CGI-gesteuerte Änderungen auferlegt wurden. Ausdrücke können verstärkt oder unterdrückt werden. Quelle: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Bei der Adobe/Facebook-Forschung aus dem Jahr 2012 wurden Gesichtsausdrücke manipuliert, indem dem Videomaterial herkömmliche, CGI-gesteuerte Änderungen auferlegt wurden. Ausdrücke können verstärkt oder unterdrückt werden. Quelle: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Obwohl die Ergebnisse vielversprechend waren, war die Technik aufwändig und der Ressourcenbedarf beträchtlich. Zu diesem Zeitpunkt war CGI den auf Computer Vision basierenden Ansätzen zur Steuerung des Merkmalsraums und der Pixelmanipulation weit voraus.

Enger mit dem neuen Artikel verwandt ist MEAD, ein im Jahr 2020 veröffentlichtes Datensatz- und Ausdrucksgenerierungsmodell, das in der Lage ist, „Talking-Head“-Videos zu generieren, allerdings ohne den Grad an Komplexität, der möglicherweise durch die direkte Modifizierung des tatsächlichen Quellvideos erreicht werden kann.

Ausdrucksgenerierung mit MEAD aus dem Jahr 2020, einer Zusammenarbeit zwischen SenseTime Research, Carnegie Mellon und drei chinesischen Universitäten. Quelle: https://wywu.github.io/projects/MEAD/MEAD.html

Ausdrucksgenerierung mit MEAD aus dem Jahr 2020, einer Zusammenarbeit zwischen SenseTime Research, Carnegie Mellon und drei chinesischen Universitäten. Quelle: https://wywu.github.io/projects/MEAD/MEAD.html

Im Jahr 2018 erschien ein weiteres Papier mit dem Titel GANimation: Anatomisch bewusste Gesichtsanimation aus einem einzigen Bildentstand als amerikanisch-spanische akademische Forschungskooperation und nutzte Generative Adversarial Networks, um den Ausdruck nur in Standbildern zu verbessern oder zu ändern.

Ausdrücke in Standbildern mit GANimation ändern. Quelle: https://arxiv.org/pdf/1807.09251.pdf

Ausdrücke in Standbildern mit GANimation ändern. Quelle: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Stattdessen basiert das neue Projekt auf Wav2Lip, das sorgte für öffentliche Aufmerksamkeit im Jahr 2020 durch das Angebot einer potenziellen Methode zur Neusynchronisierung der Lippenbewegungen, um sich an neuartige Sprache anzupassen (oder Lied) Eingaben, die im Originalvideo nie enthalten waren.

Das Original Wav2Lip-Architektur wurde anhand eines Korpus gesprochener Sätze aus den BBC-Archiven trainiert. Um Wav2Lip an die Aufgabe der Ausdrucksänderung anzupassen, haben die Forscher die Architektur anhand des oben genannten MEAD-Datensatzes „fein abgestimmt“.

MEAD besteht aus 40 Stunden Video, in dem 60 Schauspieler denselben Satz vorlesen und dabei verschiedene Gesichtsausdrücke ausführen. Die Akteure stammen aus 15 verschiedenen Ländern und bieten eine Reihe internationaler Merkmale, die dem Projekt (und abgeleiteten Projekten) dabei helfen sollen, eine anwendbare und gut verallgemeinerte Ausdruckssynthese zu erstellen.

Zum Zeitpunkt der Untersuchung hatte MEAD lediglich den ersten Teil des Datensatzes veröffentlicht. Dieser umfasste 47 Personen, die Ausdrücke wie „wütend“, „Ekel“, „Angst“, „Verachtung“, „glücklich“, „traurig“ und „Überraschung“ zeigten. Bei diesem ersten Versuch mit einem neuen Ansatz beschränkten sich die Forscher auf die Überlagerung oder anderweitige Veränderung der wahrgenommenen Emotionen „glücklich“ und „traurig“, da diese am leichtesten zu erkennen sind.

Methode und Ergebnisse

Die ursprüngliche Wav2Lip-Architektur ersetzt nur den unteren Teil des Gesichts, während Wav2Lip-Emotion auch mit einer vollständigen Gesichtsersatzmaske und Ausdruckssynthese experimentiert. Daher war es für die Forscher notwendig, die eingebauten Auswertungsmethoden zusätzlich zu modifizieren, da diese nicht für eine Vollgesichtskonfiguration ausgelegt waren.

Die Autoren verbessern den ursprünglichen Code, indem sie die ursprüngliche Audioeingabe beibehalten und so die Konsistenz der Lippenbewegungen gewährleisten.

Das Generatorelement verfügt entsprechend der früheren Arbeit über einen Identitäts-Encoder, einen Sprach-Encoder und einen Gesichts-Decoder. Das Sprachelement wird zusätzlich als gestapelte 2D-Faltungen codiert, die anschließend mit den zugehörigen Frames verkettet werden.

Neben dem generativen Element verfügt die modifizierte Architektur über drei Hauptdiskriminatorkomponenten, die auf die Qualität der Lippensynchronisation abzielen, ein emotionales Zielelement und ein kontradiktorisch trainiertes visuelles Qualitätsziel.

Für die vollständige Gesichtsrekonstruktion enthielt die ursprüngliche Wav2Lip-Arbeit keinen Präzedenzfall und daher wurde das Modell von Grund auf trainiert. Für das Training der unteren Gesichtshälfte (Halbmaske) gingen die Forscher von Kontrollpunkten aus, die im ursprünglichen Wav2Lip-Code enthalten waren.

Neben der automatischen Auswertung nutzten die Forscher auch Crowdsourcing-Meinungen einer halbautomatischen Serviceplattform. Die Mitarbeiter bewerteten das Ergebnis im Hinblick auf die Erkennung der eingeblendeten Emotionen im Allgemeinen gut, während sie die Bildqualität nur mittelmäßig bewerteten.

Die Autoren schlagen vor, dass zukünftige Iterationen der Arbeit neben der Verbesserung der generierten Videoqualität durch weitere Verfeinerungen ein breiteres Spektrum an Emotionen abdecken könnten und dass die Arbeit in Zukunft gleichermaßen auf gekennzeichnete oder automatisch abgeleitete Quelldaten und Datensätze angewendet werden könnte, was letztendlich dazu führen würde , zu einem authentischen System, in dem Emotionen nach Lust und Laune des Benutzers erhöht oder verringert oder letztendlich durch kontrastierende Emotionen in Bezug auf das ursprüngliche Quellvideo ersetzt werden können.

 

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai