Andersons Blickwinkel

Lip-Lesen mit Visemen und Machine Learning

Veröffentlicht am 13. April 2021

Aktualisiert am 25. Mai 2026

Von

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

Neue Forschungsergebnisse der School of Computer Engineering in Teheran bieten einen verbesserten Ansatz für die Herausforderung, Machine-Learning-Systeme zu entwickeln, die in der Lage sind, Lippen zu lesen.

Die Studie, die den Titel Lip Reading Using Viseme Decoding trägt, berichtet, dass das neue System eine 4-prozentige Verbesserung der Wortfehlerquote im Vergleich zu den besten ähnlichen vorherigen Modellen erreicht. Das System behebt den allgemeinen Mangel an nützlichen Trainingsdaten in diesem Bereich, indem es Viseme auf Textinhalte aus den sechs Millionen Beispielen in der OpenSubtitles-Datenbank von übersetzten Filmtiteln abbildet.

Ein Visem ist das visuelle Äquivalent eines Phonems, effektiv eine Audio-Bild-Zuordnung, die als “Feature” in einem Machine-Learning-Modell dienen kann.

Visemes in Aktion. Quelle: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Die Forscher begannen damit, die niedrigste Fehlerrate in verfügbaren Datenbeständen zu ermitteln und Visem-Folgen aus etablierten Zuordnungsverfahren zu entwickeln. Schritt für Schritt entwickelt sich so ein visuelles Lexikon von Wörtern – es ist jedoch notwendig, die Wahrscheinlichkeiten der Genauigkeit für verschiedene Wörter, die ein Visem teilen (wie “Herz” und “Kunst”), zu definieren.

Viseme, die aus Text extrahiert wurden. Quelle: https://arxiv.org/pdf/2104.04784.pdf

Wenn zwei identische Wörter zu demselben Visem führen, wird das häufiger vorkommende Wort ausgewählt.

Das Modell baut auf traditionellem Sequenz-zu-Sequenz-Lernen auf, indem es eine Unterverarbeitungsstufe hinzufügt, in der Viseme aus Text vorhergesagt und in einer speziellen Pipeline modelliert werden:

Oben, traditionelle Sequenz-zu-Sequenz-Methoden in einem Zeichenmodell; unten, die Hinzufügung von Visem-Zeichenmodellierung im Teheran-Forschungsmodell. Quelle: https://arxiv.org/pdf/2104.04784.pdf

Das Modell wurde ohne visuellen Kontext auf den LRS3-TED-Datensatz angewendet, der 2018 von der Universität Oxford veröffentlicht wurde, wobei der schlechteste Wortfehler (WER) 24,29 % betrug.

Die Teheraner Forschung umfasst auch die Verwendung eines Graphem-Phonem-Konverters.

Bei einem Test gegen die 2017 von Oxford durchgeführte Forschung Lip Reading Sentences In The Wild (siehe unten) erreichte die Video-zu-Visem-Methode eine Wortfehlerquote von 62,3 %, im Vergleich zu 69,5 % für die Oxford-Methode.

Die Forscher kommen zu dem Schluss, dass die Verwendung einer größeren Menge an Textinformationen in Kombination mit Graphem-Phonem- und Visem-Zuordnung Verbesserungen gegenüber dem aktuellen Stand der Technik in automatisierten Lip-Lese-Systemen verspricht, während sie zugleich anerkennen, dass die verwendeten Methoden möglicherweise noch bessere Ergebnisse liefern, wenn sie in komplexere aktuelle Rahmenbedingungen integriert werden.

Die maschinengesteuerte Lippenlesekunst war in den letzten zwei Jahrzehnten ein aktives und laufendes Forschungsgebiet in der Computer-Vision und der NLP. Unter vielen anderen Beispielen und Projekten erregte 2006 die Verwendung automatisierter Lippenlese-Software Schlagzeilen, als sie verwendet wurde, um zu interpretieren, was Adolf Hitler in einigen der berühmten Stummfilme auf seinem bayerischen Rückzugsort sagte, obwohl die Anwendung seitdem (zwölf Jahre später) in der Versenkung verschwunden zu sein scheint (Sir Peter Jackson griff auf menschliche Lippenleser zurück, um die Gespräche von WW1-Footage im Rahmen des Restaurierungsprojekts They Shall Not Grow Old wiederherzustellen).

2017 produzierte Lip Reading Sentences in The Wild, eine Zusammenarbeit zwischen der Universität Oxford und der AI-Forschungsabteilung von Google, ein Lippenlese-AI, die in der Lage war, 48 % der Sprache in Videos ohne Ton richtig abzuleiten, während ein menschlicher Lippenleser nur eine Genauigkeit von 12,4 % aus dem gleichen Material erreichen konnte. Das Modell wurde mit Tausenden von Stunden von BBC-Fernsehmaterial trainiert.

Diese Arbeit folgte auf eine separate Oxford/Google-Initiative aus dem Vorjahr, die den Titel LipNet trug, eine neuronale Netzwerkarchitektur, die Video-Sequenzen variabler Länge auf Text-Sequenzen mit einem Gated Recurrent Network (GRN) abbildete, das Funktionalitäten zur Basis-Architektur eines Recurrent Neural Network (RNN) hinzufügt. Das Modell erreichte eine 4,1-fache Leistungssteigerung gegenüber menschlichen Lippenlesern.

Abgesehen von der Herausforderung, eine genaue Transkription in Echtzeit zu erstellen, vertieft sich die Herausforderung, Sprache aus Videos zu interpretieren, wenn man hilfreichen Kontext wie Audio, “face-on”-Footage, das gut beleuchtet ist, und eine Sprache/Kultur, in der die Phoneme/Viseme relativ unterschiedlich sind, entfernt.

Obwohl es derzeit kein empirisches Verständnis dafür gibt, welche Sprachen am schwierigsten zu lesen sind, wenn man den Audio-Kontext entfernt, ist Japanisch ein primärer Kandidat. Die unterschiedlichen Arten, wie japanische Muttersprachler (sowie bestimmte andere westliche und östliche asiatische Muttersprachler) Gesichtsausdrücke gegen den Inhalt ihrer Sprache einsetzen, machen sie bereits zu einer größeren Herausforderung für Sentiment-Analyse-Systeme.

Es ist jedoch zu beachten, dass viel von der wissenschaftlichen Literatur zu diesem Thema allgemein zurückhaltend ist, nicht zuletzt, weil sogar gut gemeinte objektive Forschung in diesem Bereich das Risiko birgt, in rassistische Profilierung und die Verbreitung bestehender Stereotypen zu verfallen.

Sprachen mit einem hohen Anteil an gutturalen Komponenten, wie Tschetschenisch und Niederländisch, sind besonders problematisch für automatisierte Sprachextraktions-Techniken, während Kulturen, in denen der Sprecher Gefühle oder Respekt durch Wegsehen ausdrücken kann (wiederum allgemein in asiatischen Kulturen), eine weitere Dimension hinzufügen, in der AI-Lippenlese-Forscher zusätzliche Methoden der “Auffüllung” aus anderen Kontext-Hinweisen entwickeln müssen.

Martin Anderson

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.

Unite.AI

Lip-Lesen mit Visemen und Machine Learning

Mehr entdecken