Intelligence Artificielle

Lecture labiale avec visèmes et apprentissage automatique

Publié le 13 avril 2021

Le kit de préparation mis à jour 9 décembre 2022

Martin Anderson

HAL lit sur les lèvres en 2001 : A Space Odyssey (1968)

Une nouvelle recherche de l’École de génie informatique de Téhéran propose une approche améliorée du défi de la création de systèmes d’apprentissage automatique capables de lire sur les lèvres.

Quand vous vous déconnectez, votre profil papier, intitulé Lecture labiale à l'aide du décodage Viseme, signale que le nouveau système permet d'améliorer de 4 % le taux d'erreurs sur les mots par rapport aux meilleurs modèles précédents similaires. Le système répond au manque général de données utiles sur la formation dans ce secteur en cartographiant visèmes au contenu textuel dérivé des six millions d'échantillons de l'ensemble de données OpenSubtitles de titres de films traduits.

Un visème est l'équivalent visuel d'un phonème, en fait une image audio> cartographie qui peut constituer une « fonctionnalité » dans un modèle d’apprentissage automatique.

Visèmes en action. Source : https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Les chercheurs ont commencé par établir le taux d'erreur le plus faible sur les ensembles de données disponibles et par développer des séquences de visèmes à partir de procédures de cartographie établies. Progressivement, ce processus permet d'élaborer un lexique visuel de mots, bien qu'il soit nécessaire de définir les probabilités d'exactitude pour différents mots partageant un visème (comme « cœur » et « art »).

Visèmes extraits du texte. Source : https://arxiv.org/pdf/2104.04784.pdf

Lorsque deux mots identiques donnent le même visème, le mot le plus fréquent est sélectionné.

Le modèle s'appuie sur la tradition séquence à séquence apprendre en ajoutant une étape de sous-traitement dans laquelle les visèmes sont prédits à partir du texte et modélisés dans un pipeline dédié :

Lecture labiale de l'architecture Viseme

Ci-dessus, les méthodes traditionnelles de séquence à séquence dans un modèle de personnage ; ci-dessous, l'ajout de la modélisation des caractères visèmes dans le modèle de recherche de Téhéran. Source : https://arxiv.org/pdf/2104.04784.pdf

Le modèle a été appliqué sans contexte visuel contre le Jeu de données LRS3-TED, libéré de l'Université d'Oxford en 2018, avec le pire taux d'erreur de mots (WER) a obtenu un respectable 24.29%.

La recherche de Téhéran intègre également l'utilisation d'un graphème à phonème convertisseur.

Dans un test contre la recherche d'Oxford 2017 Phrases de lecture labiale dans la nature (voir ci-dessous), la méthode Video-To-Viseme a atteint un taux d'erreur de mots de 62.3 %, contre 69.5 % pour la méthode Oxford.

Les chercheurs concluent que l'utilisation d'un volume plus élevé d'informations textuelles, combinée à la cartographie graphème-phonème et visème, promet des améliorations par rapport à l'état de l'art dans les systèmes automatisés de lecture labiale, tout en reconnaissant que les méthodes utilisées peuvent produire même de meilleurs résultats lorsqu'ils sont intégrés dans des cadres actuels plus sophistiqués.

La lecture labiale assistée par machine est un domaine actif et continu de recherche en vision par ordinateur et en PNL au cours des deux dernières décennies. Parmi de nombreux autres exemples et projets, en 2006, l'utilisation d'un logiciel automatisé de lecture labiale titres capturés lorsqu'il est utilisé pour interpréter ce qu'Adolf Hitler disait dans certains des célèbres films muets pris lors de sa retraite bavaroise, bien que l'application semble avoir disparu dans l'obscurité depuis (douze ans plus tard, Sir Peter Jackson recouru aux lecteurs humains sur les lèvres pour restaurer les conversations des images de la Première Guerre mondiale dans le cadre du projet de restauration Ils ne vieilliront pas).

En 2017, Phrases de lecture labiale dans la nature, une collaboration entre l'Université d'Oxford et la division de recherche en IA de Google a produit un IA à lecture labiale capable de déduire correctement 48 % de la parole dans une vidéo sans son, alors qu'un lecteur labiale humain ne pouvait atteindre qu'une précision de 12.4 % à partir du même matériau. Le modèle a été formé sur des milliers d'heures de séquences télévisées de la BBC.

Ce travail fait suite à un séparé Initiative Oxford/Google de l'année précédente, intitulée Réseau à lèvres, une architecture de réseau neuronal qui mappait des séquences vidéo de longueur variable en séquences de texte à l'aide d'un réseau récurrent fermé (GRN), qui ajoute des fonctionnalités à l'architecture de base d'un réseau neuronal récurrent (RNN). Le modèle a atteint des performances 4.1 fois supérieures à celles des lecteurs labiaux humains.

Outre le problème d'obtenir une transcription précise en temps réel, le défi d'interpréter un discours à partir d'une vidéo s'approfondit à mesure que vous supprimez le contexte utile, comme l'audio, les images de face bien éclairées et une langue/culture où les phonèmes/visèmes sont relativement distincts.

Bien qu'il n'existe actuellement aucune compréhension empirique des langues les plus difficiles à lire sur les lèvres en l'absence totale d'audio, le japonais est une candidat principal. Les différentes manières dont les natifs japonais (ainsi que certains autres natifs d'Asie de l'Ouest et de l'Est) exploitent les expressions faciales contre le contenu de leur discours en font déjà un plus grand défi pour les systèmes d'analyse des sentiments.

Il convient toutefois de noter qu'une grande partie de la littérature scientifique sur le sujet est généralement circonspect, notamment parce que même une recherche objective bien intentionnée dans ce domaine risque de déboucher sur le profilage racial et la diffusion de stéréotypes existants.

Langues avec une forte proportion de composants gutturaux, comme Tchétchène et Néerlandais, sont particulièrement problématiques pour les techniques automatisées d'extraction de la parole, tandis que les cultures où le locuteur peut exprimer une émotion ou une déférence en détournant le regard (encore une fois, généralement dans les cultures asiatiques) ajouter une autre dimension dans laquelle les chercheurs en lecture labiale par IA devront développer des méthodes supplémentaires de « remplissage » à partir d'autres indices contextuels.

Rubriques connexes:Machine Learning Une étude reconnaissance de la parole

Chirurgie plastique pour les visages générés par GAN

Ne manquez pas

Pexip collabore avec NVIDIA pour créer des expériences de réunion vidéo immersives

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai

Unite.AI

Lecture labiale avec visèmes et apprentissage automatique

Tu peux aimer