Connect with us

Intelligence artificielle

Lecture de lèvres avec des visèmes et apprentissage automatique

mm
HAL reads lips in 2001: A Space Odyssey (1968)

De nouvelles recherches de l’École d’ingénierie informatique de Téhéran offrent une approche améliorée du défi de création de systèmes d’apprentissage automatique capables de lire les lèvres.

Le document, intitulé Lecture de lèvres en utilisant la décoding des visèmes, rapporte que le nouveau système obtient une amélioration de 4 % du taux d’erreur de mot par rapport au meilleur des modèles précédents similaires. Le système répond au manque général de données de formation utiles dans ce secteur en associant des visèmes à du contenu textuel dérivé des six millions d’échantillons de la base de données OpenSubtitles de titres de films traduits.

Un visème est l’équivalent visuel d’un phonème, effectivement une carte audio>image mapping qui peut constituer une « fonction » dans un modèle d’apprentissage automatique.

Visèmes en action.

Visèmes en action. Source : https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Les chercheurs ont commencé par établir le taux d’erreur le plus bas sur les bases de données disponibles, et en développant des séquences de visèmes à partir de procédures de mapping établies. Progressivement, ce processus développe un lexique visuel de mots – bien qu’il soit nécessaire de définir des probabilités de précision pour différents mots qui partagent un visème (comme « cœur » et « art »).

Visèmes extraites du texte.

Visèmes extraites du texte. Source : https://arxiv.org/pdf/2104.04784.pdf

Lorsque deux mots identiques donnent lieu au même visème, le mot le plus fréquemment rencontré est sélectionné.

Le modèle s’appuie sur l’apprentissage traditionnel séquence-à-séquence en ajoutant une étape de sous-traitement dans laquelle les visèmes sont prédits à partir du texte et modélisés dans un pipeline dédié :

Architecture de visème de lecture de lèvres

Au-dessus, les méthodes traditionnelles séquence-à-séquence dans un modèle de caractères ; en dessous, l’ajout de modélisation de caractères de visème dans le modèle de recherche de Téhéran. Source : https://arxiv.org/pdf/2104.04784.pdf

Le modèle a été appliqué sans contexte visuel contre la base de données LRS3-TED, publiée par l’Université d’Oxford en 2018, avec le pire taux d’erreur de mot (WER) obtenu à 24,29 %.

La recherche de Téhéran intègre également l’utilisation d’un convertisseur graphème-phonème.

Dans un test contre la recherche d’Oxford de 2017 Lecture de phrases de lèvres dans la nature (voir ci-dessous), la méthode Vidéo-à-Visème a obtenu un taux d’erreur de mot de 62,3 %, contre 69,5 % pour la méthode d’Oxford.

Les chercheurs concluent que l’utilisation d’un volume plus important d’informations textuelles, combiné avec la cartographie de graphèmes-phonèmes et de visèmes, promet des améliorations par rapport à l’état de l’art dans les systèmes de lecture de lèvres automatisés, tout en reconnaissant que les méthodes utilisées peuvent produire de meilleurs résultats lorsqu’elles sont intégrées dans des cadres plus sophistiqués.

La lecture de lèvres assistée par machine a été un domaine de recherche actif et en cours dans la vision par ordinateur et la recherche en traitement automatique des langues naturelles au cours des deux dernières décennies. Parmi de nombreux autres exemples et projets, en 2006, l’utilisation de logiciels de lecture de lèvres automatisés a fait les gros titres lorsqu’il a été utilisé pour interpréter ce qu’Adolf Hitler disait dans certains des films muets pris à son refuge bavarois, bien que l’application semble avoir disparu dans l’obscurité depuis (douze ans plus tard, Sir Peter Jackson a fait appel à des lecteurs de lèvres humains pour restaurer les conversations de la bande-son de la Première Guerre mondiale dans le projet de restauration They Shall Not Grow Old)).

En 2017, Lecture de phrases de lèvres dans la nature, une collaboration entre l’Université d’Oxford et la division de recherche en intelligence artificielle de Google, a produit un logiciel de lecture de lèvres capable d’inférer correctement 48 % du discours dans une vidéo sans son, alors qu’un lecteur de lèvres humain ne pouvait atteindre une précision de 12,4 % à partir du même matériel. Le modèle a été formé sur des milliers d’heures de bandes-son de la télévision de la BBC.

Ce travail a suivi un autre initiative Oxford/Google de l’année précédente, intitulé LipNet, une architecture de réseau neuronal qui a cartographié des séquences de vidéo de longueurs variables sur des séquences de texte en utilisant un réseau récurrent à porte logique (GRN), qui ajoute une fonctionnalité à l’architecture de base d’un réseau neuronal récurrent (RNN). Le modèle a obtenu une performance améliorée de 4,1 fois par rapport aux lecteurs de lèvres humains.

Outre le problème de produire une transcription précise en temps réel, le défi d’interpréter le discours à partir d’une vidéo se creuse à mesure que vous supprimez des contextes utiles, tels que l’audio, des séquences « face-à-face » bien éclairées et une langue/culture où les phonèmes/visèmes sont relativement distincts.

Bien qu’il n’y a pas actuellement de compréhension empirique des langues les plus difficiles à lire sur les lèvres en l’absence totale d’audio, le japonais est un candidat de premier plan. Les différentes manières dont les Japonais (ainsi que certains autres Asiatiques de l’Est et de l’Ouest) utilisent les expressions faciales contre le contenu de leur discours les rendent déjà un défi plus grand pour les systèmes d’analyse des sentiments.

Cependant, il est important de noter que la plupart de la littérature scientifique sur le sujet est généralement circonspecte, ne serait-ce que parce que même la recherche objective bien intentionnée dans ce domaine risque de dégénérer en profilage racial et en la promotion de stéréotypes existants.

Les langues avec une proportion élevée de composants gutturaux, tels que le tchétchène et le néerlandais, sont particulièrement problématiques pour les techniques d’extraction de discours automatisées, tandis que les cultures où le locuteur peut exprimer une émotion ou un dévouement en regardant ailleurs (encore une fois, généralement dans les cultures asiatiques) ajoutent une autre dimension où les chercheurs en lecture de lèvres par ordinateur devront développer des méthodes supplémentaires de « remplissage » à partir d’autres indices contextuels.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.