Refresh

This website www.unite.ai/fr/lip-reading-with-visemes-and-machine-learning/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Suivez nous sur

Lecture labiale avec visèmes et apprentissage automatique

Intelligence Artificielle

Lecture labiale avec visèmes et apprentissage automatique

mm
Le kit de préparation mis à jour on
HAL lit sur les lèvres en 2001 : A Space Odyssey (1968)

Une nouvelle recherche de l’École de génie informatique de Téhéran propose une approche améliorée du défi de la création de systèmes d’apprentissage automatique capables de lire sur les lèvres.

La papier, intitulé Lecture labiale à l'aide du décodage Viseme, signale que le nouveau système permet d'améliorer de 4 % le taux d'erreurs sur les mots par rapport aux meilleurs modèles précédents similaires. Le système répond au manque général de données utiles sur la formation dans ce secteur en cartographiant visèmes au contenu textuel dérivé des six millions d'échantillons de l'ensemble de données OpenSubtitles de titres de films traduits.

Un visème est l'équivalent visuel d'un phonème, en fait une image audio> cartographie qui peuvent constituer une "fonctionnalité" dans un modèle d'apprentissage automatique.

Visèmes gif

Visèmes en action. Source : https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Les chercheurs ont commencé par établir le taux d'erreur le plus bas sur les ensembles de données disponibles et ont développé des séquences de visèmes à partir de procédures de cartographie établies. Progressivement, ce processus développe un lexique visuel des mots – bien qu'il soit nécessaire de définir des probabilités d'exactitude pour différents mots qui partagent un visème (comme « cœur » et « art »).

Visèmes décodés

Visèmes extraits du texte. Source : https://arxiv.org/pdf/2104.04784.pdf

Lorsque deux mots identiques donnent le même visème, le mot le plus fréquent est sélectionné.

Le modèle s'appuie sur la tradition séquence à séquence apprendre en ajoutant une étape de sous-traitement dans laquelle les visèmes sont prédits à partir du texte et modélisés dans un pipeline dédié :

Lecture labiale de l'architecture Viseme

Ci-dessus, les méthodes traditionnelles de séquence à séquence dans un modèle de personnage ; ci-dessous, l'ajout de la modélisation des caractères visèmes dans le modèle de recherche de Téhéran. Source : https://arxiv.org/pdf/2104.04784.pdf

Le modèle a été appliqué sans contexte visuel contre le Jeu de données LRS3-TED, libéré de l'Université d'Oxford en 2018, avec le pire taux d'erreur de mots (WER) a obtenu un respectable 24.29%.

La recherche de Téhéran intègre également l'utilisation d'un graphème à phonème convertisseur.

Dans un test contre la recherche d'Oxford 2017 Phrases de lecture labiale dans la nature (voir ci-dessous), la méthode Video-To-Viseme a atteint un taux d'erreur de mots de 62.3 %, contre 69.5 % pour la méthode Oxford.

Les chercheurs concluent que l'utilisation d'un volume plus élevé d'informations textuelles, combinée à la cartographie graphème-phonème et visème, promet des améliorations par rapport à l'état de l'art dans les systèmes automatisés de lecture labiale, tout en reconnaissant que les méthodes utilisées peuvent produire même de meilleurs résultats lorsqu'ils sont intégrés dans des cadres actuels plus sophistiqués.

La lecture labiale assistée par machine est un domaine actif et continu de recherche en vision par ordinateur et en PNL au cours des deux dernières décennies. Parmi de nombreux autres exemples et projets, en 2006, l'utilisation d'un logiciel automatisé de lecture labiale titres capturés lorsqu'il est utilisé pour interpréter ce qu'Adolf Hitler disait dans certains des célèbres films muets pris lors de sa retraite bavaroise, bien que l'application semble avoir disparu dans l'obscurité depuis (douze ans plus tard, Sir Peter Jackson recouru aux lecteurs humains sur les lèvres pour restaurer les conversations des images de la Première Guerre mondiale dans le cadre du projet de restauration Ils ne vieilliront pas).

En 2017, Phrases de lecture labiale dans la nature, une collaboration entre l'Université d'Oxford et la division de recherche sur l'IA de Google a produit un IA à lecture labiale capable de déduire correctement 48 % de la parole dans une vidéo sans son, alors qu'un lecteur labiale humain ne pouvait atteindre qu'une précision de 12.4 % à partir du même matériau. Le modèle a été formé sur des milliers d'heures de séquences télévisées de la BBC.

Ce travail fait suite à un séparé Initiative Oxford/Google de l'année précédente, intitulée Réseau à lèvres, une architecture de réseau neuronal qui mappait des séquences vidéo de longueur variable en séquences de texte à l'aide d'un réseau récurrent fermé (GRN), qui ajoute des fonctionnalités à l'architecture de base d'un réseau neuronal récurrent (RNN). Le modèle a atteint des performances 4.1 fois supérieures à celles des lecteurs labiaux humains.

Outre le problème d'obtenir une transcription précise en temps réel, le défi de l'interprétation de la parole à partir d'une vidéo s'aggrave à mesure que vous supprimez un contexte utile, tel que l'audio, des séquences "face à face" bien éclairées et une langue/culture où les phonèmes/ les visèmes sont relativement distincts.

Bien qu'il n'y ait actuellement aucune compréhension empirique des langues les plus difficiles à lire sur les lèvres en l'absence totale d'audio, le japonais est un candidat principal. Les différentes manières dont les natifs japonais (ainsi que certains autres natifs d'Asie de l'Ouest et de l'Est) exploitent les expressions faciales contre le contenu de leur discours en font déjà un plus grand défi pour les systèmes d'analyse des sentiments.

Cependant, il convient de noter qu'une grande partie de la littérature scientifique sur le sujet est généralement circonspect, notamment parce que même une recherche objective bien intentionnée dans ce domaine risque de déboucher sur le profilage racial et la diffusion de stéréotypes existants.

Langues avec une forte proportion de composants gutturaux, comme Tchétchène et Néerlandais, sont particulièrement problématiques pour les techniques automatisées d'extraction de la parole, tandis que les cultures où le locuteur peut exprimer une émotion ou une déférence en détournant le regard (encore une fois, généralement dans les cultures asiatiques) ajoutent une autre dimension où les chercheurs en lecture labiale de l'IA devront développer des méthodes supplémentaires de "remplissage" à partir d'autres indices contextuels.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai