Suivez nous sur

Lecture labiale avec visèmes et apprentissage automatique

Intelligence Artificielle

Lecture labiale avec visèmes et apprentissage automatique

mm
HAL lit sur les lèvres en 2001 : A Space Odyssey (1968)

Une nouvelle recherche de l’École de génie informatique de Téhéran propose une approche améliorée du défi de la création de systèmes d’apprentissage automatique capables de lire sur les lèvres.

Quand vous vous dĂ©connectez, votre profil papier, intitulĂ© Lecture labiale Ă  l'aide du dĂ©codage Viseme, signale que le nouveau système permet d'amĂ©liorer de 4 % le taux d'erreurs sur les mots par rapport aux meilleurs modèles prĂ©cĂ©dents similaires. Le système rĂ©pond au manque gĂ©nĂ©ral de donnĂ©es utiles sur la formation dans ce secteur en cartographiant visèmes au contenu textuel dĂ©rivĂ© des six millions d'Ă©chantillons de l'ensemble de donnĂ©es OpenSubtitles de titres de films traduits.

Un visème est l'équivalent visuel d'un phonème, en fait une image audio> cartographie qui peut constituer une « fonctionnalité » dans un modèle d’apprentissage automatique.

Visèmes gif

Visèmes en action. Source : https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Les chercheurs ont commencĂ© par Ă©tablir le taux d'erreur le plus faible sur les ensembles de donnĂ©es disponibles et par dĂ©velopper des sĂ©quences de visèmes Ă  partir de procĂ©dures de cartographie Ă©tablies. Progressivement, ce processus permet d'Ă©laborer un lexique visuel de mots, bien qu'il soit nĂ©cessaire de dĂ©finir les probabilitĂ©s d'exactitude pour diffĂ©rents mots partageant un visème (comme « cĹ“ur Â» et « art Â»).

Visèmes décodés

Visèmes extraits du texte. Source : https://arxiv.org/pdf/2104.04784.pdf

Lorsque deux mots identiques donnent le même visème, le mot le plus fréquent est sélectionné.

Le modèle s'appuie sur la tradition sĂ©quence Ă  sĂ©quence apprendre en ajoutant une Ă©tape de sous-traitement dans laquelle les visèmes sont prĂ©dits Ă  partir du texte et modĂ©lisĂ©s dans un pipeline dĂ©diĂ© :

Lecture labiale de l'architecture Viseme

Ci-dessus, les mĂ©thodes traditionnelles de sĂ©quence Ă  sĂ©quence dans un modèle de personnage ; ci-dessous, l'ajout de la modĂ©lisation des caractères visèmes dans le modèle de recherche de TĂ©hĂ©ran. Source : https://arxiv.org/pdf/2104.04784.pdf

Le modèle a été appliqué sans contexte visuel contre le Jeu de données LRS3-TED, libéré de l'Université d'Oxford en 2018, avec le pire taux d'erreur de mots (WER) a obtenu un respectable 24.29%.

La recherche de Téhéran intègre également l'utilisation d'un graphème à phonème convertisseur.

Dans un test contre la recherche d'Oxford 2017 Phrases de lecture labiale dans la nature (voir ci-dessous), la mĂ©thode Video-To-Viseme a atteint un taux d'erreur de mots de 62.3 %, contre 69.5 % pour la mĂ©thode Oxford.

Les chercheurs concluent que l'utilisation d'un volume plus élevé d'informations textuelles, combinée à la cartographie graphème-phonème et visème, promet des améliorations par rapport à l'état de l'art dans les systèmes automatisés de lecture labiale, tout en reconnaissant que les méthodes utilisées peuvent produire même de meilleurs résultats lorsqu'ils sont intégrés dans des cadres actuels plus sophistiqués.

La lecture labiale assistée par machine est un domaine actif et continu de recherche en vision par ordinateur et en PNL au cours des deux dernières décennies. Parmi de nombreux autres exemples et projets, en 2006, l'utilisation d'un logiciel automatisé de lecture labiale titres capturés lorsqu'il est utilisé pour interpréter ce qu'Adolf Hitler disait dans certains des célèbres films muets pris lors de sa retraite bavaroise, bien que l'application semble avoir disparu dans l'obscurité depuis (douze ans plus tard, Sir Peter Jackson recouru aux lecteurs humains sur les lèvres pour restaurer les conversations des images de la Première Guerre mondiale dans le cadre du projet de restauration Ils ne vieilliront pas).

En 2017, Phrases de lecture labiale dans la nature, une collaboration entre l'UniversitĂ© d'Oxford et la division de recherche en IA de Google a produit un IA Ă  lecture labiale capable de dĂ©duire correctement 48 % de la parole dans une vidĂ©o sans son, alors qu'un lecteur labiale humain ne pouvait atteindre qu'une prĂ©cision de 12.4 % Ă  partir du mĂŞme matĂ©riau. Le modèle a Ă©tĂ© formĂ© sur des milliers d'heures de sĂ©quences tĂ©lĂ©visĂ©es de la BBC.

Ce travail fait suite à un séparé Initiative Oxford/Google de l'année précédente, intitulée Réseau à lèvres, une architecture de réseau neuronal qui mappait des séquences vidéo de longueur variable en séquences de texte à l'aide d'un réseau récurrent fermé (GRN), qui ajoute des fonctionnalités à l'architecture de base d'un réseau neuronal récurrent (RNN). Le modèle a atteint des performances 4.1 fois supérieures à celles des lecteurs labiaux humains.

Outre le problème d'obtenir une transcription précise en temps réel, le défi d'interpréter un discours à partir d'une vidéo s'approfondit à mesure que vous supprimez le contexte utile, comme l'audio, les images de face bien éclairées et une langue/culture où les phonèmes/visèmes sont relativement distincts.

Bien qu'il n'existe actuellement aucune compréhension empirique des langues les plus difficiles à lire sur les lèvres en l'absence totale d'audio, le japonais est une candidat principal. Les différentes manières dont les natifs japonais (ainsi que certains autres natifs d'Asie de l'Ouest et de l'Est) exploitent les expressions faciales contre le contenu de leur discours en font déjà un plus grand défi pour les systèmes d'analyse des sentiments.

Il convient toutefois de noter qu'une grande partie de la littérature scientifique sur le sujet est généralement circonspect, notamment parce que même une recherche objective bien intentionnée dans ce domaine risque de déboucher sur le profilage racial et la diffusion de stéréotypes existants.

Langues avec une forte proportion de composants gutturaux, comme Tchétchène et Néerlandais, sont particulièrement problématiques pour les techniques automatisées d'extraction de la parole, tandis que les cultures où le locuteur peut exprimer une émotion ou une déférence en détournant le regard (encore une fois, généralement dans les cultures asiatiques) ajouter une autre dimension dans laquelle les chercheurs en lecture labiale par IA devront développer des méthodes supplémentaires de « remplissage » à partir d'autres indices contextuels.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai