Contáctenos

Lectura de labios con visemas y aprendizaje automático

Inteligencia Artificial

Lectura de labios con visemas y aprendizaje automático

mm
HAL lee los labios en 2001: Una odisea del espacio (1968)

Una nueva investigación de la Escuela de Ingeniería Informática de Teherán ofrece un enfoque mejorado al desafío de crear sistemas de aprendizaje automático capaces de leer los labios.

El , titulado Lectura de labios usando la decodificación de visemas, informa que el nuevo sistema logra una mejora del 4 % en la tasa de errores de palabras con respecto a los mejores modelos anteriores similares. El sistema aborda la falta general de datos de formación útiles en este sector mediante el mapeo visemas al contenido de texto derivado de los seis millones de muestras del conjunto de datos OpenSubtitles de títulos de películas traducidos.

Un visema es el equivalente visual de un fonema, efectivamente un audio>imagen cartografía que puede constituir una "característica" en un modelo de aprendizaje automático.

visemas gif

Visemas en acción. Fuente: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

Los investigadores comenzaron estableciendo la tasa de error más baja en los conjuntos de datos disponibles y desarrollando secuencias de visemas a partir de procedimientos de mapeo establecidos. Gradualmente, este proceso desarrolla un léxico visual de palabras, aunque es necesario definir las probabilidades de precisión para diferentes palabras que comparten un visema (como "corazón" y "arte").

Visemas decodificados

Visemas extraídos del texto. Fuente: https://arxiv.org/pdf/2104.04784.pdf

Cuando dos palabras idénticas dan como resultado el mismo visema, se selecciona la palabra que aparece con más frecuencia.

El modelo se basa en la tradición secuencia a secuencia aprendizaje agregando una etapa de subprocesamiento en la que los visemas se predicen a partir del texto y se modelan en una canalización dedicada:

lectura de labios arquitectura visema

Arriba, métodos tradicionales de secuencia a secuencia en un modelo de personaje; a continuación, la adición del modelado de personajes de visema en el modelo de investigación de Teherán. Fuente: https://arxiv.org/pdf/2104.04784.pdf

El modelo se aplicó sin contexto visual contra el Conjunto de datos LRS3-TED, liberado de la Universidad de Oxford en 2018, con la peor tasa de error de palabras (WER) obtuvo un respetable 24.29%.

La investigación de Teherán también incorpora el uso de un grafema a fonema convertidor.

En una prueba contra la investigación de Oxford de 2017 Oraciones de lectura de labios en la naturaleza (ver más abajo), el método Video-To-Viseme logró una tasa de error de palabras del 62.3 %, en comparación con el 69.5 % del método Oxford.

Los investigadores concluyen que el uso de un mayor volumen de información de texto, combinado con el mapeo de grafema a fonema y visema, promete mejoras sobre el estado del arte en los sistemas automáticos de lectura de labios, al tiempo que reconocen que los métodos utilizados pueden producir incluso mejores resultados cuando se incorporan a marcos actuales más sofisticados.

La lectura de labios impulsada por máquinas ha sido un área activa y continua de la investigación en visión por computadora y PNL durante las últimas dos décadas. Entre muchos otros ejemplos y proyectos, en 2006 el uso de software automatizado de lectura de labios titulares capturados cuando se utilizaba para interpretar lo que decía Adolf Hitler en algunas de las famosas películas mudas filmadas en su retiro bávaro, aunque la aplicación parece haberse desvanecido en la oscuridad desde entonces (doce años después, Sir Peter Jackson recurrido a los lectores de labios humanos para restaurar las conversaciones de las imágenes de la Primera Guerra Mundial en el proyecto de restauración no envejecerán).

En 2017, Oraciones de lectura de labios en la naturaleza, una colaboración entre la Universidad de Oxford y la división de investigación de inteligencia artificial de Google produjo un IA de lectura de labios capaz de inferir correctamente el 48% del habla en video sin sonido, donde un lector de labios humano solo podría alcanzar una precisión del 12.4% del mismo material. El modelo fue entrenado en miles de horas de imágenes de BBC TV.

Este trabajo siguió a un separado iniciativa de Oxford/Google del año anterior, titulada LipNet, una arquitectura de red neuronal que asigna secuencias de video de longitud variable a secuencias de texto utilizando una red recurrente cerrada (GRN), que agrega funcionalidad a la arquitectura base de una red neuronal recurrente (RNN). El modelo logró un rendimiento 4.1 veces mayor que el de los lectores de labios humanos.

Además del problema de obtener una transcripción precisa en tiempo real, el desafío de interpretar el habla a partir de un video se profundiza a medida que se elimina el contexto útil, como el audio, las imágenes "de frente" bien iluminadas y un idioma/cultura donde los fonemas/visemas son relativamente distintos.

Aunque actualmente no existe una comprensión empírica de qué idiomas son los más difíciles de leer los labios en ausencia total de audio, el japonés es un principal contendiente. Las diferentes formas en que los nativos japoneses (así como algunos otros nativos de Asia occidental y oriental) aprovechan las expresiones faciales contra el contenido de su discurso ya los convierte en un mayor reto para sistemas de análisis de sentimientos.

Sin embargo, vale la pena señalar que gran parte de la literatura científica sobre el tema es generalmente... circunspecto, sobre todo porque incluso la investigación objetiva bien intencionada en este ámbito corre el riesgo de pasar a la elaboración de perfiles raciales y la promulgación de los estereotipos existentes.

Lenguas con una alta proporción de componentes guturales, como Chechenia Holandés, son particularmente problemáticos para las técnicas automatizadas de extracción de voz, mientras que las culturas en las que el hablante puede expresar emoción o deferencia apartando la mirada (nuevamente, generalmente en las culturas asiáticas) añaden otra dimensión en la que los investigadores de lectura de labios con IA necesitarán desarrollar métodos adicionales de "relleno" a partir de otras pistas contextuales.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai