Inteligencia artificial
Lectura de labios con visemas y aprendizaje automático

Nueva investigación de la Escuela de Ingeniería Informática de Teherán ofrece un enfoque mejorado para el desafío de crear sistemas de aprendizaje automático capaces de leer labios.
El artículo, titulado Lectura de labios utilizando decodificación de visemas, informa que el nuevo sistema logra una mejora del 4% en la tasa de error de palabra sobre el mejor de los modelos similares anteriores. El sistema aborda la falta general de datos de entrenamiento útiles en este sector al mapear visemas a contenido de texto derivado de las seis millones de muestras en el conjunto de datos OpenSubtitles de títulos de películas traducidas.
Un visema es el equivalente visual de un fonema, efectivamente un mapeo de audio a imagen que puede constituir una ‘característica’ en un modelo de aprendizaje automático.

Visemas en acción. Fuente: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Los investigadores comenzaron estableciendo la tasa de error más baja en los conjuntos de datos disponibles, y desarrollando secuencias de visemas a partir de procedimientos de mapeo establecidos. Gradualmente, este proceso desarrolla un léxico visual de palabras, aunque es necesario definir probabilidades de precisión para diferentes palabras que comparten un visema (como ‘heart’ y ‘art’).
Donde dos palabras idénticas resultan en el mismo visema, se selecciona la palabra más frecuente.
El modelo se basa en el aprendizaje secuencial tradicional al agregar una etapa de subprocesamiento en la que se predicen visemas a partir de texto y se modelan en una canalización dedicada:

Arriba, métodos secuenciales tradicionales en un modelo de caracteres; abajo, la adición de modelado de caracteres de visema en el modelo de investigación de Teherán. Fuente: https://arxiv.org/pdf/2104.04784.pdf
El modelo se aplicó sin contexto visual contra el conjunto de datos LRS3-TED, lanzado por la Universidad de Oxford en 2018, con la tasa de error de palabra (WER) más baja obtenida un respetable 24,29%.
La investigación de Teherán también incorpora el uso de un conversor de grafema a fonema.
En una prueba contra la investigación de Oxford de 2017 Lectura de oraciones en labios en la naturaleza (ver abajo), el método de Video-a-Visema logró una tasa de error de palabra del 62,3%, en comparación con el 69,5% para el método de Oxford.
Los investigadores concluyen que el uso de un mayor volumen de información de texto, combinado con mapeo de grafema a fonema y visema, promete mejoras sobre el estado de la técnica en sistemas de lectura de labios automatizados, mientras reconoce que los métodos utilizados pueden producir resultados aún mejores cuando se incorporen a marcos más sofisticados actuales.
La lectura de labios impulsada por máquina ha sido un área activa y en curso de investigación en visión por computadora y NLP durante las últimas dos décadas. Entre muchos otros ejemplos y proyectos, en 2006 el uso de software de lectura de labios automatizado capturó titulares cuando se utilizó para interpretar lo que Adolf Hitler estaba diciendo en algunas de las famosas películas mudas tomadas en su retiro bávaro, aunque la aplicación parece haber desaparecido en la oscuridad desde (doce años después, Sir Peter Jackson recurrió a lectores de labios humanos para restaurar las conversaciones de las imágenes de la Primera Guerra Mundial en el proyecto de restauración They Shall Not Grow Old).
En 2017, Lectura de oraciones en labios en la naturaleza, una colaboración entre la Universidad de Oxford y la división de investigación de IA de Google, produjo un modelo de lectura de labios capaz de inferir correctamente el 48% del habla en video sin sonido, donde un lector de labios humano solo podría alcanzar una precisión del 12,4% del mismo material. El modelo se entrenó con miles de horas de imágenes de la BBC.
Este trabajo siguió a una iniciativa separada de Oxford/Google del año anterior, titulado LipNet, una arquitectura de red neuronal que mapea secuencias de video de longitud variable a secuencias de texto utilizando una Red Recurrente Gated (GRN), que agrega funcionalidad a la arquitectura base de una Red Recurrente (RNN). El modelo logró un rendimiento 4,1 veces mejor que el de los lectores de labios humanos.
Además del problema de obtener una transcripción precisa en tiempo real, el desafío de interpretar el habla a partir de video se profundiza a medida que se elimina el contexto útil, como el audio, las imágenes ‘de frente’ bien iluminadas y un lenguaje/cultura donde los fonemas/visemas son relativamente distintos.
Aunque actualmente no hay una comprensión empírica de qué lenguajes son los más difíciles de leer en labios en la completa ausencia de audio, el japonés es un principales contendientes. Las diferentes maneras en que los japoneses (así como ciertos otros asiáticos occidentales y orientales) utilizan expresiones faciales contra el contenido de su habla ya los convierten en un mayor desafío para los sistemas de análisis de sentimiento.
Sin embargo, es digno de nota que gran parte de la literatura científica sobre el tema es generalmente cautelosa, no solo porque incluso la investigación objetiva y bien intencionada en esta esfera arriesga cruzar la línea hacia el perfil racial y la promulgación de estereotipos existentes.
Los lenguajes con una alta proporción de componentes guturales, como el checheno y el holandés, son particularmente problemáticos para las técnicas de extracción de habla automatizada, mientras que las culturas donde el hablante puede expresar emoción o deferencia mirando hacia otro lado (nuevamente, generalmente en culturas asiáticas) agregan otra dimensión donde los investigadores de lectura de labios de IA necesitarán desarrollar métodos adicionales de ‘relleno’ a partir de otras pistas contextuales.













