Inteligencia artificial

Unificar la síntesis del habla y el gesto

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Cuando regresé a Gran Bretaña después de pasar algunos años en el sur de Italia, me llevó bastante tiempo dejar de gesticular mientras hablaba. En el Reino Unido, apoyar el habla con movimientos de manos audaces solo hace que parezca que estás demasiado caffeinado; en Italia, como alguien que estaba aprendiendo el idioma, en realidad me ayudó a ser entendido. Incluso ahora, en las ocasiones más raras que hablo italiano, los ‘manos salvajes’ vuelven a funcionar. Es casi imposible hablar italiano sin moverse.

En los últimos años, la comunicación apoyada en gestos en la cultura italiana y judía ha llegado a la atención pública como más que solo un tropo de la obra de Martin Scorsese y las primeras películas de Woody Allen. En 2013, The New York Times compiló una breve historia en video de los gestos de manos italianos; la academia está comenzando a estudiar las propensiones raciales para gesticular, en lugar de descartar el tema como un estereotipo; y los nuevos emojis del Consorcio Unicode están cerrando la brecha de gestos que viene con la comunicación digital y basada en texto.

Un enfoque unificado para el habla y la gesticulación

Ahora, una nueva investigación del Departamento de Habla, Música y Audición del KTH Royal Institute of Technology de Suecia busca combinar el reconocimiento del habla y el gesto en un sistema multi-modal unificado que podría potencialmente aumentar nuestra comprensión de la comunicación basada en el habla utilizando el lenguaje corporal como un complemento integrado al habla, en lugar de un campo de estudio paralelo.

Visualizaciones de la página de prueba del proyecto de habla y gesto sueco. Fuente: https://swatsw.github.io/isg_icmi21/

La investigación propone un nuevo modelo llamado síntesis de habla y gesto integrados (ISG), y reúne una serie de modelos neuronales de vanguardia de la investigación sobre habla y gestos.

El nuevo enfoque abandona el modelo de pipeline lineal (donde la información del gesto se deriva secuencialmente del habla como una etapa de procesamiento secundario) por un enfoque más integrado, que se equipara con los sistemas existentes según los usuarios finales, y que logra un tiempo de síntesis más rápido y una reducción de la cuenta de parámetros.

Enfoques lineales vs. integrados. Fuente: https://arxiv.org/pdf/2108.11436.pdf

El nuevo sistema multi-modal incorpora un sintetizador de texto a habla espontáneo y un generador de gestos impulsado por audio-habla, ambos entrenados en el conjunto de datos existente Trinity Speech Gesture dataset. El conjunto de datos contiene 244 minutos de audio y captura de cuerpo de un hombre hablando sobre diferentes temas y gesticulando libremente.

El trabajo es un equivalente novedoso y tangencial al proyecto DurIAN, que genera expresiones faciales y habla, en lugar de gesto y habla, y que cae más en el ámbito del reconocimiento y síntesis de expresiones.

Arquitecturas

Los componentes de habla y visuales (gesto) del proyecto están desequilibrados en términos de datos; el texto es escaso y la gesticulación es rica y intensiva en datos – un desafío en términos de definir objetivos y métricas. Por lo tanto, los investigadores evaluaron el sistema principalmente por la respuesta humana a la salida, en lugar de enfoques más obvios como el error cuadrático medio (MSE).

Los dos principales modelos ISG se desarrollaron alrededor de la segunda iteración del proyecto de síntesis de habla de Google de 2017 Tacotron, y la iniciativa Glow-TTS de Corea del Sur publicada en 2020. Tacotron utiliza una arquitectura LSTM autorregresiva, mientras que Glow-TTS actúa en paralelo a través de operadores de convolución, con un rendimiento de GPU más rápido y sin los problemas de estabilidad que pueden atender a los modelos autorregresivos.

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Unificar la síntesis del habla y el gesto

Un enfoque unificado para el habla y la gesticulación

Arquitecturas

You may like