Inteligência artificial

Unificando Síntese de Fala e Gestos

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Quando voltei para a Grã-Bretanha após alguns anos no sul da Itália, levei algum tempo para parar de gesticular enquanto falava. No Reino Unido, apoiar a fala com movimentos de mão ousados apenas faz você parecer super-caffeínico; na Itália, como alguém que estava aprendendo a língua, na verdade me ajudou a ser entendido. Mesmo agora, nas ocasiões mais raras em que falo italiano, as “mãos selvagens” voltam a funcionar. É quase impossível falar italiano sem se mover.

Nos últimos anos, a comunicação apoiada por gestos na cultura italiana e judaica veio à atenção do público como mais do que apenas um tropeço do trabalho de Martin Scorsese e dos primeiros filmes de Woody Allen. Em 2013, o New York Times compilou um curta história em vídeo de gestos de mão italianos; a academia está começando a estudar propensões raciais para gesticulação, em vez de descartar o assunto como um estereótipo; e novos emojis do Consortium Unicode estão fechando a falta de gestos que vem com a comunicação puramente digital e baseada em texto.

Uma Abordagem Unificada para Fala e Gesticulação

Agora, nova pesquisa do Departamento de Fala, Música e Audição do KTH Royal Institute of Technology, na Suécia, busca combinar reconhecimento de fala e gesto em um sistema multi-modal unificado que poderia potencialmente aumentar nossa compreensão da comunicação baseada em fala, usando a linguagem corporal como um complemento integrado à fala, em vez de um campo de estudo paralelo.

Visuals da página de teste do projeto de fala/gesto sueco. Fonte: https://swatsw.github.io/isg_icmi21/

A pesquisa propõe um novo modelo chamado Síntese de Fala e Gesto Integrada (ISG) e reúne vários modelos neurais de ponta da pesquisa de fala e gesto.

A nova abordagem abandona o modelo de pipeline linear pipeline (onde as informações de gesto são derivadas sequencialmente da fala como um estágio de processamento secundário) por uma abordagem mais integrada, que é igualmente avaliada com os sistemas existentes de acordo com os usuários finais, e que alcança um tempo de síntese mais rápido e uma contagem de parâmetros reduzida.

Abordagens lineares vs. integradas. Fonte: https://arxiv.org/pdf/2108.11436.pdf

O novo sistema multi-modal incorpora um sintetizador de fala espontânea e um gerador de gestos impulsionado por áudio-fala, ambos treinados no conjunto de dados existente Trinity Speech Gesture dataset. O conjunto de dados contém 244 minutos de áudio e captura de corpo de um homem falando sobre diferentes tópicos e gesticulando livremente.

O trabalho é um equivalente novo e tangencial ao projeto DurIAN, que gera expressões faciais e fala, em vez de gesto e fala, e que cai mais no reino do reconhecimento e síntese de expressões.

Arquiteturas

Os componentes de fala e visual (gesto) do projeto estão desequilibrados em termos de dados; o texto é escasso e a gesticulação é rica e intensiva em dados – um desafio em termos de definir metas e métricas. Portanto, os pesquisadores avaliaram o sistema principalmente pela resposta humana à saída, em vez de abordagens mais óbvias mecanicistas, como erro médio quadrático (MSE).

Os dois principais modelos ISG foram desenvolvidos em torno da segunda iteração do projeto de síntese de fala do Google de 2017 Tacotron e da iniciativa sul-coreana Glow-TTS publicada em 2020. O Tacotron utiliza uma arquitetura LSTM autoregressiva, enquanto o Glow-TTS atua em paralelo por meio de operadores de convolução, com um desempenho mais rápido de GPU e sem os problemas de estabilidade que podem atender a modelos autoregressivos.

Os pesquisadores testaram três sistemas de fala/gesto eficazes durante o projeto: uma versão modificada de um publicado em 2021 por vários dos mesmos pesquisadores no novo projeto; uma versão ISG dedicada e modificada do Tacotron 2 de código aberto; e uma versão ISG altamente alterada do Glow-TTS.

Para avaliar os sistemas, os pesquisadores criaram um ambiente de feedback baseado na web com pessoas 3D articuladas falando e se movendo para segmentos de texto pré-definidos (a aparência geral do ambiente pode ser vista na página do projeto público).

O ambiente de teste.

Os participantes do teste foram solicitados a avaliar o desempenho do sistema com base na fala e no gesto, apenas na fala e apenas no gesto. Os resultados mostraram uma ligeira melhoria na nova versão ISG em relação à versão de pipeline mais antiga, embora o sistema mais novo opere mais rapidamente e com recursos reduzidos.

Perguntado ‘Quão humano é o gesto?’, o modelo ISG totalmente integrado termina ligeiramente à frente do modelo de pipeline mais lento, com os modelos baseados em Tacotron e Glow mais atrás.

Encolhimento Incorporado

O modelo Tacotron2-ISG, a abordagem mais bem-sucedida das três, demonstra um nível de ‘aprendizado subliminar’ relacionado a algumas das frases mais comuns no conjunto de dados, como ‘Eu não sei’ – apesar da falta de dados explícitos que o fariam gerar um encolhimento para acompanhar essa frase, os pesquisadores descobriram que o gerador realmente encolhe os ombros.

Os pesquisadores observam que a natureza muito específica desse projeto de pesquisa inevitavelmente significa uma escassez de recursos gerais, como conjuntos de dados dedicados que incorporem dados de fala e gesto de uma maneira adequada para treinar tal sistema. No entanto, e apesar da natureza vanguarda da pesquisa, eles consideram que é uma via promissora e pouco explorada na fala, linguística e reconhecimento de gestos.

Martin Anderson

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.

Unite.AI

Unificando Síntese de Fala e Gestos

Uma Abordagem Unificada para Fala e Gesticulação

Arquiteturas

Encolhimento Incorporado

You may like