Inteligência artificial
Leitura Labial Com Visemas e Aprendizado de Máquina

Nova pesquisa da Escola de Engenharia de Computação de Teerã oferece uma abordagem aprimorada para o desafio de criar sistemas de aprendizado de máquina capazes de ler lábios.
O artigo, intitulado Leitura de Lábios Usando Decodificação de Visemas, relata que o novo sistema alcança uma melhoria de 4% na taxa de erro de palavra em relação ao melhor dos modelos semelhantes anteriores. O sistema aborda a falta geral de dados de treinamento úteis neste setor mapeando visemas para conteúdo de texto derivado dos seis milhões de amostras no conjunto de dados OpenSubtitles de títulos de filmes traduzidos.
Um visema é o equivalente visual de um fonema, efetivamente um mapeamento áudio>imagem que pode constituir um ‘recursos’ em um modelo de aprendizado de máquina.

Visemas em ação. Fonte: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
Os pesquisadores começaram estabelecendo a taxa de erro mais baixa nos conjuntos de dados disponíveis e desenvolvendo sequências de visemas a partir de procedimentos de mapeamento estabelecidos. Gradualmente, este processo desenvolve um léxico visual de palavras – embora seja necessário definir probabilidades de precisão para diferentes palavras que compartilham um visema (como ‘coração’ e ‘arte’).
Quando duas palavras idênticas resultam no mesmo visema, a palavra mais frequentemente ocorrente é selecionada.
O modelo se baseia no aprendizado de sequência para sequência tradicional adicionando uma etapa de subprocessamento na qual os visemas são previstos a partir do texto e modelados em um pipeline dedicado:

Acima, métodos de sequência para sequência tradicionais em um modelo de caractere; abaixo, a adição de modelagem de caractere de visema no modelo de pesquisa de Teerã. Fonte: https://arxiv.org/pdf/2104.04784.pdf
O modelo foi aplicado sem contexto visual contra o conjunto de dados LRS3-TED, lançado pela Universidade de Oxford em 2018, com a pior taxa de erro de palavra (WER) obtida um respeitável 24,29%.
A pesquisa de Teerã também incorpora o uso de um conversor de grafema para fonema.
Em um teste contra a pesquisa de Oxford de 2017 Leitura de Frases de Lábios no Mundo (veja abaixo), o método Vídeo-Para-Visema alcançou uma taxa de erro de palavra de 62,3%, em comparação com 69,5% para o método de Oxford.
Os pesquisadores concluem que o uso de um volume maior de informações de texto, combinado com mapeamento de grafema para fonema e visema, promete melhorias sobre o estado da arte em sistemas de leitura de lábios automatizados, enquanto reconhece que os métodos utilizados podem produzir resultados ainda melhores quando incorporados em frameworks mais sofisticados atuais.
A leitura de lábios dirigida por máquina tem sido uma área ativa e contínua de pesquisa em visão computacional e NLP nos últimos dois décadas. Entre muitos outros exemplos e projetos, em 2006, o uso de software de leitura de lábios automatizado capturou manchetes quando usado para interpretar o que Adolf Hitler estava dizendo em alguns dos famosos filmes mudos filmados em sua retirada bávara, embora a aplicação pareça ter desaparecido na obscuridade desde (doze anos depois, Sir Peter Jackson recorreu a leitores de lábios humanos para restaurar as conversas de filmes de footage da Primeira Guerra Mundial no projeto de restauração Eles Não Crescerão Velhos).
Em 2017, Leitura de Frases de Lábios no Mundo, uma colaboração entre a Universidade de Oxford e a divisão de pesquisa de IA do Google, produziu um IA de leitura de lábios capaz de inferir corretamente 48% do discurso em vídeo sem som, onde um leitor de lábios humano poderia alcançar apenas 12,4% de precisão a partir do mesmo material. O modelo foi treinado em milhares de horas de footage da BBC.
Este trabalho seguiu um iniciativa separada da Oxford/Google do ano anterior, intitulado LipNet, uma arquitetura de rede neural que mapeia sequências de vídeo de comprimento variável para sequências de texto usando uma Rede Recorrente com Porta (GRN), que adiciona funcionalidade à arquitetura base de uma Rede Neural Recorrente (RNN). O modelo alcançou um desempenho 4,1 vezes melhor do que os leitores de lábios humanos.
Além do problema de obter uma transcrição precisa em tempo real, o desafio de interpretar discurso a partir de vídeo se aprofunda à medida que você remove contextos úteis, como áudio, footage “de frente” bem iluminada e uma linguagem/cultura onde os fonemas/visemas são relativamente distintos.
Embora não haja atualmente uma compreensão empírica de quais línguas são as mais difíceis de ler nos lábios na ausência completa de áudio, o japonês é um candidato principal. As diferentes maneiras pelas quais os nativos japoneses (bem como certos outros nativos asiáticos ocidentais e orientais) utilizam expressões faciais contra o conteúdo de seu discurso já os tornam um desafio maior para sistemas de análise de sentimento.
No entanto, é importante notar que grande parte da literatura científica sobre o assunto é geralmente circunspecta, não menos porque mesmo a pesquisa objetiva bem-intencionada nesta esfera arrisca cruzar para o perfil racial e a promulgação de estereótipos existentes.
Línguas com uma grande proporção de componentes guturais, como checheno e holandês, são particularmente problemáticas para técnicas de extração de discurso automatizadas, enquanto culturas onde o falante pode expressar emoção ou deferência olhando para longe (novamente, geralmente em culturas asiáticas) adicionam outra dimensão onde os pesquisadores de leitura de lábios de IA precisarão desenvolver métodos adicionais de ‘preenchimento’ a partir de outros indícios contextuais.













