Connect with us

Inteligência artificial

EchoSpeech: Revolucionando a Comunicação com Tecnologia de Reconhecimento de Fala Silenciosa

mm

Pesquisadores da Universidade Cornell desenvolveram o EchoSpeech, uma interface de reconhecimento de fala silenciosa que emprega sensores acústicos e inteligência artificial para reconhecer continuamente até 31 comandos não vocalizados com base nos movimentos dos lábios e da boca. Essa interface wearable de baixa potência pode ser operada em um smartphone e requer apenas alguns minutos de dados de treinamento do usuário para o reconhecimento de comandos.

Ruidong Zhang, um estudante de doutorado em ciência da informação, é o autor principal de “EchoSpeech: Reconhecimento Contínuo de Fala Silenciosa em Acessórios Minimamente Invasivos Alimentados por Sensores Acústicos“, que será apresentado na Conferência da Association for Computing Machinery sobre Fatores Humanos em Sistemas de Computação (CHI) este mês em Hamburgo, Alemanha.

“Para pessoas que não podem vocalizar sons, essa tecnologia de fala silenciosa pode ser um excelente input para um sintetizador de voz. Pode devolver as vozes dos pacientes”, disse Zhang, destacando as aplicações potenciais da tecnologia com desenvolvimento adicional.

Aplicações no Mundo Real e Vantagens de Privacidade

Em sua forma atual, o EchoSpeech pode ser usado para se comunicar com os outros via smartphone em ambientes onde a fala é inconveniente ou inadequada, como restaurantes barulhentos ou bibliotecas silenciosas. A interface de fala silenciosa também pode ser combinada com um stylus e utilizada com software de design como CAD, reduzindo significativamente a necessidade de um teclado e um mouse.

Equipado com microfones e alto-falantes menores que borrachas de lápis, os óculos EchoSpeech funcionam como um sistema de sonar wearable alimentado por IA, enviando e recebendo ondas sonoras ao longo do rosto e detectando movimentos da boca. Um algoritmo de aprendizado profundo analisa então esses perfis de eco em tempo real com aproximadamente 95% de precisão.

“Estamos movendo o sonar para o corpo”, disse Cheng Zhang, professor assistente de ciência da informação e diretor do Laboratório de Interfaces de Computador Inteligentes para Interações Futuras (SciFi) da Cornell.

A tecnologia de reconhecimento de fala silenciosa existente geralmente depende de um conjunto limitado de comandos pré-determinados e exige que o usuário enfrente ou use uma câmera. Cheng Zhang explicou que isso não é prático nem viável e também levanta preocupações significativas de privacidade para o usuário e aqueles com quem interage.

A tecnologia de sensoriamento acústico do EchoSpeech elimina a necessidade de câmeras de vídeo wearables. Além disso, como os dados de áudio são menores do que os dados de imagem ou vídeo, eles requerem menos largura de banda para processar e podem ser transmitidos para um smartphone via Bluetooth em tempo real, de acordo com François Guimbretière, professor de ciência da informação.

“E porque os dados são processados localmente no seu smartphone em vez de serem carregados para a nuvem”, disse ele, “as informações sensíveis à privacidade nunca saem do seu controle.”

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.