Inteligência artificial

Pesquisadores procuram expandir o reconhecimento automático de fala para 2,000 idiomas

Publicado

1 ano atrás

14 de janeiro de 2023

Uma equipe de pesquisadores da Carnegie Mellon University está procurando expandir o reconhecimento automático de fala para 2,000 idiomas. A partir de agora, apenas uma parte dos estimados 7,000 a 8,000 idiomas falados em todo o mundo se beneficiariam de tecnologias de linguagem modernas, como transcrição de voz para texto ou legenda automática.

Xinjian Li é Ph.D. aluno do Language Technologies Institute (LTI) da Escola de Ciência da Computação.

“Muitas pessoas neste mundo falam diversos idiomas, mas as ferramentas de tecnologia de linguagem não estão sendo desenvolvidas para todos eles”, disse ele. “Desenvolver tecnologia e um bom modelo de linguagem para todas as pessoas é um dos objetivos desta pesquisa.”

Li pertence a uma equipe de especialistas que procura simplificar os requisitos de dados necessários para desenvolver um modelo de reconhecimento de fala.

A equipe também inclui membros do corpo docente da LTI, Shinji Watanabe, Florian Metze, David Mortensen e Alan Black.

A pesquisa intitulada “ASR2K: reconhecimento de fala para cerca de 2,000 idiomas sem áudio” foi apresentado na Interspeech 2022 na Coreia do Sul.

A maioria dos modelos de reconhecimento de fala existentes requer conjuntos de dados de texto e áudio. Embora existam dados de texto para milhares de idiomas, o mesmo não se aplica ao áudio. A equipe deseja eliminar a necessidade de dados de áudio concentrando-se em elementos linguísticos comuns em vários idiomas.

As tecnologias de reconhecimento de fala normalmente se concentram no fonema de um idioma, que são sons distintos que o distinguem de outros idiomas. Estes são exclusivos para cada idioma. Ao mesmo tempo, as línguas têm fonemas que descrevem como uma palavra soa fisicamente, e vários fonemas podem corresponder a um único fonema. Embora idiomas separados possam ter fonemas diferentes, os fones subjacentes podem ser os mesmos.

A equipe está trabalhando em um modelo de reconhecimento de fala que depende menos de fonemas e mais de informações sobre como os telefones são compartilhados entre os idiomas. Isso ajuda a reduzir o esforço necessário para criar modelos separados para cada idioma individual. Ao emparelhar o modelo com uma árvore filogenética, que é um diagrama que mapeia as relações entre os idiomas, ele ajuda nas regras de pronúncia. O modelo da equipe e a estrutura em árvore permitiram aproximar o modelo de fala para milhares de idiomas, mesmo sem dados de áudio.

“Estamos tentando remover esse requisito de dados de áudio, o que nos ajuda a passar de 100 para 200 idiomas para 2,000”, disse Li. “Esta é a primeira pesquisa voltada para um número tão grande de idiomas, e somos a primeira equipe com o objetivo de expandir as ferramentas de linguagem para esse escopo.”

A pesquisa, embora ainda em estágio inicial, melhorou em 5% as ferramentas de aproximação de linguagem existentes.

“Cada língua é um fator muito importante em sua cultura. Cada idioma tem sua própria história e, se você não tentar preservar os idiomas, essas histórias podem se perder”, disse Li. “Desenvolver esse tipo de sistema de reconhecimento de fala e essa ferramenta é um passo para tentar preservar esses idiomas.”

Tópicos relacionados:AI inteligência artificial reconhecimento de fala

A seguir

Aprendizado Profundo vs Aprendizado por Reforço

Não Perca

Aprendizado de máquina x aprendizado profundo – principais diferenças

Alex McFarland

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.