Inteligência artificial
Speechmatics Lança Software de Reconhecimento de Fala Autônomo

A startup de tecnologia de reconhecimento de fala líder Speechmatics lançou seu software de ‘Reconhecimento de Fala Autônomo’ que utiliza as últimas técnicas de aprendizado profundo e modelos auto-supervisionados inovadores. O sistema demonstrou a capacidade de superar a Amazon, o Google e a Microsoft.
Conjuntos de Dados de Stanford
A Speechmatics é baseada em conjuntos de dados encontrados no estudo de Stanford sobre ‘Desigualdades Raciais no Reconhecimento de Fala‘ e alcançou uma precisão geral de 82,8% para vozes afro-americanas. Para referência, o Google alcançou apenas uma taxa de precisão de 68,7%, enquanto a Amazon alcançou 68,6%.
O nível de precisão equivale a uma redução de 45% nos erros de reconhecimento de fala, o que é equivalente a três palavras em uma frase média. Além disso, o novo sistema Speechmatics é preciso nesse aspecto e também demonstrou melhorias na precisão em diferentes sotaques, idades, dialetos e outras características sociodemográficas.
Há frequentemente mal-entendidos no reconhecimento de fala devido à quantidade limitada de dados rotulados que os algoritmos podem usar para se treinar. Dados rotulados são necessários para serem classificados manualmente por humanos, o que resulta em uma quantidade menor de dados disponíveis para esses sistemas. Isso também limita a representação de todas as vozes, o que cria um novo conjunto de problemas.
Treinamento em Dados Não Rotulados
A Speechmatics está fazendo um grande progresso nesse sentido, pois sua tecnologia é treinada em grandes quantidades de dados não rotulados extraídos diretamente da internet. Os dados vêm de coisas como conteúdo de mídia social e podcasts.
O aprendizado auto-supervisionado permitiu que o sistema fosse treinado em 1,1 milhão de horas de áudio, o que é um aumento em relação às 30.000 horas anteriores. Isso permite que ele tenha uma amplitude muito maior de representação de vozes e ajuda a reduzir os vieses de IA e erros no reconhecimento de fala.
Quando se trata de vozes de crianças, a Speechmatics também demonstrou a capacidade de superar os concorrentes. As vozes das crianças são desafiadoras para serem reconhecidas pela tecnologia de reconhecimento de fala legada, mas a Speechmatics conseguiu registrar uma taxa de precisão de 91,8%. O Google só conseguiu alcançar 83,4% e o Deepgram 82,3%.
Katy Wigdahl é a CEO da Speechmatics.
“Estamos em uma missão para entregar a próxima geração de capacidades de aprendizado de máquina e, por meio disso, oferecer tecnologia de fala mais inclusiva e acessível. Este anúncio é um grande passo em direção ao cumprimento dessa missão.”
“Nosso foco em combater os vieses de IA levou a este salto monumental para a frente na indústria de reconhecimento de fala e o efeito em cascata levará a mudanças em uma multitude de diferentes cenários”, continuou Wigdahl. “Pense nas legendas incorretas que vemos nas mídias sociais, nas audiências judiciais onde as palavras são mal-transcritas e nas plataformas de eLearning que lutaram com as vozes das crianças ao longo da pandemia. Erros que as pessoas tiveram que aceitar até agora podem ter um impacto tangível em suas vidas diárias.”
Allison Zhu Koenecke é a autora principal do estudo de Stanford sobre reconhecimento de fala.
“É fundamental estudar e melhorar a justiça nos sistemas de fala-para-texto, dado o potencial de danos desiguais a indivíduos por meio de setores downstream que variam desde a saúde até a justiça criminal.”








