talón Speechmatics lanza software de reconocimiento de voz autónomo - Unite.AI
Contáctanos

Inteligencia artificial

Speechmatics lanza software de reconocimiento de voz autónomo

Actualizado on

Startup líder en tecnología de reconocimiento de voz Speechmatics ha lanzado su software de 'Reconocimiento de voz autónomo' que utiliza las últimas técnicas de aprendizaje profundo y modelos revolucionarios de autosupervisión. El sistema ha demostrado una capacidad para superar a Amazon, Google y Microsoft. 

Conjuntos de datos de Stanford

Speechmatics se basa en conjuntos de datos que se encuentran en Stanford's 'Disparidades raciales en el reconocimiento de voz', y logró una precisión general del 82.8% para las voces afroamericanas. Como referencia, Google solo logró una tasa de precisión del 68.7 %, mientras que Amazon logró el 68.6 %.

El nivel de precisión equivale a una reducción del 45 % en los errores de reconocimiento de voz, lo que equivale a tres palabras en una oración promedio. El nuevo sistema Speechmatics no solo es preciso en este sentido, sino que también demostró mejoras en la precisión según los acentos, la edad, los dialectos y otras características sociodemográficas.

A menudo hay malentendidos en el reconocimiento de voz debido a la cantidad limitada de datos etiquetados que los algoritmos pueden usar para entrenarse. Los datos etiquetados deben ser clasificados manualmente por humanos, lo que da como resultado una menor cantidad de datos disponibles para estos sistemas. Esto también limita la representación de todas las voces, lo que crea un nuevo conjunto de problemas.

Capacitación sobre datos no etiquetados

Speechmatics está logrando grandes avances en este sentido, ya que su tecnología está entrenada en cantidades masivas de datos sin etiquetar obtenidos directamente de Internet. Los datos provienen de cosas como el contenido de las redes sociales y los podcasts. 

El aprendizaje autosupervisado ha permitido entrenar el sistema con 1.1 millones de horas de audio, lo que supone un aumento con respecto a las 30,000 horas anteriores. Esto le permite tener una gama mucho más amplia de representación de voces y ayuda a reducir el sesgo de la IA y los errores en el reconocimiento de voz. 

Cuando se trata de las voces de los niños, Speechmatics también demostró su capacidad para superar a los competidores. Las voces de los niños son difíciles de reconocer a través de la tecnología de reconocimiento de voz heredada, pero Speechmatics logró registrar una tasa de precisión del 91.8 %. Google solo pudo alcanzar el 83.4% y Deepgram el 82.3%. 

Katy Wigdahl es directora ejecutiva de Speechmatics. 

“Tenemos la misión de ofrecer la próxima generación de capacidades de aprendizaje automático y, a través de ello, ofrecer una tecnología de voz más inclusiva y accesible. Este anuncio es un gran paso hacia el logro de esa misión”. 

“Nuestro enfoque en abordar el sesgo de la IA ha llevado a este salto monumental en la industria del reconocimiento de voz y el efecto dominó conducirá a cambios en una multitud de escenarios diferentes”, continuó Wigdahl. “Piense en los subtítulos incorrectos que vemos en las redes sociales, las audiencias judiciales donde las palabras se transcriben incorrectamente y las plataformas de aprendizaje electrónico que han tenido problemas con las voces de los niños durante la pandemia. Los errores que la gente ha tenido que aceptar hasta ahora pueden tener un impacto tangible en su vida diaria”. 

Allison Zhu Koenecke es autora principal del estudio de Stanford sobre reconocimiento de voz.

"Es fundamental estudiar y mejorar la equidad en los sistemas de voz a texto dado el potencial de daño dispar a las personas a través de sectores posteriores que van desde la atención médica hasta la justicia penal". 

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.