Inteligencia artificial
Speechmatics Lanzó Software de Reconocimiento de Voz Autónomo

La startup de tecnología de reconocimiento de voz líder Speechmatics ha lanzado su software de ‘Reconocimiento de Voz Autónomo’ que utiliza las últimas técnicas de aprendizaje profundo y modelos auto-supervisados de vanguardia. El sistema ha demostrado la capacidad de superar a Amazon, Google y Microsoft.
Datos de Stanford
Speechmatics se basa en conjuntos de datos encontrados en el estudio de Stanford sobre ‘Desigualdades raciales en el reconocimiento de voz‘ y logró una precisión general del 82,8% para voces afroamericanas. Para referencia, Google solo logró una tasa de precisión del 68,7%, mientras que Amazon logró el 68,6%.
El nivel de precisión se traduce en una reducción del 45% en los errores de reconocimiento de voz, lo que equivale a tres palabras en una oración promedio. No solo el nuevo sistema Speechmatics es preciso en este sentido, sino que también demostró mejoras en la precisión en acentos, edad, dialectos y diversas otras características sociodemográficas.
A menudo hay malentendidos en el reconocimiento de voz debido a la cantidad limitada de datos etiquetados que los algoritmos pueden utilizar para entrenarse. Los datos etiquetados requieren ser clasificados manualmente por humanos, lo que resulta en una menor cantidad de datos disponibles para estos sistemas. Esto también limita la representación de todas las voces, lo que crea un nuevo conjunto de problemas.
Entrenamiento con datos no etiquetados
Speechmatics está haciendo grandes progresos en este sentido, ya que su tecnología se entrena con grandes cantidades de datos no etiquetados obtenidos directamente de Internet. Los datos provienen de cosas como contenido de redes sociales y podcasts.
El aprendizaje auto-supervisado ha permitido que el sistema se entrene con 1,1 millones de horas de audio, lo que es un aumento con respecto a las 30.000 horas anteriores. Esto le permite tener un rango de representación de voces mucho más amplio y ayuda a reducir los sesgos y errores de IA en el reconocimiento de voz.
En cuanto a las voces de los niños, Speechmatics también demostró la capacidad de superar a los competidores. Las voces de los niños son difíciles de reconocer a través de la tecnología de reconocimiento de voz heredada, pero Speechmatics logró registrar una tasa de precisión del 91,8%. Google solo pudo lograr el 83,4% y Deepgram el 82,3%.
Katy Wigdahl es la CEO de Speechmatics.
“Estamos en una misión para ofrecer la próxima generación de capacidades de aprendizaje automático y, a través de eso, ofrecer tecnología de voz más inclusiva y accesible. Este anuncio es un gran paso hacia el logro de esa misión.”
“Nuestro enfoque en abordar el sesgo de IA ha llevado a este avance monumental en la industria del reconocimiento de voz y el efecto de onda llevará a cambios en una multitud de diferentes escenarios”, continuó Wigdahl. “Piense en los subtítulos incorrectos que vemos en las redes sociales, las audiencias judiciales donde las palabras se transcriben mal y las plataformas de aprendizaje electrónico que han luchado con las voces de los niños a lo largo de la pandemia. Los errores que la gente ha tenido que aceptar hasta ahora pueden tener un impacto tangible en sus vidas diarias.”
Allison Zhu Koenecke es la autora principal del estudio de Stanford sobre reconocimiento de voz.
“Es fundamental estudiar y mejorar la equidad en los sistemas de voz a texto, dado el potencial de daño desigual a las personas a través de sectores posteriores que van desde la atención médica hasta la justicia penal.”








