Entrevistas
Pavel Osokin, Co-Fundador y CEO de AMAI – Serie de Entrevistas

Pavel Osokin es el Co-Fundador y CEO de AMAI, una startup con sede en San Francisco que produce motores de voz de inteligencia artificial. Pavel lidera la operación y la estrategia de Amai con una ambición profesional de instalar su tecnología de voz en cada teléfono del mundo. En AMAI desarrollaron una voz de inteligencia artificial que no podía ser discernida de un discurso humano real por el 97% de los usuarios.
Ha sido un empresario toda su vida, habiendo lanzado su primera empresa a los 13 años, ¿cuál fue su primer intento de negocios y qué lo motivó a tener esta mentalidad empresarial?
No llamé realmente a eso una empresa, pero gané mi primer dinero revendiendo algunas cosas o simplemente lavando coches en la calle con un balde. Mi motivación era que quería un refresco o un Snickers, y mis padres no tenían dinero. Podía esperar a que el dinero apareciera o ganarlo yo mismo. Esperar no me atrae.
¿Puede compartir la historia de origen detrás de AMAI?
Le pregunté a mi socio, “¿Qué necesitan las empresas de todo el mundo?” En esa conversación, me di cuenta de que todas las empresas buscan una “venta”. Empezamos a hacer robots que pudieran corresponder con los clientes y vender productos a través del correo y los mensajeros. Por otro lado, no era algo particularmente nuevo, ya que hay muchos chatbots disponibles. Así que pensamos que si estos robots también pudieran hacer llamadas, sería genial. Como había pocas soluciones buenas en el mercado, creamos un prototipo de nuestra propia voz sintetizada, y después de la primera venta, abandonamos el robot y nos centramos en TTS.
¿Qué significa específicamente AMAI?
Esto significa Soy IA (Soy inteligencia artificial).
¿Puede discutir algunos de los desafíos detrás del diseño de tecnología de texto a voz de vanguardia?
Diseñar tecnología de texto a voz de vanguardia ofrece varios desafíos. El primero es recopilar conjuntos de datos. Entrenar una red neuronal requiere voces femeninas y masculinas de diferentes edades, y cuanto más, mejor. En segundo lugar, debes lograr una similitud muy cercana a una voz natural. El mejor método es probar diferentes modelos de aprendizaje automático y experimentar constantemente con diferentes casos de uso de la voz: en particular, debes encontrar la muestra más problemática y procesarla por separado. Hablando de desafíos a largo plazo, puede ser difícil evaluar si la voz se ha vuelto mejor o peor, y en qué dirección debe mejorarse.
¿Cuáles son algunos de los desafíos detrás del reconocimiento del habla cuando se trata de humanos interactuando con la voz de IA de AMAI?
Hay cientos de empresas que trabajan en el reconocimiento de la voz porque es más fácil de desarrollar. El problema que actualmente no tiene solución es el reconocimiento de la voz de un niño. Los niños tienen muchas características del habla a una edad temprana, así que es difícil tener en cuenta todos ellos. Sin embargo, hemos estado trabajando en una solución para este problema, y estamos muy cerca de anunciar el resultado, así que pronto nuestra IA no tendrá problemas para interactuar no solo con adultos, sino también con niños.
¿Cuáles son algunos de los casos de uso populares para AMAI?
En este momento, es la doblaje de audiolibros y el uso empresarial en centros de llamadas.
¿Qué idiomas se ofrecen actualmente y qué idiomas se están trabajando actualmente?
Nuestro sistema de varios oradores incluye dos idiomas, ruso e inglés. La idea es que una voz creada en un idioma puede hablar todos los demás idiomas en nuestro modelo también. Actualmente, estamos recopilando datos para 40 idiomas más, y muy pronto tendremos 42.
¿Cuál es su visión para el futuro de los asistentes de voz de IA?
Creo que los asistentes de voz se moverán hacia el metaverso, y estamos estudiando estas oportunidades ahora. Si integras el asistente con altavoces inteligentes o el navegador web, más personas usarán la búsqueda por voz e interactuarán con el asistente todos los días. Puedes hablar con tu refrigerador o tu televisor.
¿Hay algo más que le gustaría compartir sobre AMAI?
AMAI utiliza solo sus propias tecnologías propietarias.
Gracias por la entrevista, los lectores que deseen aprender más pueden visitar AMAI.












