Inteligencia artificial

Vikrant Tomar, CTO y Fundador de Fluent.ai – Serie de Entrevistas

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, es el CTO y Fundador de Fluent.ai, un software de comprensión del habla y interfaz de usuario de voz para fabricantes de dispositivos y proveedores de servicios.

¿Qué te atrajo inicialmente a estudiar la modelización acústica para el reconocimiento del habla?

Realmente, ser capaz de hablar con los dispositivos de la misma manera que hablamos con otro ser humano. Esta visión ha sido fascinante para mí. Comencé a estudiar el reconocimiento del habla durante el último año de mi licenciatura. Esta es también cuando comencé a interesarme en la investigación, así que tomé un curso de reconocimiento del habla y un proyecto de investigación relacionado. Pude publicar un artículo de investigación en la conferencia InterSpeech, una de las conferencias de reconocimiento del habla más grandes y respetadas, a partir de este trabajo. Todo esto me motivó a elegir la investigación en reconocimiento del habla como enfoque a largo plazo, por lo tanto, el PhD.

En 2015 lanzaste Fluent.ai, ¿podrías compartir la historia de génesis detrás de esta startup?

He tenido un anhelo empresarial en mí durante mucho tiempo. Yo, junto con dos amigos más, habíamos intentado iniciar una empresa después de nuestra licenciatura, sin embargo, por varias razones, ese esfuerzo no tuvo éxito. Durante mi PhD en McGill, mantuve un ojo en la escena de startups de Montreal. Durante este tiempo, también tuve la oportunidad de conocer a personas de TandemLaunch – la fábrica de startups donde creé Fluent.ai. En ese momento, estaba hacia el final de mi PhD, y estaba considerando seriamente darle otra oportunidad al espíritu empresarial. A través de mi experiencia laboral, investigación y asociación con otros grupos de investigación de habla, me di cuenta de que la mayoría de estas experiencias habían estado enfocadas en hacer reconocimiento del habla de una manera particular: ir desde la transcripción del habla al texto y luego el procesamiento del lenguaje natural. Sin embargo, esto dejó una brecha en la usabilidad. Una gran parte de la población no puede beneficiarse de las soluciones de habla desarrolladas de esta manera. La cantidad de datos necesarios para estos métodos es tan grande que no tendría sentido financiero desarrollar modelos separados para idiomas con menos hablantes. Además, muchos dialectos y lenguas no tienen una forma escrita distinta. Incluso mi propia familia no pudo utilizar las herramientas que desarrollé (hablan un dialecto de hindi). Considerando todo esto, comencé a pensar en diferentes formas de crear modelos de habla, donde la cantidad de datos necesarios fuera menor, y/o el usuario final pudiera entrenar o actualizar los modelos él mismo. Estaba al tanto del trabajo realizado en la Universidad KU Leuven (KUL) que podría ajustarse a algunos de estos requisitos. Con parte de la tecnología proveniente de KUL, pudimos dar los primeros pasos hacia lo que Fluent es hoy en día.

¿Podrías elaborar sobre las soluciones de comprensión del habla intuitivas de Fluent.ai?

Las soluciones de reconocimiento del habla de Fluent.ai están inspiradas en la forma en que los humanos adquieren y reconocen lenguas. Los sistemas de reconocimiento del habla convencionales primero transcriben el habla de entrada en texto, y luego extraen el significado de ese texto. Esto no es cómo los humanos reconocen el habla. Tomemos el ejemplo de los niños antes de que aprendan a leer y escribir: a pesar de no saber nada sobre la representación escrita de las lenguas, son capaces de tener una conversación hablada con facilidad. De manera similar, los modelos de redes neuronales de Fluent.ai son capaces de extraer directamente el significado de los sonidos del habla sin tener que transcribirlos primero en texto. Técnicamente, esto es un verdadero Entendimiento del Lenguaje Hablado. Hay varias ventajas en este enfoque. El reconocimiento del habla tradicional es un enfoque engorroso, donde varios módulos que se entrenan de manera disjunta se entretejen para proporcionar una respuesta final. Esto resulta en una solución no óptima que sufre de variaciones en los resultados para acentos, ruido, condiciones de fondo, etc. El sistema de reconocimiento de intención automática (AIR) de Fluent.ai es optimizado de extremo a extremo; es enteramente una arquitectura basada en redes neuronales, donde todos los módulos se entrenan conjuntamente para proporcionar la solución más óptima. Además, podemos eliminar varios módulos computacionalmente pesados comúnmente presentes en el sistema de reconocimiento del habla convencional. Esto nos permite crear sistemas de reconocimiento del habla de baja huella que pueden ejecutarse en tan solo 40KB de RAM en un microcontrolador de baja potencia que funciona a 50 MHz. Finalmente, nuestros sistemas de entendimiento del lenguaje hablado basados en AIR pueden explotar las similitudes entre diferentes lenguas de una manera única para proporcionar características sin precedentes, como la capacidad de reconocer múltiples lenguas en el mismo modelo.

¿Cuáles son algunos de los desafíos de la IA para superar el problema del ruido ambiental?

El ruido es uno de los mayores desafíos para el reconocimiento del habla. Lo que lo hace un problema realmente desafiante es que hay muchos tipos diferentes de ruido y afectan el espectro del habla de diferentes maneras. A veces, el ruido también puede tener un impacto en la respuesta del micrófono. En muchos casos, no es posible separar las fuentes de habla de las fuentes de ruido. En algunos casos, el ruido puede resultar en la ocultación de la información disponible en el espectro del habla, mientras que en otros, puede eliminar completamente la información útil. Ambos resultan en baja precisión. Mientras que es fácil eliminar tipos de ruido consistentes, como el ruido de un ventilador, algunos tipos de ruido, como el murmullo o las personas hablando en el fondo o la música, son muy difíciles de eliminar porque de la manera en que afectan el espectro del habla.

¿Podrías definir qué es la IA de borde y cómo Fluent.ai está utilizando este tipo de IA?

La IA de borde es un término genérico utilizado para cubrir varias formas diferentes en que las aplicaciones de IA podrían trasladarse a dispositivos de baja potencia. Cada vez más, este término se utiliza para los casos en que los dispositivos de borde realizan ciertos cálculos inteligentes ellos mismos. En Fluent, nos centramos en llevar una comprensión del lenguaje hablado de alta calidad al borde. Hemos desarrollado algoritmos eficientes que permiten a los dispositivos de computación de baja potencia reconocer el habla de entrada ellos mismos sin tener que enviar los datos a un servidor en la nube para su procesamiento. Las ventajas son dobles: primero, la privacidad del usuario no se ve comprometida al transmitir y almacenar sus datos de voz en la nube. En segundo lugar, este enfoque reduce la latencia porque los datos del habla y la respuesta no tienen que viajar entre el servidor en la nube y el dispositivo.

¿Qué otros tipos de tecnologías de aprendizaje automático se están utilizando?

Nuestro enfoque principal es en enfoques basados en aprendizaje profundo para el reconocimiento del habla. Estamos utilizando métodos de RL (aprendizaje por refuerzo), por ejemplo, NASIL[1], para descubrir nuevas arquitecturas de modelos de IA desconocidas (en cierto sentido, la IA creando la IA). Y estamos utilizando AutoML para ajustar nuestros modelos de IA preestablecidos para lograr resultados confiables para diferentes aplicaciones, lo que aumenta la confiabilidad y la reproducibilidad. La compresión de modelos y otros enfoques matemáticos también ayudan a optimizar el rendimiento del modelo.

¿Qué crees que sucederá en los próximos 5 años para la comprensión del lenguaje natural y el procesamiento del lenguaje natural?

Creo que los sistemas evolucionarán para proporcionar interacciones más naturales. A pesar del progreso en los últimos años, la mayoría de los sistemas actuales solo pueden responder a consultas simples o realizar una búsqueda de internet con voz. Veremos más y más soluciones que puedan razonar y responder a una consulta completa para una persona en lugar de funcionar simplemente como un motor de búsqueda de voz glorificado.

El otro aspecto interesante es la privacidad. Las soluciones actuales más populares son principalmente dispositivos conectados a Internet que transmiten todos los datos de voz del usuario a un servidor en la nube. Sin embargo, la privacidad de estas soluciones se está convirtiendo en un problema. También estamos empezando a ver las aplicaciones de la interfaz de usuario de voz más allá de la electrónica de consumo en entornos industriales, en el espacio de audio profesional, así como en la hostelería y las salas de conferencias. Un requisito clave para estas aplicaciones es la privacidad, por lo tanto, las soluciones actuales conectadas no son suficientes – por lo que veremos mucho más IA de borde o soluciones de lenguaje natural en el dispositivo.

Como mencioné anteriormente, las soluciones de habla y lenguaje natural siguen siendo inaccesibles para una gran parte de la población mundial. Hay un trabajo significativo en marcha para crear nuevos tipos de modelos de IA que puedan entrenarse con una pequeña cantidad de datos, lo que resulta en costos de desarrollo reducidos, y a su vez, permitiendo el desarrollo de modelos en lenguas con menos hablantes. En la misma línea, veremos soluciones que puedan aprender a reconocer múltiples lenguas en el mismo modelo. En general, veremos más y más despliegues de modelos de IA multilingües que puedan responder a la consulta de un usuario en su idioma nativo.

¿Hay algo más que te gustaría compartir sobre Fluent.ai?

La tecnología del habla ha avanzado mucho en los últimos años y tiene un gran potencial de crecimiento en el camino ahead. En Fluent.ai, siempre estamos buscando nuevos casos de uso de nuestra tecnología existente mientras innovamos continuamente de manera interna. La pandemia de COVID-19 ha creado una sensibilidad aumentada hacia las áreas de alto contacto, como los botones del ascensor, los quioscos en los restaurantes y más, lo que ha generado una nueva demanda de tecnología habilitada por voz. Fluent.ai espera ayudar a llenar esas brechas, ya que nuestras soluciones son multilingües y, por lo tanto, más inclusivas, y operan sin conexión, lo que ofrece una capa adicional de privacidad. Estas funciones, como se mencionó, probablemente serán el futuro de la tecnología del habla.

Gracias por la gran entrevista, los lectores que deseen aprender más deben visitar el sitio web de Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine Tardif, CEO & Founder of Unite.AI

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.

Unite.AI

Vikrant Tomar, CTO y Fundador de Fluent.ai – Serie de Entrevistas

You may like