Intelligence artificielle

Vikrant Tomar, CTO et fondateur de Fluent.ai – Série d’entretiens

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, est le CTO et fondateur de Fluent.ai, un logiciel de compréhension de la parole et d’interface utilisateur vocale pour les fabricants d’appareils et les fournisseurs de services.

Qu’est-ce qui vous a initialement attiré à étudier la modélisation acoustique pour la reconnaissance de la parole ?

En réalité, être capable de parler aux appareils de la même manière que nous parlons à un autre être humain. Cette vision m’a fasciné. J’ai commencé à étudier la reconnaissance de la parole pendant ma dernière année d’études de premier cycle. C’est également à ce moment-là que j’ai commencé à m’intéresser à la recherche, donc j’ai suivi un cours de reconnaissance de la parole et un projet de recherche connexe. J’ai pu publier un article de recherche à la conférence InterSpeech, l’une des plus grandes et des plus réputées conférences de reconnaissance de la parole, à partir de ce travail. Tout cela m’a motivé à choisir la recherche en reconnaissance de la parole comme axe de recherche à long terme, d’où le doctorat.

En 2015, vous avez lancé Fluent.ai, pouvez-vous partager l’histoire de la genèse de cette startup ?

J’ai eu un désir entrepreneurial en moi pendant longtemps. Avec deux autres amis, j’avais tenté de lancer une entreprise après notre diplôme de premier cycle, mais pour diverses raisons, cette tentative n’a pas abouti. Pendant mon doctorat à McGill, j’ai gardé un œil sur la scène des startups de Montréal. À cette époque, j’ai également eu l’occasion de rencontrer des personnes de TandemLaunch – la fonderie de startups où j’ai créé Fluent.ai. À ce moment-là, j’étais vers la fin de mon doctorat et je réfléchissais sérieusement à me lancer à nouveau dans l’entrepreneuriat. Grâce à mon expérience professionnelle, à mes recherches et à mon association avec d’autres groupes de recherche en parole, j’ai réalisé que la plupart de ces expériences avaient porté sur la façon de faire de la reconnaissance de la parole d’une certaine manière : passer de la parole à la transcription de texte, puis au traitement du langage naturel. Cependant, cela a laissé un vide en termes d’utilisabilité. Une grande partie de la population ne peut pas bénéficier des solutions de reconnaissance de la parole développées de cette manière. La quantité de données requise pour de telles méthodes est si importante qu’il ne serait pas rentable de développer des modèles distincts pour les langues ayant moins de locuteurs. De plus, de nombreux dialectes et langues n’ont pas de forme écrite distincte. Même ma propre famille n’a pas pu utiliser les outils que j’ai développés (ils parlent un dialecte de l’hindi). En tenant compte de tout cela, j’ai commencé à réfléchir à des moyens différents de créer des modèles de parole, où la quantité de données requise était moindre et/ou où l’utilisateur final pouvait lui-même former ou mettre à jour les modèles. J’étais au courant du travail effectué à l’Université KU Leuven (KUL) qui pouvait répondre à certaines de ces exigences. Avec une partie de la technologie provenant de KUL, nous avons pu prendre les premières étapes vers ce que Fluent est aujourd’hui.

Pouvez-vous élaborer sur les solutions de compréhension de la parole intuitives de Fluent.ai ?

Les solutions de reconnaissance de la parole de Fluent.ai sont inspirées de la façon dont les humains acquièrent et reconnaissent les langues. Les systèmes de reconnaissance de la parole conventionnels transcrivent d’abord la parole en texte, puis extraient le sens de ce texte. Ce n’est pas ainsi que les humains reconnaissent la parole. Prenons l’exemple des enfants avant qu’ils n’apprennent à lire et à écrire : malgré le fait qu’ils ne connaissent rien à la représentation écrite des langues, ils sont capables d’avoir une conversation orale avec facilité. De même, les modèles de réseaux de neurones profonds de Fluent sont capables d’extraire directement le sens des sons de la parole sans avoir à transcrire préalablement cela en texte. Techniquement, il s’agit d’une véritable compréhension de la langue parlée. Il y a plusieurs avantages à cette approche. La reconnaissance de la parole traditionnelle est une approche fastidieuse, où plusieurs modules formés disjointement sont assemblés pour fournir une réponse finale. Cela donne lieu à une solution non optimale qui souffre de variations dans les résultats pour les accents, le bruit, les conditions de fond, etc. Le système de reconnaissance automatique d’intention (AIR) de Fluent est optimisé de bout en bout ; il s’agit entièrement d’une architecture basée sur les réseaux de neurones, où tous les modules sont formés conjointement pour fournir la solution la plus optimale. En outre, nous pouvons supprimer un certain nombre de modules lourds en calcul présents dans les systèmes de reconnaissance de la parole conventionnels. Cela nous permet de créer des systèmes de reconnaissance de la parole à faible empreinte qui peuvent fonctionner avec seulement 40 Ko de RAM sur un microcontrôleur à faible puissance fonctionnant à 50 MHz. Enfin, nos systèmes de compréhension de la langue parlée basés sur l’AIR peuvent exploiter de manière unique les similarités entre les différentes langues pour fournir des fonctionnalités sans précédent, telles que la capacité de reconnaître plusieurs langues dans le même modèle.

Quels sont les défis liés à l’intelligence artificielle pour surmonter le problème de bruit ambiant ?

Le bruit est l’un des plus grands défis pour la reconnaissance de la parole. Ce qui rend ce problème vraiment difficile est qu’il existe de nombreux types de bruit et qu’ils affectent le spectre de la parole de différentes manières. Parfois, le bruit peut également avoir un impact sur la réponse du microphone. Dans de nombreux cas, il n’est pas possible de séparer les sources de parole des sources de bruit. Dans certains cas, le bruit peut masquer les informations disponibles dans le spectre de la parole, tandis que dans d’autres, il peut complètement supprimer les informations utiles. Les deux résultats entraînent une faible précision. Alors que il est facile de supprimer les types de bruit constants, tels que le bruit de ventilateur, certains types de bruit, tels que le bavardage ou les gens qui parlent en arrière-plan ou la musique, sont très difficiles à supprimer car ils affectent le spectre de la parole de différentes manières.

Pouvez-vous définir ce qu’est l’Edge AI et comment Fluent.ai utilise ce type d’IA ?

L’Edge AI est un terme générique utilisé pour couvrir différents moyens par lesquels les applications d’IA pourraient être déplacées vers des appareils à faible puissance. De plus en plus, ce terme est utilisé pour les cas où les appareils de bord effectuent eux-mêmes certains calculs intelligents. Chez Fluent, nous nous concentrons sur l’apport d’une compréhension de la langue parlée de haute qualité à la périphérie. Nous avons développé des algorithmes efficaces qui permettent aux appareils à faible puissance de calcul de reconnaître eux-mêmes la parole d’entrée sans avoir à envoyer les données à un serveur cloud pour le traitement. Les avantages sont doubles : premièrement, la vie privée de l’utilisateur n’est pas compromise par le streaming et le stockage de ses données vocales dans le cloud. Deuxièmement, cette approche réduit la latence car les données de parole et la réponse n’ont pas à voyager entre le serveur cloud et l’appareil.

Quels autres types de technologies d’apprentissage automatique sont utilisés ?

Notre objectif principal est axé sur les approches basées sur l’apprentissage profond pour la reconnaissance de la parole. Nous utilisons des méthodes de renforcement de l’apprentissage (RL), par exemple NASIL[1], pour découvrir de nouvelles architectures de modèles d’IA inconnues jusqu’alors (en quelque sorte, l’IA créant l’IA). Et nous utilisons AutoML pour ajuster nos modèles d’IA prédéterminés pour obtenir des résultats fiables pour différentes applications, augmentant ainsi la fiabilité et la reproductibilité. La compression de modèle et d’autres approches mathématiques aident également à optimiser les performances du modèle.

Qu’est-ce que vous voyez se produire dans les 5 prochaines années pour la compréhension de la langue naturelle et le traitement de la langue naturelle ?

Je pense que les systèmes évolueront pour fournir des interactions plus naturelles. Malgré les progrès réalisés ces dernières années, la plupart des systèmes actuels ne peuvent répondre qu’à des requêtes simples ou effectuer une recherche vocale sur Internet. Nous allons voir de plus en plus de solutions qui peuvent raisonner et répondre à une requête complète pour une personne au lieu de fonctionner simplement comme un moteur de recherche vocal.

L’autre aspect intéressant est la vie privée. Les solutions actuelles les plus populaires sont principalement des appareils connectés à Internet qui transmettent toutes les données vocales de l’utilisateur à un serveur cloud. Cependant, la vie privée de ces solutions devient un problème. Nous commençons également à voir les applications de l’interface utilisateur vocale au-delà des appareils électroniques grand public, dans l’espace audio professionnel, ainsi que dans l’hôtellerie et les salles de conférence. Un besoin clé pour ces applications est la vie privée, donc les solutions actuelles connectées ne suffisent pas – nous allons donc voir de plus en plus d’IA de bord ou de solutions de langage naturel sur appareil.

Comme je l’ai mentionné plus tôt, les solutions de parole et de langage naturel restent inaccessibles à une grande partie de la population mondiale. Il y a un travail important en cours pour créer de nouveaux types de modèles d’IA qui peuvent être formés avec une petite quantité de données, ce qui entraîne une réduction des coûts de développement, et permet ainsi le développement de modèles dans des langues ayant moins de locuteurs. Dans le même esprit, nous allons voir des solutions qui peuvent apprendre à reconnaître plusieurs langues dans le même modèle. Dans l’ensemble, nous allons voir de plus en plus de déploiements de modèles d’IA multilingues qui peuvent répondre à la requête d’un utilisateur dans sa langue maternelle.

Y a-t-il autre chose que vous aimeriez partager sur Fluent.ai ?

La technologie de la parole a considérablement évolué au cours des dernières années et a un grand potentiel de croissance sur la route à venir. Chez Fluent.ai, nous recherchons constamment de nouveaux cas d’utilisation de notre technologie existante tout en innovant en interne. La pandémie de COVID-19 a créé une sensibilité accrue aux zones à forte fréquentation, telles que les boutons d’ascenseur, les kiosques dans les restaurants et bien d’autres, ce qui a suscité une nouvelle demande de technologie vocale. Fluent.ai espère combler ces lacunes, car nos solutions sont multilingues et donc plus inclusives, et fonctionnent hors ligne, offrant une couche de protection supplémentaire pour la vie privée. Ces fonctions, comme mentionné, seront probablement l’avenir de la technologie de la parole.

Je vous remercie pour cette excellente interview, les lecteurs qui souhaitent en savoir plus peuvent visiter le site de Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine Tardif, CEO & Founder of Unite.AI

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.

Unite.AI

Vikrant Tomar, CTO et fondateur de Fluent.ai – Série d’entretiens

You may like