Entretiens

Jean-Louis QuĂ©guiner, Fondateur et PDG de Gladia – SĂ©rie d’entretiens

mm

Jean-Louis Quéguiner est le fondateur et le PDG de Gladia. Auparavant, il a occupé le poste de vice-président du groupe chargé des données, de l’IA et de l’informatique quantique chez OVHcloud, l’un des principaux fournisseurs de services cloud en Europe. Il détient un diplôme de master en intelligence artificielle symbolique de l’Université de Québec au Canada et d’Arts et Métiers ParisTech à Paris. Au cours de sa carrière, il a occupé des postes importants dans diverses industries, notamment l’analyse de données financières, les applications de l’apprentissage automatique pour la publicité numérique en temps réel et le développement d’API de reconnaissance vocale.

Gladia propose des solutions de transcription audio avancées et des solutions d’IA en temps réel pour une intégration transparente dans des produits à travers les industries, les langues et les piles technologiques. En optimisant les modèles d’ASR et d’IA générative de pointe, elle garantit un traitement de la parole et du langage précis et sans retard. La plateforme de Gladia permet également l’extraction en temps réel d’informations et de métadonnées à partir d’appels et de réunions, en soutenant des cas d’utilisation clés pour les entreprises tels que l’assistance commerciale et le support client automatisé.

Qu’est-ce qui vous a inspiré pour relever les défis de la technologie de reconnaissance vocale (STT) et quels sont les lacunes que vous avez constatées sur le marché ?

Lorsque j’ai fondé Gladia, l’objectif initial était large – une entreprise d’IA qui rendrait les technologies complexes accessibles. Mais à mesure que nous nous sommes plongés plus profondément, il est devenu clair que la technologie vocale était le domaine le plus cassé et pourtant le plus critique sur lequel nous devions nous concentrer.

La voix est centrale dans notre vie quotidienne, et la plupart de nos communications se font par la parole. Pourtant, les outils disponibles pour les développeurs pour travailler avec les données vocales étaient inadéquats en termes de vitesse, de précision et de coût – en particulier dans les langues autres que l’anglais.

Je voulais résoudre ce problème, décomposer la complexité de la technologie vocale et la reconditionner en quelque chose de simple, d’efficace, de puissant et d’accessible. Les développeurs ne devraient pas avoir à se soucier des complexités des modèles d’IA ou des nuances de la longueur du contexte dans la reconnaissance vocale. Mon objectif était de créer une API de reconnaissance vocale de niveau entreprise qui fonctionne de manière transparente, indépendamment du modèle ou de la technologie sous-jacente – une véritable solution plug-and-play.

Quels sont quelques-uns des défis uniques que vous avez rencontrés lors de la construction d’une solution de transcription pour une utilisation d’entreprise ?

Lorsqu’il s’agit de la reconnaissance vocale, la vitesse et la précision – les deux principaux indicateurs de performance dans ce domaine – sont inversément proportionnels par conception. Cela signifie que l’amélioration de l’un compromettra l’autre, au moins dans une certaine mesure. Le facteur de coût, dans une large mesure, résulte du choix du fournisseur entre la vitesse et la qualité.

Lors de la construction de Gladia, notre objectif était de trouver l’équilibre parfait entre ces deux facteurs, tout en veillant à ce que la technologie reste accessible aux startups et aux PME. Dans le processus, nous avons également réalisé que les modèles d’ASR fondamentaux comme Whisper d’OpenAI, avec lesquels nous avons travaillé de manière intensive, sont biaisés, s’écartant fortement vers l’anglais en raison de leurs données de formation, ce qui laisse de nombreuses langues sous-représentées.

Ainsi, en plus de résoudre le compromis entre la vitesse et la précision, il était important pour nous – en tant qu’équipe multilingue européenne – d’optimiser et d’affiner nos modèles de base pour construire une API véritablement mondiale qui aide les entreprises à opérer à travers les langues.

Comment Gladia se différencie-t-elle sur le marché de la transcription d’IA encombré ? Qu’est-ce qui rend votre ASR Whisper-Zero unique ?

Notre nouveau moteur en temps réel (Gladia Real Time) atteint une latence de 300 ms de niveau industriel. En outre, il est capable d’extraire des informations à partir d’un appel ou d’une réunion avec les fonctionnalités d’intelligence audio, telles que la reconnaissance des entités nommées (NER) ou l’analyse des sentiments.

À notre connaissance, peu de concurrents sont capables de fournir à la fois la transcription et les informations à une telle latence (moins de 1 s de bout en bout) – et de le faire avec précision dans des langues autres que l’anglais. Notre support linguistique s’étend à plus de 100 langues aujourd’hui.

Nous mettons également l’accent sur le fait de rendre le produit véritablement agnostique de la pile technologique. Notre API est compatible avec toutes les piles technologiques et les protocoles de téléphonie existants, y compris SIP, VoIP, FreeSwitch et Asterisk. Les protocoles de téléphonie sont particulièrement complexes à intégrer, nous croyons donc que cet aspect du produit peut apporter une valeur considérable au marché.

Les hallucinations dans les modèles d’IA sont une préoccupation majeure, en particulier dans la transcription en temps réel. Pouvez-vous expliquer ce que sont les hallucinations dans le contexte de la STT et comment Gladia aborde ce problème ?

Les hallucinations se produisent généralement lorsque le modèle manque de connaissances ou n’a pas suffisamment de contexte sur le sujet. Bien que les modèles puissent produire des sorties adaptées à une demande, ils ne peuvent référencer que les informations qui existaient au moment de leur formation, et qui peuvent ne pas être à jour. Le modèle créera des réponses cohérentes en comblant les lacunes avec des informations qui semblent plausibles mais sont incorrectes.

Alors que les hallucinations sont devenues connues dans le contexte des LLM, elles se produisent également avec les modèles de reconnaissance vocale – comme Whisper ASR, un modèle de pointe dans le domaine développé par OpenAI. Les hallucinations de Whisper sont similaires à celles des LLM en raison d’une architecture similaire, il s’agit donc d’un problème qui concerne les modèles génératifs capables de prédire les mots qui suivent en fonction du contexte global. À un certain égard, ils « inventent » la sortie. Cette approche peut être contrastée avec les architectures d’ASR traditionnelles et fondées sur l’acoustique, qui font correspondre le son d’entrée à la sortie de manière plus mécanique.

Il en résulte que vous pouvez trouver des mots dans une transcription qui n’ont pas été réellement dits, ce qui est clairement problématique, en particulier dans des domaines tels que la médecine, où une erreur de ce type peut avoir des conséquences graves.

Il existe plusieurs méthodes pour gérer et détecter les hallucinations. Une approche courante consiste à utiliser un système de génération augmentée de récupération (RAG), qui combine les capacités génératives du modèle avec un mécanisme de récupération pour vérifier les faits. Une autre méthode implique l’utilisation d’une approche de « chaîne de pensée », dans laquelle le modèle est guidé à travers une série d’étapes prédéfinies ou de points de contrôle pour s’assurer qu’il reste sur un chemin logique.

Une autre stratégie pour détecter les hallucinations implique l’utilisation de systèmes qui évaluent la véracité de la sortie du modèle pendant la formation. Il existe des benchmarks spécifiquement conçus pour évaluer les hallucinations, qui impliquent de comparer différentes réponses candidates générées par le modèle et de déterminer laquelle est la plus précise.

Chez Gladia, nous avons expérimenté une combinaison de techniques lors de la construction de Whisper-Zero, notre ASR propriétaire qui supprime virtuellement toutes les hallucinations. Il a prouvé d’excellents résultats dans la transcription asynchrone, et nous optimisons actuellement pour le temps réel pour atteindre la même fidélité d’information de 99,9 %.

La technologie STT doit gérer une large gamme de complexités telles que les accents, le bruit et les conversations multilingues. Comment Gladia aborde-t-elle ces défis pour assurer une grande précision ?

La détection de la langue dans l’ASR est une tâche extrêmement complexe. Chaque locuteur a une signature vocale unique, que nous appelons des caractéristiques. En analysant le spectre vocal, les algorithmes d’apprentissage automatique peuvent effectuer des classifications, en utilisant les coefficients cepstraux de fréquence de Mel (MFCC) pour extraire les principales caractéristiques de fréquence.

MFCC est une méthode inspirée de la perception auditive humaine. Il s’agit du domaine de la « psychoacoustique », qui se concentre sur la façon dont nous percevons le son. Il met l’accent sur les fréquences plus basses et utilise des techniques telles que la décomposition de Fourier normalisée pour convertir l’audio en un spectre de fréquence.

Cependant, cette approche a une limite : elle est basée uniquement sur l’acoustique. Si vous parlez anglais avec un accent fort, le système peut ne pas comprendre le contenu mais juger en fonction de votre prosodie (rythme, accent, intonation).

C’est là que la solution innovante de Gladia intervient. Nous avons développé une approche hybride qui combine les caractéristiques psychoacoustiques avec la compréhension du contenu pour la détection de la langue dynamique.

Notre système n’écoute pas seulement la façon dont vous parlez, mais comprend également ce que vous dites. Cette approche double permet un commutation de code efficace et ne laisse pas les accents forts se faire mal représenter/mal interpréter.

Le commutation de code – qui est l’un de nos principaux différenciateurs – est une fonctionnalité particulièrement importante pour gérer les conversations multilingues. Les locuteurs peuvent basculer entre les langues au milieu d’une conversation (ou même d’une phrase), et la capacité du modèle à transcrire avec précision en temps réel malgré le basculement est cruciale.

L’API de Gladia est unique dans sa capacité à gérer le commutation de code avec autant de paires de langues et avec un niveau de précision élevé, et elle fonctionne bien même dans des environnements bruyants, connus pour réduire la qualité de la transcription.

La transcription en temps réel nécessite une latence ultra-basse. Comment votre API parvient-elle à une latence inférieure à 300 millisecondes tout en maintenant la précision ?

Maintenir une latence inférieure à 300 millisecondes tout en maintenant une grande précision nécessite une approche multifacette qui allie l’expertise en matière de matériel, l’optimisation des algorithmes et la conception architecturale.

L’IA en temps réel n’est pas comme l’informatique traditionnelle – elle est étroitement liée à la puissance et à l’efficacité des GPGPUs. J’ai travaillé dans ce domaine pendant près d’une décennie, en dirigeant la division IA d’OVHCloud (le plus grand fournisseur de cloud en UE), et j’ai appris de première main que c’est toujours une question de trouver le bon équilibre : combien de puissance de matériel avez-vous besoin, combien cela coûte-t-il et comment vous adaptez les algorithmes pour fonctionner en parfaite harmonie avec ce matériel.

Les performances en temps réel de l’IA proviennent de l’alignement efficace de nos algorithmes sur les capacités du matériel, en veillant à ce que chaque opération maximise le débit tout en minimisant les retards.

Cependant, ce n’est pas seulement l’IA et le matériel. L’architecture du système joue également un rôle important, en particulier le réseau, qui peut vraiment avoir un impact sur la latence. Notre CTO, qui a une expertise approfondie en conception de réseau à faible latence de son temps chez Sigfox (un pionnier de l’IoT), a optimisé notre configuration de réseau pour éliminer des millisecondes précieuses.

Il s’agit donc d’un mélange de tous ces facteurs – choix de matériel intelligent, algorithmes optimisés et conception de réseau – qui nous permet de réaliser systématiquement une latence inférieure à 300 ms sans compromettre la précision.

Gladia va au-delà de la transcription avec des fonctionnalités telles que la diarisation des locuteurs, l’analyse des sentiments et les transcriptions horodatées. Quelles sont certaines applications innovantes que vous avez vues vos clients développer en utilisant ces outils ?

La reconnaissance vocale débloque un large éventail d’applications pour les plateformes à travers les verticales, et il a été incroyable de voir combien d’entreprises véritablement pionnières ont émergé au cours des deux dernières années, en exploitant les LLM et notre API pour construire des produits de pointe et concurrentiels. Voici quelques exemples :

  • Prise de notes intelligente : de nombreux clients construisent des outils pour les professionnels qui ont besoin de capturer et d’organiser rapidement les informations à partir de réunions de travail, de cours universitaires ou de consultations médicales. Avec la diarisation des locuteurs, notre API peut identifier qui a dit quoi, ce qui facilite le suivi des conversations et l’attribution des éléments d’action. Combiné avec des transcriptions horodatées, les utilisateurs peuvent passer directement à des moments spécifiques d’un enregistrement, en économisant du temps et en veillant à ce que rien ne se perde dans la traduction.
  • Activation des ventes : dans le monde des ventes, la compréhension du sentiment du client est tout. Les équipes utilisent notre fonctionnalité d’analyse des sentiments pour obtenir des informations en temps réel sur la façon dont les prospects réagissent pendant les appels ou les démonstrations. De plus, les transcriptions horodatées aident les équipes à revoir les parties clés d’une conversation pour affiner leur argumentaire ou traiter les préoccupations des clients de manière plus efficace. Pour ce cas d’utilisation en particulier, la reconnaissance des entités nommées (NER) est également essentielle pour identifier les noms, les détails de l’entreprise et d’autres informations qui peuvent être extraites des appels de vente pour alimenter automatiquement le CRM.
  • Assistance au centre d’appels : les entreprises du secteur des centres de contact utilisent notre API pour fournir une assistance en temps réel aux agents, ainsi que pour signaler le sentiment du client pendant les appels. La diarisation des locuteurs garantit que les choses dites sont attribuées à la bonne personne, tandis que les transcriptions horodatées permettent aux superviseurs de revoir rapidement les moments critiques ou les problèmes de conformité. Cela améliore non seulement l’expérience client – avec un meilleur taux de résolution et de qualité de suivi – mais augmente également la productivité et la satisfaction des agents.

Pouvez-vous discuter du rôle des vocabulaires personnalisés et de la reconnaissance d’entités dans l’amélioration de la fiabilité de la transcription pour les utilisateurs d’entreprise ?

De nombreuses industries s’appuient sur une terminologie spécialisée, des noms de marque et des nuances linguistiques uniques. L’intégration de vocabulaires personnalisés permet à la solution de transcription d’IA de s’adapter à ces besoins spécifiques, ce qui est crucial pour capturer les nuances contextuelles et fournir une sortie qui reflète avec précision les besoins de l’entreprise. Par exemple, cela permet de créer une liste de mots spécifiques au domaine, tels que des noms de marque, dans une langue spécifique.

Pourquoi cela est-il utile : l’adaptation de la transcription aux besoins spécifiques du secteur permet de minimiser les erreurs dans les transcriptions, ce qui conduit à une meilleure expérience utilisateur. Cette fonctionnalité est particulièrement critique dans des domaines tels que la médecine ou la finance.

La reconnaissance des entités nommées (NER) extrait et identifie les informations clés à partir de données audio non structurées, telles que les noms de personnes, les organisations, les lieux, etc. Un défi courant avec les données non structurées est que ces informations critiques ne sont pas facilement accessibles – elles sont enfouies dans la transcription.

Pour résoudre ce problème, Gladia a développé une approche d’extraction de données clés structurée (KDE). En exploitant les capacités génératives de son architecture basée sur Whisper – similaire aux LLM – Gladia’s KDE capture le contexte pour identifier et extraire les informations pertinentes directement.

Ce processus peut être encore amélioré avec des fonctionnalités telles que des vocabulaires personnalisés et la NER, permettant aux entreprises de peupler rapidement et efficacement les CRM avec des données clés.

À votre avis, comment la transcription en temps réel transforme-t-elle des industries telles que le support client, les ventes et la création de contenu ?

La transcription en temps réel transforme ces industries de manière profonde, entraînant des gains de productivité incroyables, couplés à des avantages commerciaux tangibles.

Tout d’abord, la transcription en temps réel est un facteur de changement pour les équipes de support. L’assistance en temps réel est essentielle pour améliorer le taux de résolution, grâce à des réponses plus rapides, des agents plus intelligents et de meilleurs résultats (en termes de NSF, de temps de traitement, etc.). À mesure que les systèmes d’ASR s’améliorent et sont de mieux en mieux capables de gérer les langues non anglaises et de réaliser des traductions en temps réel, les centres de contact peuvent atteindre une expérience client véritablement mondiale à des marges plus faibles.

Dans les ventes, la vitesse et les informations précises sont tout. De même que ce qui se passe avec les agents de centre d’appels, la transcription en temps réel équipe les équipes de ventes avec les bonnes informations au bon moment, leur permettant de se concentrer sur ce qui compte le plus pour conclure des affaires.

Pour les créateurs, la transcription en temps réel est peut-être moins pertinente aujourd’hui, mais elle est encore pleine de potentiel, en particulier lorsqu’il s’agit de sous-titres en temps réel et de traduction lors d’événements médiatiques. La plupart de nos clients médiatiques actuels préfèrent encore la transcription asynchrone, car la vitesse est moins critique là-bas, tandis que la précision est essentielle pour des applications telles que la génération de sous-titres et l’édition de vidéos horodatées.

La transcription d’IA en temps réel semble être une tendance croissante. Où voyez-vous cette technologie aller dans les 5 à 10 prochaines années ?

Je pense que ce phénomène, que nous appelons maintenant l’IA en temps réel, sera partout. Essentiellement, ce à quoi nous faisons référence ici est la capacité transparente des machines à interagir avec les humains, de la même manière que nous, les humains, interagissons déjà les uns avec les autres.

Et si vous regardez n’importe quel film hollywoodien (comme Her) se déroulant dans le futur, vous ne verrez jamais personne interagir avec des systèmes intelligents via un clavier. Pour moi, cela constitue la preuve ultime que dans l’imagination collective de l’humanité, la voix sera toujours le moyen principal par lequel nous interagissons avec le monde qui nous entoure.

La voix, en tant que principal vecteur d’agrégation et de partage des connaissances humaines, a fait partie de la culture et de l’histoire humaines pendant beaucoup plus longtemps que l’écriture. Ensuite, l’écriture a pris le relais car elle nous a permis de préserver nos connaissances de manière plus efficace que de compter sur les anciens de la communauté pour être les gardiens de nos histoires et de notre sagesse.

Les systèmes d’IA générative, capables de comprendre la parole, de générer des réponses et de stocker nos interactions, ont apporté quelque chose de complètement nouveau dans l’espace. C’est le meilleur des deux mondes et le meilleur de l’humanité. Cela nous donne ce pouvoir unique et cette énergie de la communication vocale avec le bénéfice de la mémoire, qui précédemment ne pouvait être assuré que par les médias écrits. C’est pourquoi je crois qu’il sera partout – c’est notre rêve collectif ultime.

Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter Gladia.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.