Interviews
Jean-Louis Quéguiner, Fondateur et PDG de Gladia – Série d’entretiens

Jean-Louis Quéguiner est le fondateur et PDG de Gladia. Il était auparavant vice-président du groupe Données, IA et Informatique quantique chez OVHcloud, l'un des principaux fournisseurs de cloud en Europe. Il est titulaire d'un master en IA symbolique de l'Université du Québec à Montréal (Canada) et d'Arts et Métiers ParisTech (Paris). Au cours de sa carrière, il a occupé des postes importants dans divers secteurs, notamment l'analyse de données financières, les applications d'apprentissage automatique pour la publicité numérique en temps réel et le développement d'API d'IA vocale.
Gladie Gladia propose des solutions avancées de transcription audio et d'IA en temps réel pour une intégration fluide dans des produits de tous secteurs, langues et technologies. L'optimisation de modèles ASR et d'IA générative de pointe garantit un traitement précis et sans décalage de la parole et du langage. La plateforme Gladia permet également l'extraction en temps réel d'informations et de métadonnées issues d'appels et de réunions, prenant en charge des cas d'usage clés en entreprise, tels que l'assistance commerciale et le support client automatisé.
Qu’est-ce qui vous a poussé à relever les défis de la technologie de conversion de la parole en texte (STT) et quelles lacunes avez-vous constatées sur le marché ?
Lorsque j’ai fondé Gladia, l’objectif initial était vaste : créer une entreprise d’IA qui rendrait accessible une technologie complexe. Mais à mesure que nous avons approfondi nos recherches, il est devenu évident que la technologie vocale était le domaine le plus défaillant et pourtant le plus critique sur lequel se concentrer.
La voix est au cœur de notre vie quotidienne et la plupart de nos communications se font par la parole. Pourtant, les outils à disposition des développeurs pour travailler avec les données vocales étaient inadéquats en termes de vitesse, de précision et de prix, en particulier dans plusieurs langues.
Je voulais résoudre ce problème, décortiquer la complexité de la technologie vocale et la transformer en quelque chose de simple, efficace, puissant et accessible. Les développeurs ne devraient pas avoir à se soucier des subtilités des modèles d'IA ou des nuances de longueur de contexte dans la reconnaissance vocale. Mon objectif était de créer une API de conversion de la parole en texte de qualité professionnelle qui fonctionne de manière transparente, quel que soit le modèle ou la technologie sous-jacente, une véritable solution plug-and-play.
Quels sont les défis uniques que vous avez rencontrés lors de la création d’une solution de transcription destinée à une utilisation en entreprise ?
En matière de reconnaissance vocale, la vitesse et la précision – les deux indicateurs de performance clés dans ce domaine – sont intrinsèquement inversement proportionnelles. Cela signifie que l'amélioration de l'un compromettra l'autre, du moins dans une certaine mesure. Le facteur coût résulte en grande partie du choix du fournisseur entre vitesse et qualité.
Lors de la création de Gladia, notre objectif était de trouver l'équilibre parfait entre ces deux facteurs, tout en garantissant que la technologie reste accessible aux startups et aux PME. Au cours du processus, nous avons également réalisé que les modèles ASR fondamentaux comme Whisper d'OpenAI, avec lesquels nous avons beaucoup travaillé, sont biaisés, penchant fortement vers l'anglais en raison de leurs données d'entraînement, ce qui laisse de nombreuses langues sous-représentées.
Ainsi, en plus de résoudre le compromis entre vitesse et précision, il était important pour nous, en tant qu’équipe européenne multilingue, d’optimiser et d’affiner nos modèles de base pour créer une API véritablement mondiale qui aide les entreprises à fonctionner dans plusieurs langues.
Comment Gladia se différencie-t-elle sur le marché encombré de la transcription par IA ? Qu'est-ce qui rend votre ASR Whisper-Zero unique ?
Notre nouveau moteur en temps réel (Gladia Real Time) atteint une latence de 300 ms, la meilleure du secteur. De plus, il est capable d'extraire des informations à partir d'un appel ou d'une réunion grâce à des modules complémentaires ou des fonctionnalités dites « d'intelligence audio », comme la reconnaissance d'entités nommées (NER) ou l'analyse des sentiments.
À notre connaissance, très peu de concurrents sont capables de fournir à la fois la transcription et les informations avec une latence aussi élevée (moins d'une seconde de bout en bout) – et de le faire avec précision dans des langues autres que l'anglais. Notre prise en charge linguistique s'étend aujourd'hui à plus de 1 langues.
Nous mettons également l'accent sur le fait que le produit soit véritablement indépendant de la pile. Notre API est compatible avec toutes les piles technologiques et tous les protocoles de téléphonie existants, notamment SIP, VoIP, FreeSwitch et Asterisk. Les protocoles de téléphonie sont particulièrement complexes à intégrer, c'est pourquoi nous pensons que cet aspect du produit peut apporter une valeur considérable au marché.
Les hallucinations dans les modèles d'IA sont une préoccupation majeure, en particulier dans la transcription en temps réel. Pouvez-vous expliquer ce que sont les hallucinations dans le contexte de la transcription en temps réel et comment Gladia aborde ce problème ?
L'hallucination se produit généralement lorsque le modèle manque de connaissances ou n'a pas suffisamment de contexte sur le sujet. Bien que les modèles puissent produire des résultats adaptés à une demande, ils ne peuvent référencer que des informations qui existaient au moment de leur formation, et qui peuvent ne pas être à jour. Le modèle créera des réponses cohérentes en comblant les lacunes avec des informations qui semblent plausibles mais qui sont incorrectes.
Si les hallucinations ont d'abord été découvertes dans le contexte des LLM, elles se produisent également avec les modèles de reconnaissance vocale, comme Whisper ASR, un modèle phare dans le domaine développé par OpenAI. Les hallucinations de Whisper ressemblent à celles des LLM en raison d'une architecture similaire, il s'agit donc d'un problème qui concerne les modèles génératifs, qui sont capables de prédire les mots qui suivent en fonction du contexte global. D'une certaine manière, ils « inventent » le résultat. Cette approche peut être contrastée avec les architectures ASR plus traditionnelles, basées sur l'acoustique, qui font correspondre le son d'entrée au résultat de manière plus mécanique
Il se peut donc que vous trouviez dans une transcription des mots qui n’ont pas été réellement prononcés, ce qui est clairement problématique, en particulier dans des domaines comme la médecine, où une erreur de ce type peut avoir de graves conséquences.
Il existe plusieurs méthodes pour gérer et détecter les hallucinations. Une approche courante consiste à utiliser un système de génération augmentée par récupération (RAG), qui combine les capacités génératives du modèle avec un mécanisme de récupération permettant de recouper les faits. Une autre méthode consiste à utiliser une approche par « chaîne de pensée », où le modèle est guidé à travers une série d'étapes ou de points de contrôle prédéfinis pour garantir qu'il reste sur un chemin logique.
Une autre stratégie de détection des hallucinations consiste à utiliser des systèmes qui évaluent la véracité des résultats du modèle pendant l'entraînement. Il existe des tests de référence spécifiquement conçus pour évaluer les hallucinations, qui consistent à comparer différentes réponses candidates générées par le modèle et à déterminer laquelle est la plus précise.
Chez Gladia, nous avons expérimenté une combinaison de techniques lors de la création de Whisper-Zero, notre ASR propriétaire qui supprime pratiquement toutes les hallucinations. Il a prouvé d'excellents résultats en transcription asynchrone, et nous l'optimisons actuellement pour le temps réel afin d'atteindre la même fidélité des informations de 99.9 %.
La technologie STT doit gérer un large éventail de complexités telles que les accents, le bruit et les conversations multilingues. Comment Gladia relève-t-elle ces défis pour garantir une grande précision ?
La détection de la langue dans la reconnaissance vocale automatique est une tâche extrêmement complexe. Chaque locuteur possède une signature vocale unique, que nous appelons caractéristiques. En analysant le spectre vocal, les algorithmes d'apprentissage automatique peuvent effectuer des classifications, en utilisant les coefficients cepstraux de fréquence Mel (MFCC) pour extraire les principales caractéristiques de fréquence.
La MFCC est une méthode inspirée de la perception auditive humaine. Elle fait partie du domaine de la « psychoacoustique » et se concentre sur la façon dont nous percevons le son. Elle met l'accent sur les fréquences les plus basses et utilise des techniques comme la décomposition de Fourier normalisée pour convertir l'audio en un spectre de fréquences.
Cependant, cette approche présente une limite : elle repose uniquement sur l'acoustique. Ainsi, si vous parlez anglais avec un fort accent, le système risque de ne pas comprendre le contenu, mais de se baser sur votre prosodie (rythme, accentuation, intonation).
C'est là qu'intervient la solution innovante de Gladia. Nous avons développé une approche hybride qui combine des fonctionnalités psychoacoustiques avec la compréhension du contenu pour une détection dynamique du langage.
Notre système n'écoute pas seulement votre façon de parler, il comprend également ce que vous dites. Cette double approche permet un changement de code efficace et prévient les accents prononcés.
Le changement de code, qui fait partie de nos principaux différenciateurs, est une fonctionnalité particulièrement importante dans la gestion des conversations multilingues. Les locuteurs peuvent changer de langue au milieu d'une conversation (ou même au milieu d'une phrase), et la capacité du modèle à transcrire avec précision à la volée malgré le changement est essentielle.
L'API Gladia est unique dans sa capacité à gérer la commutation de code avec autant de paires de langues avec un niveau de précision élevé et fonctionne bien même dans des environnements bruyants, connus pour réduire la qualité de la transcription.
La transcription en temps réel nécessite une latence ultra-faible. Comment votre API parvient-elle à atteindre une latence inférieure à 300 millisecondes tout en maintenant la précision ?
Maintenir la latence en dessous de 300 millisecondes tout en conservant une précision élevée nécessite une approche multidimensionnelle qui allie expertise matérielle, optimisation des algorithmes et conception architecturale.
L'IA en temps réel n'est pas comme l'informatique traditionnelle : elle est étroitement liée à la puissance et à l'efficacité des GPGPU. Je travaille dans ce domaine depuis près d'une décennie, à la tête de la division IA chez OVHCloud (le plus grand fournisseur de cloud de l'UE), et j'ai appris de première main qu'il s'agit toujours de trouver le bon équilibre : la puissance matérielle dont vous avez besoin, son coût et la manière dont vous adaptez les algorithmes pour qu'ils fonctionnent de manière transparente avec ce matériel.
Les performances de l’IA en temps réel proviennent de l’alignement efficace de nos algorithmes avec les capacités du matériel, garantissant que chaque opération maximise le débit tout en minimisant les retards.
Mais ce n'est pas seulement l'IA et le matériel qui comptent. L'architecture du système joue également un rôle important, en particulier le réseau, qui peut avoir un impact réel sur la latence. Notre CTO, qui possède une solide expertise dans la conception de réseaux à faible latence grâce à son expérience chez Sigfox (un pionnier de l'IoT), a optimisé notre configuration réseau pour gagner de précieuses millisecondes.
Il s’agit donc en réalité d’une combinaison de tous ces facteurs (choix matériels intelligents, algorithmes optimisés et conception du réseau) qui nous permet d’atteindre systématiquement une latence inférieure à 300 ms sans compromettre la précision.
Gladia va au-delà de la transcription avec des fonctionnalités telles que la journalisation des locuteurs, l'analyse des sentiments et les transcriptions horodatées. Quelles sont les applications innovantes que vos clients ont développées à l'aide de ces outils ?
ASR permet de proposer une large gamme d'applications sur des plateformes dans tous les secteurs d'activité. Il est étonnant de voir combien d'entreprises véritablement pionnières ont émergé au cours des deux dernières années, tirant parti des LLM et de notre API pour créer des produits de pointe et compétitifs. Voici quelques exemples :
- Prise de notes intelligente:De nombreux clients créent des outils pour les professionnels qui ont besoin de capturer et d'organiser rapidement des informations issues de réunions de travail, de cours magistraux ou de consultations médicales. Grâce à la journalisation des intervenants, notre API peut identifier qui a dit quoi, ce qui facilite le suivi des conversations et l'attribution d'actions. Associée à des transcriptions horodatées, les utilisateurs peuvent accéder directement à des moments précis d'un enregistrement, ce qui permet de gagner du temps et de s'assurer que rien ne se perd dans la traduction.
- Activation des ventes:Dans le monde de la vente, il est essentiel de comprendre le sentiment des clients. Les équipes utilisent notre fonction d'analyse des sentiments pour obtenir des informations en temps réel sur la façon dont les prospects réagissent lors des appels ou des démonstrations. De plus, les transcriptions horodatées aident les équipes à revoir les parties clés d'une conversation pour affiner leur argumentaire ou répondre plus efficacement aux préoccupations des clients. Pour ce cas d'utilisation en particulier, NER est également essentiel pour identifier les noms, les détails de l'entreprise et d'autres informations qui peuvent être extraites des appels de vente pour alimenter automatiquement le CRM.
- Assistance du centre d'appels:Les entreprises du secteur des centres de contrats utilisent notre API pour fournir une assistance en direct aux agents et signaler le sentiment des clients pendant les appels. La journalisation des intervenants garantit que les propos tenus sont attribués à la bonne personne, tandis que les transcriptions horodatées permettent aux superviseurs d'examiner rapidement les moments critiques ou les problèmes de conformité. Cela améliore non seulement l'expérience client (avec un meilleur taux de résolution des appels et un meilleur suivi de la qualité), mais augmente également la productivité et la satisfaction des agents.
Pouvez-vous discuter du rôle des vocabulaires personnalisés et de la reconnaissance d’entités dans l’amélioration de la fiabilité de la transcription pour les utilisateurs d’entreprise ?
De nombreux secteurs d'activité s'appuient sur une terminologie spécialisée, des noms de marque et des nuances linguistiques uniques. L'intégration d'un vocabulaire personnalisé permet à la solution STT de s'adapter à ces besoins spécifiques, ce qui est essentiel pour capturer les nuances contextuelles et fournir des résultats qui reflètent précisément les besoins de votre entreprise. Par exemple, elle vous permet de créer une liste de mots spécifiques à un domaine, tels que des noms de marque, dans une langue spécifique.
Pourquoi c'est utile : L'adaptation de la transcription à un secteur spécifique permet de minimiser les erreurs dans les transcriptions, ce qui améliore l'expérience utilisateur. Cette fonctionnalité est particulièrement importante dans des domaines comme la médecine ou la finance.
La reconnaissance d'entités nommées (NER) extrait et identifie les informations clés des données audio non structurées, telles que les noms de personnes, d'organisations, de lieux, etc. Un problème fréquent avec les données non structurées est que ces informations critiques ne sont pas facilement accessibles : elles sont enfouies dans la transcription.
Pour résoudre ce problème, Gladia a développé une approche structurée d'extraction de données clés (KDE). En exploitant les capacités génératives de son architecture basée sur Whisper, similaire à celle des LLM, KDE de Gladia capture le contexte pour identifier et extraire directement les informations pertinentes.
Ce processus peut être encore amélioré avec des fonctionnalités telles que le vocabulaire personnalisé et le NER, permettant aux entreprises de remplir les CRM avec des données clés rapidement et efficacement.
Selon vous, comment la transcription en temps réel transforme-t-elle des secteurs tels que le support client, les ventes et la création de contenu ?
La transcription en temps réel transforme profondément ces industries, générant des gains de productivité incroyables, associés à des avantages commerciaux tangibles.
Premièrement, la transcription en temps réel est une révolution pour les équipes d’assistance. L’assistance en temps réel est essentielle pour améliorer le taux de résolution grâce à des réponses plus rapides, des agents plus intelligents et de meilleurs résultats (en termes de NSF, de délais de traitement, etc.). À mesure que les systèmes ASR s’améliorent dans la gestion des langues non anglaises et dans la traduction en temps réel, les centres de contact peuvent atteindre une expérience client véritablement mondiale avec des marges plus faibles.
Dans le domaine des ventes, la rapidité et la précision des informations sont primordiales. À l’instar des agents d’appel, la transcription en temps réel leur permet d’obtenir les bonnes informations au bon moment, ce qui leur permet de se concentrer sur ce qui compte le plus pour conclure des affaires.
Pour les créateurs, la transcription en temps réel est peut-être moins pertinente aujourd’hui, mais elle recèle toujours un potentiel considérable, notamment en matière de sous-titrage et de traduction en direct lors d’événements médiatiques. La plupart de nos clients actuels du secteur des médias préfèrent encore la transcription asynchrone, car la vitesse est moins importante, tandis que la précision est essentielle pour des applications telles que le montage vidéo horodaté et la génération de sous-titres.
La transcription en temps réel par l'IA semble être une tendance croissante. Selon vous, où va évoluer cette technologie dans les 5 à 10 prochaines années ?
J’ai l’impression que ce phénomène, que nous appelons désormais IA en temps réel, va se produire partout. En fait, ce dont nous parlons ici, c’est de la capacité des machines à interagir avec les gens, de la même manière que nous, les humains, interagissons déjà les uns avec les autres.
Et si vous regardez n'importe quel film hollywoodien (comme Her) qui se déroule dans le futur, vous n'y verrez jamais personne interagir avec des systèmes intelligents via un clavier. Pour moi, c'est la preuve ultime que dans l'imaginaire collectif de l'humanité, la voix sera toujours le principal moyen par lequel nous interagissons avec le monde qui nous entoure.
La voix, principal vecteur de rassemblement et de partage des connaissances humaines, fait partie de la culture et de l’histoire humaines depuis bien plus longtemps que l’écriture. L’écriture a ensuite pris le dessus car elle nous a permis de préserver nos connaissances plus efficacement qu’en comptant sur les anciens de la communauté pour être les gardiens de nos histoires et de notre sagesse.
Les systèmes GenAI, capables de comprendre la parole, de générer des réponses et de stocker nos interactions, ont apporté une innovation totale. C'est le meilleur des mots et, en réalité, le meilleur de l'humanité. Ils nous confèrent cette puissance et cette énergie uniques de la communication vocale, alliées à la mémoire, que seuls les supports écrits pouvaient auparavant nous procurer. C'est pourquoi je crois qu'ils seront omniprésents ; c'est notre rêve collectif ultime.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Gladie.












