Interviews
Jean-Louis Quéguiner, Oprichter & CEO van Gladia – Interview Serie

Jean-Louis Quéguiner is de oprichter en CEO van Gladia. Hij was eerder vice-president van de groep Data, AI en Quantum Computing bij OVHcloud, een van de toonaangevende cloudproviders in Europa. Hij heeft een masterdiploma in Symbolic AI van de Universiteit van Québec in Canada en Arts et Métiers ParisTech in Parijs. In de loop van zijn carrière heeft hij belangrijke posities bekleed in verschillende branches, waaronder financiële data-analyse, machine learning-toepassingen voor real-time digitale reclame en de ontwikkeling van speech AI-API’s.
Gladia biedt geavanceerde audio-transcriptie en real-time AI-oplossingen voor naadloze integratie in producten across industries, talen en technologie-stacks. Door state-of-the-art ASR- en generatieve AI-modellen te optimaliseren, wordt ervoor gezorgd dat spraak- en taalverwerking accuraat en zonder vertraging zijn. Het platform van Gladia maakt het ook mogelijk om in real-time inzichten en metadata uit gesprekken en vergaderingen te extraheren, waarmee belangrijke use-cases voor ondernemingen worden ondersteund, zoals verkoopondersteuning en geautomatiseerde klantenservice.
Wat inspireerde je om de uitdagingen in spraak-naar-tekst (STT) technologie aan te pakken, en welke hiaten zag je in de markt?
Toen ik Gladia oprichtte, was het initiële doel breed – een AI-bedrijf dat complexe technologie toegankelijk zou maken. Maar toen we dieper ingingen, werd het duidelijk dat voice-technologie het meest gebroken en toch het meest kritieke gebied was om ons op te richten.
Spraak is centraal in ons dagelijks leven, en de meeste van onze communicatie gebeurt door middel van spraak. Toch waren de tools die beschikbaar waren voor ontwikkelaars om met voice-data te werken, onvoldoende in termen van snelheid, nauwkeurigheid en prijs – vooral across talen.
Ik wilde dat probleem oplossen, de complexiteit van voice-technologie ontwarren en het omzetten in iets eenvoudigs, efficiënts, krachtigs en toegankelijks. Ontwikkelaars zouden zich geen zorgen moeten maken over de nuances van AI-modellen of de nuances van contextlengte in spraakherkenning. Mijn doel was om een ondernemingsgrade spraak-naar-tekst API te creëren die naadloos werkte, ongeacht het onderliggende model of technologie – een echte plug-and-play-oplossing.
Wat zijn enkele van de unieke uitdagingen die je bent tegengekomen bij het bouwen van een transcriptie-oplossing voor ondernemingsgebruik?
Bij spraakherkenning zijn snelheid en nauwkeurigheid – de twee belangrijkste prestatie-indicatoren in dit veld – omgekeerd evenredig door ontwerp. Dit betekent dat het verbeteren van de ene, de andere zal compromitteren, althans tot op zekere hoogte. De kostenfactor is voor een groot deel het resultaat van de keuze van de provider tussen snelheid en kwaliteit.
Toen we Gladia bouwden, was ons doel om de perfecte balans tussen deze twee factoren te vinden, terwijl we ervoor zorgden dat de technologie beschikbaar bleef voor start-ups en MKB’s. In het proces realiseerden we ons ook dat de fundamentale ASR-modellen zoals OpenAI’s Whisper, waarmee we uitgebreid hebben gewerkt, bevooroordeeld zijn, zwaar naar het Engels neigen vanwege hun trainingsdata, wat veel talen ondervertegenwoordigd laat.
Dus, naast het oplossen van de snelheid-nauwkeurigheidstrade-off, was het voor ons – als Europees, meertalig team – belangrijk om onze kernmodellen te optimaliseren en te fijnstellen om een echt globale API te bouwen die bedrijven helpt om across talen te opereren.
Hoe onderscheidt Gladia zich in de drukbezochte AI-transcriptiemarkt? Wat maakt uw Whisper-Zero ASR uniek?
Onze nieuwe real-time engine (Gladia Real Time) bereikt een industrieleiderlatency van 300 ms. Bovendien kan het inzichten extraheren uit een gesprek of vergadering met de zogenaamde “audio-intelligentie”-add-ons of -functies, zoals named entity recognition (NER) of sentimentanalyse.
Voor zover wij weten, zijn er maar weinig concurrenten die zowel transcriptie als inzichten kunnen bieden met een dergelijke lage latency (minder dan 1 seconde eind-tot-eind) – en dat allemaal nauwkeurig in talen andere dan het Engels. Onze taalondersteuning omvat meer dan 100 talen vandaag.
We leggen ook een speciale nadruk op het maken van het product echt stack-agnostisch. Onze API is compatibel met alle bestaande technologie-stacks en telefoonprotocollen, inclusief SIP, VoIP, FreeSwitch en Asterisk. Telefoonprotocollen zijn vooral complex om te integreren, dus wij denken dat dit productaspect een enorme waarde kan brengen voor de markt.
Hallucinaties in AI-modellen zijn een significant probleem, vooral bij real-time transcriptie. Kun je uitleggen wat hallucinaties zijn in de context van STT en hoe Gladia dit probleem aanpakt?
Hallucinatie treedt meestal op wanneer het model geen kennis heeft of niet genoeg context over het onderwerp heeft. Hoewel modellen outputs kunnen produceren die zijn aangepast aan een verzoek, kunnen ze alleen verwijzen naar informatie die bestond op het moment van hun training, en die mogelijk niet up-to-date is. Het model zal coherente antwoorden produceren door gaten te vullen met informatie die plausibel klinkt maar onjuist is.
Hoewel hallucinaties voor het eerst bekend werden in de context van LLM’s, treden ze ook op bij spraakherkenningmodellen – zoals Whisper ASR, een toonaangevend model in het veld ontwikkeld door OpenAI. De hallucinaties van Whisper zijn vergelijkbaar met die van LLM’s vanwege een soortgelijke architectuur, dus het is een probleem dat generatieve modellen betreft, die in staat zijn om woorden te voorspellen die volgen op basis van de algemene context. Op een manier ‘verzinnen’ ze de output. Deze benadering kan worden vergeleken met meer traditionele, op akoestiek gebaseerde ASR-architecturen die het invoergeluid koppelen aan de output op een meer mechanische manier.
Als gevolg daarvan kun je woorden in een transcript vinden die niet daadwerkelijk zijn gezegd, wat duidelijk problematisch is, vooral in domeinen zoals geneeskunde, waar een fout van deze soort ernstige gevolgen kan hebben.
Er zijn verschillende methoden om hallucinaties te beheren en te detecteren. Een veelvoorkomende aanpak is het gebruik van een retrieval-augmented generation (RAG)-systeem, dat de generatieve mogelijkheden van het model combineert met een mechanisme voor het opzoeken van feiten. Een andere methode houdt in dat een “keten van gedachten”-aanpak wordt gebruikt, waarbij het model wordt geleid door een reeks vooraf gedefinieerde stappen of controlepunten om ervoor te zorgen dat het op een logische weg blijft.
Een andere strategie voor het detecteren van hallucinaties omvat het gebruik van systemen die de waarheidsgetrouwheid van de output van het model tijdens de training beoordelen. Er zijn benchmarks die specifiek zijn ontwikkeld om hallucinaties te evalueren, die het vergelijken van verschillende kandidaat-antwoorden die door het model zijn gegenereerd, en het bepalen van welke het meest accuraat is.
Wij bij Gladia hebben geëxperimenteerd met een combinatie van technieken bij het bouwen van Whisper-Zero, onze propriëtaire ASR die vrijwel alle hallucinaties verwijdert. Het heeft uitstekende resultaten getoond in asynchrone transcriptie, en wij zijn momenteel aan het optimaliseren voor real-time om dezelfde 99,9% informatie-fideliteit te bereiken.
STT-technologie moet een breed scala aan complexiteiten aan, zoals accenten, ruis en meertalige conversaties. Hoe benadert Gladia deze uitdagingen om een hoge nauwkeurigheid te garanderen?
Taaldetectie in ASR is een uiterst complexe taak. Elke spreker heeft een unieke vocale handtekening, die wij kenmerken noemen. Door het vocale spectrum te analyseren, kunnen machine learning-algoritmen classificaties uitvoeren met behulp van de Mel Frequency Cepstral Coefficients (MFCC) om de belangrijkste frequentiekenmerken te extraheren.
MFCC is een methode geïnspireerd door de menselijke auditieve perceptie. Het maakt deel uit van het “psychoacoustische” veld, dat zich richt op hoe wij geluid waarnemen. Het benadrukt lagere frequenties en gebruikt technieken zoals genormaliseerde Fourier-decompositie om audio om te zetten in een frequentiespectrum.
Maar deze benadering heeft een beperking: het is puur gebaseerd op akoestiek. Dus, als je Engels spreekt met een sterk accent, kan het systeem de inhoud mogelijk niet begrijpen, maar in plaats daarvan oordelen op basis van je prosodie (ritme, stress, intonatie).
Dit is waar Gladia’s innovatieve oplossing binnenkomt. Wij hebben een hybride benadering ontwikkeld die psycho-acoustische kenmerken combineert met inhoudsverständnis voor dynamische taaldetectie.
Ons systeem luistert niet alleen naar hoe je spreekt, maar begrijpt ook wat je zegt. Deze dubbele benadering maakt efficiënte code-switching mogelijk en laat sterke accenten niet verkeerd worden weergegeven.
Code-switching – dat een van onze belangrijkste differentiators is – is een bijzonder belangrijke functie bij het omgaan met meertalige conversaties. Sprekers kunnen van taal switchen tijdens een conversatie (of zelfs tijdens een zin), en de mogelijkheid van het model om nauwkeurig te transcriberen ondanks de switch is kritiek.
De Gladia API is uniek in zijn vermogen om code-switching te behandelen met zo veel taalparen en een hoog niveau van nauwkeurigheid, en presteert zelfs goed in lawaaierige omgevingen, die bekend staan om de kwaliteit van de transcriptie te verminderen.
Real-time transcriptie vereist ultra-lage latency. Hoe bereikt uw API minder dan 300 milliseconden latency terwijl de nauwkeurigheid wordt gehandhaafd?
Het behouden van latency onder 300 milliseconden terwijl de nauwkeurigheid wordt gehandhaafd, vereist een veelzijdige aanpak die hardware-expertise, algoritme-optimalisatie en architectonisch ontwerp combineert.
Real-time AI is niet zoals traditionele computing – het is nauw verbonden met de kracht en efficiëntie van GPGPUs. Ik heb in deze ruimte gewerkt voor bijna een decennium, leidde de AI-afdeling bij OVHCloud (de grootste cloudprovider in de EU), en leerde uit de eerste hand dat het altijd gaat om het vinden van de juiste balans: hoeveel hardwarekracht je nodig hebt, hoeveel het kost, en hoe je de algoritmen aanpast om naadloos te werken met die hardware.
Prestaties in real-time AI komen van het effectief uitlijnen van onze algoritmen met de mogelijkheden van de hardware, ervoor zorgend dat elke bewerking de doorvoer maximaliseert terwijl vertragingen worden geminimaliseerd.
Maar het is niet alleen de AI en de hardware. De architectuur van het systeem speelt ook een belangrijke rol, vooral het netwerk, dat de latency echt kan beïnvloeden. Onze CTO, die diepe expertise heeft in laag-latentie netwerkdesign van zijn tijd bij Sigfox (een IoT-pionier), heeft onze netwerkinstelling geoptimaliseerd om waardevolle milliseconden af te snijden.
Dus, het is echt een combinatie van al deze factoren – slimme hardwarekeuzes, geoptimaliseerde algoritmen en netwerkdesign – die ons in staat stelt om consistent minder dan 300 ms latency te bereiken zonder de nauwkeurigheid te compromitteren.
Gladia gaat verder dan transcriptie met functies zoals sprekerdiarization, sentimentanalyse en getijdstemplede transcripten. Wat zijn enkele innovatieve toepassingen die u hebt gezien bij uw klanten met behulp van deze tools?
ASR ontgrendelt een breed scala aan toepassingen voor platforms across verticale markten, en het is geweldig om te zien hoeveel echt pioniersbedrijven zijn opgedoken in de afgelopen twee jaar, die LLM’s en onze API gebruiken om cutting-edge, concurrerende producten te bouwen. Hier zijn enkele voorbeelden:
- Smart notitie nemen: Veel klanten bouwen tools voor professionals die snel informatie uit werkvergaderingen, studentenlezingen of medische consulten moeten vastleggen en organiseren. Met sprekerdiarization kan onze API bepalen wie wat zei, waardoor het gemakkelijk is om conversaties te volgen en actiepunten toe te wijzen. In combinatie met getijdstemplede transcripten kunnen gebruikers rechtstreeks naar specifieke momenten in een opname springen, waardoor tijd wordt bespaard en niets verloren gaat in de vertaling.
- Verkoopondersteuning: In de verkoopwereld is het begrijpen van de sentimenten van de klant alles. Teams gebruiken onze sentimentanalyse-functie om real-time inzichten te krijgen in hoe prospects reageren tijdens gesprekken of demos. Bovendien helpen getijdstemplede transcripten teams om terug te keren naar belangrijke delen van een conversatie om hun pitch te verfijnen of klantenzorgen effectiever aan te pakken. Voor dit specifieke use-case is NER ook belangrijk om namen, bedrijfsgegevens en andere informatie te identificeren die uit verkoopgesprekken kan worden geëxtraheerd om de CRM automatisch te voeden.
- Callcenterondersteuning: Bedrijven in de contractcenterruimte gebruiken onze API om live-ondersteuning te bieden aan agenten, evenals om de sentimenten van de klant te signaleren tijdens gesprekken. Sprekerdiarization zorgt ervoor dat dingen die worden gezegd, worden toegewezen aan de juiste persoon, terwijl getijdstemplede transcripten het mogelijk maken voor supervisors om kritieke momenten of compliance-problemen snel te bekijken. Dit verbetert niet alleen de klantbeleving – met een betere oplossingspercentage en kwaliteitscontrole – maar verhoogt ook de productiviteit en tevredenheid van de agenten.
Kunt u discussiëren over de rol van aangepaste vocabulaires en entiteitherkennning bij het verbeteren van de betrouwbaarheid van transcriptie voor ondernemingsgebruikers?
Veel branches vertrouwen op gespecialiseerde terminologie, merknamen en unieke taalnuances. De integratie van aangepaste vocabulaires stelt de STT-oplossing in staat om aan te passen aan deze specifieke behoeften, wat cruciaal is voor het vastleggen van contextuele nuances en het leveren van output die de bedrijfsbehoeften nauwkeurig weerspiegelt. Bijvoorbeeld, het stelt u in staat om een lijst te maken van domeinspecifieke woorden, zoals merknamen, in een specifieke taal.
Waarom het nuttig is: Het aanpassen van de transcriptie aan de specifieke verticale stelt u in staat om fouten in transcripten te minimaliseren, waardoor een betere gebruikerservaring wordt bereikt. Deze functie is vooral kritiek in domeinen zoals geneeskunde of financiën.
Entiteitherkennning (NER) extracteert en identificeert belangrijke informatie uit ongestructureerde audiodata, zoals namen van personen, organisaties, locaties en meer. Een veelvoorkomend probleem met ongestructureerde data is dat deze kritieke informatie niet gemakkelijk toegankelijk is – het is begraven in het transcript.
Om dit op te lossen, heeft Gladia een gestructureerde Key Data Extraction (KDE)-aanpak ontwikkeld. Door de generatieve mogelijkheden van zijn Whisper-gebaseerde architectuur te benutten – vergelijkbaar met LLM’s – captureert Gladia’s KDE context om relevante informatie rechtstreeks te identificeren en te extraheren.
Dit proces kan verder worden verbeterd met functies zoals aangepaste vocabulaires en NER, waardoor bedrijven hun CRM snel en efficiënt kunnen voorzien van belangrijke gegevens.
Wat is uw mening over hoe real-time transcriptie industrieën zoals klantenservice, verkoop en contentcreatie transformeert?
Real-time transcriptie verandert deze industrieën op diepgaande wijze, aangedreven door enorme productiviteitswinsten, gekoppeld aan tastbare bedrijfsvoordelen.
Ten eerste is real-time transcriptie een game-changer voor ondersteuningsteams. Real-time-ondersteuning is cruciaal voor het verbeteren van het oplossingspercentage dankzij snellere reacties, slimmere agenten en betere resultaten (in termen van NSF, behandelingsduur, enz.). Aangezien ASR-systemen steeds beter worden in het omgaan met niet-Engelse talen en real-time vertaling, kunnen contactcentra een echt globale CX bereiken met lagere marges.
In de verkoop zijn snelheid en nauwkeurige inzichten alles. Net zoals wat gebeurt met callagenten, stelt real-time transcriptie hen in staat om de juiste inzichten op het juiste moment te hebben, waardoor ze zich kunnen concentreren op wat het meest telt bij het sluiten van deals.
Voor creators is real-time transcriptie misschien minder relevant vandaag, maar nog steeds vol potentieel, vooral bij live ondertiteling en vertaling tijdens mediagebeurtenissen. De meeste van onze huidige media-klanten geven nog steeds de voorkeur aan asynchrone transcriptie, omdat snelheid minder kritiek is, terwijl nauwkeurigheid cruciaal is voor toepassingen zoals tijdgestempelde videobewerking en ondertitelengeneratie.
Real-time AI-transcriptie lijkt een groeiende trend te zijn. Waar denkt u dat deze technologie na 5-10 jaar heen gaat?
Ik voel alsof dit fenomeen, dat wij nu real-time AI noemen, overal zal zijn. Eigenlijk verwijst wat wij hier naar verwijzen, naar de naadloze mogelijkheid van machines om met mensen te communiceren, op de manier waarop wij mensen al met elkaar communiceren.
En als je naar elke Hollywood-film (zoals Her) kijkt die zich in de toekomst afspeelt, zie je nooit iemand die interacteert met intelligente systemen via een toetsenbord. Voor mij is dat het ultieme bewijs dat in de collectieve verbeelding van de mensheid, spraak altijd de primaire manier zal zijn waarop wij met de wereld om ons heen communiceren.
Spraak, als de belangrijkste vector om menselijke kennis te verzamelen en te delen, heeft deel uitgemaakt van de menselijke cultuur en geschiedenis voor veel langer dan schrijven. Toen nam schrijven het over, omdat het ons in staat stelde om onze kennis effectiever te bewaren dan door te vertrouwen op de gemeenschapsoudsten als de bewaarders van onze verhalen en wijsheid.
GenAI-systemen, die in staat zijn om spraak te begrijpen, antwoorden te genereren en onze interacties op te slaan, brachten iets compleet nieuws in de ruimte. Het is het beste van beide werelden en het beste van de mensheid. Het geeft ons deze unieke kracht en energie van spraakcommunicatie met het voordeel van geheugen, dat eerder alleen geschreven media kon bieden. Dit is waarom ik geloof dat het overal zal zijn – het is onze ultieme collectieve droom.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten Gladia bezoeken.












