Connect with us

Intervjuer

Jean-Louis Quéguiner, Grunnlegger & CEO av Gladia – Intervju-serie

mm

Jean-Louis Quéguiner er grunnlegger og CEO av Gladia. Han var tidligere konsernsvisepresident for Data, AI og kvantecomputing i OVHcloud, en av Europas ledende skytjenesteleverandører. Han har en mastergrad i symbolisk AI fra Universitetet i Québec i Canada og Arts et Métiers ParisTech i Paris. I løpet av sin karriere har han hatt betydningsfulle stillinger i ulike bransjer, inkludert finansiell dataanalyse, maskinlæringsapplikasjoner for sanntids digitale annonser og utvikling av tale-AI-APIer.

Gladia tilbyr avanserte lydtranskripsjoner og sanntids AI-løsninger for sømløs integrasjon i produkter over industrier, språk og teknologistacker. Ved å optimere de siste ASR- og generative AI-modellene, sikrer det nøyaktig, forsinkningsfri tale- og språkbehandling. Gladia-plattformen muliggjør også sanntidsutvinning av innsikter og metadata fra samtaler og møter, som støtter viktige bedriftsscenarier som salgsstøtte og automatisert kundesupport.

Hva inspirerte deg til å møte utfordringene i tale-til-tekst (STT)-teknologi, og hvilke hull så du i markedet?

Da jeg grunnla Gladia, var det opprinnelige målet bredt – et AI-selskap som skulle gjøre kompleks teknologi tilgjengelig. Men da vi dykket dyptere, ble det klart at taleteknologi var det mest ødelagte og likevel mest kritiske området å fokusere på.

Tale er sentral i våre daglige liv, og det meste av vår kommunikasjon skjer gjennom tale. Likevel var verktøyene tilgjengelige for utviklere å arbeide med taledata utilstrekkelige med hensyn til hastighet, nøyaktighet og pris – spesielt på tvers av språk.

Jeg ville fikse det, å pakke ut kompleksiteten i taleteknologi og ompakke den i noe enkelt, effektivt, kraftfullt og tilgjengelig. Utviklere bør ikke behøve å bekymre seg om intrikasjonene i AI-modeller eller nyansene i kontekstlengde i talegjenkjenning. Målet mitt var å skape en bedriftsgradert tale-til-tekst-API som fungerte sømløst, uavhengig av den underliggende modellen eller teknologien – en sant plug-and-play-løsning.

Hva er noen av de unike utfordringene du møtte mens du bygde en transkripsjonsløsning for bedriftsbruk?

Når det gjelder talegjenkjenning, er hastighet og nøyaktighet – de to viktigste ytelsesindikatorene i dette feltet – omvendt proporsjonale ved design. Dette betyr at forbedring av den ene vil kompromittere den andre, i alle fall til en viss grad. Kostnadsfaktoren, i stor grad, resulterer fra leverandørens valg mellom hastighet og kvalitet.

Da vi bygde Gladia, var vårt mål å finne den perfekte balansen mellom disse to faktorene, samtidig som vi sikret at teknologien forble tilgjengelig for start-ups og SME-er. I prosessen innsett vi også at de grunnleggende ASR-modellene som OpenAI’s Whisper, som vi arbeidet med omfattende, er forvrengt, med en sterk vektlegging mot engelsk på grunn av deres treningdata, som lar mange språk bli underrepresentert.

Så, i tillegg til å løse hastighet-nøyaktighets-veksling, var det viktig for oss – som et europeisk, flerspråklig team – å optimere og finjustere våre kjerne-modeller for å bygge en virkelig global API som hjelper bedrifter å operere på tvers av språk.

Hvordan skiller Gladia seg ut i det travle AI-transkripsjonsmarkedet? Hva gjør din Whisper-Zero ASR unik?

Vår nye sanntidsmotor (Gladia Real Time) oppnår en industri-ledende 300 ms forsinkelse. I tillegg til det, er den i stand til å utvinne innsikter fra en samtale eller møte med de såkalte “audio-intelligens”-tilleggene eller funksjonene, som f.eks. navngitt enhetsgjenkjenning (NER) eller stemningsanalyse.

Så langt vi vet, er det få konkurrenter som kan levere både transkripsjon og innsikter med en så lav forsinkelse (mindre enn 1s slutt-til-slutt) – og gjøre alt dette nøyaktig på språk andre enn engelsk. Vår språkstøtte omfatter over 100 språk i dag.

Vi legger også en spesiell vekt på å gjøre produktet virkelig stack-agnostisk. Vårt API er kompatibelt med alle eksisterende teknologistacker og telefoni-protokoller, inkludert SIP, VoIP, FreeSwitch og Asterisk. Telefoni-protokoller er spesielt komplekse å integrere med, så vi tror at denne produktaspektet kan bringe enorm verdi til markedet.

Hallusinasjoner i AI-modeller er en betydelig bekymring, spesielt i sanntidstranskripsjon. Kan du forklare hva hallusinasjoner er i sammenheng med STT og hvordan Gladia løser dette problemet?

Hallusinasjon skjer vanligvis når modellen mangler kunnskap eller ikke har nok kontekst om emnet. Selv om modeller kan produsere utdata tilpasset en forespørsel, kan de bare referere til informasjon som eksisterte på tidspunktet for deres trening, og det kan ikke være oppdatert. Modellen vil skape koherente svar ved å fylle hull med informasjon som lyder plausibelt, men er feil.

mens hallusinasjoner først ble kjent i sammenheng med LLM-er, skjer de også med talegjenkjenning-modeller – som Whisper ASR, en ledende modell i feltet utviklet av OpenAI. Whisper’s hallusinasjoner er like som de til LLM-er på grunn av en lignende arkitektur, så det er et problem som angår generative modeller som kan forutsi ordene som følger basert på den overordnede konteksten. På en måte “oppfinner” de utdata.

Dette kan kontrasteres med mer tradisjonelle, akustisk-baserte ASR-arkitekturer som matcher inndata-lyd til utdata på en mer mekanisk måte.

Som et resultat kan du finne ord i en transkripsjon som ikke ble faktisk sagt, noe som er klart problematisk, spesielt i felt som medisin, hvor en feil av denne typen kan ha alvorlige konsekvenser.

Det finnes flere metoder for å håndtere og påvise hallusinasjoner. En vanlig tilnærming er å bruke et retrieval-augmentert genererings-system (RAG), som kombinerer modellens generative evner med en innhenting-mekanisme for å kontrollere fakta. En annen metode innebærer å bruke en “kjede av tanker”-tilnærming, hvor modellen guiders gjennom en serie forhåndsdefinerte steg eller kontrollpunkter for å sikre at den holder seg på en logisk vei.

En annen strategi for å påvise hallusinasjoner innebærer å bruke systemer som vurderer sannhetsgehalten i modellens utdata under trening. Det finnes benchmark-verktøy som er spesifikt designet for å evaluere hallusinasjoner, som innebærer å sammenligne ulike kandidat-svar generert av modellen og bestemme hvilket som er mest nøyaktig.

Vi på Gladia har eksperimentert med en kombinasjon av teknikker når vi bygde Whisper-Zero, vår proprietære ASR som fjerner nesten alle hallusinasjoner. Det har vist fremragende resultater i asynkron transkripsjon, og vi optimaliserer det nå for sanntid for å oppnå samme 99,9% informasjons-trofasthet.

STT-teknologi må håndtere en rekke kompleksiteter som aksenter, støy og flerspråklige samtaler. Hvordan nærmer Gladia seg disse utfordringene for å sikre høy nøyaktighet?

Språk-gjenkjenning i ASR er en ekstremt kompleks oppgave. Hver taler har en unik vokal-signatur, som vi kaller funksjoner. Ved å analysere vokal-spektrum, kan maskinlærings-algoritmer utføre klassifiseringer, ved å bruke Mel Frequency Cepstral Coefficients (MFCC) til å trekke ut de viktigste frekvens-egenskapene.

MFCC er en metode inspirert av menneskelig auditiv persepsjon. Det er en del av “psykoakustisk”-feltet, som fokuserer på hvordan vi oppfatter lyd. Det legger vekt på lavere frekvenser og bruker teknikker som normalisert Fourier-dekomposisjon for å konvertere lyd til en frekvens-spektrum.

Men denne tilnærmingen har en begrensning: den er basert på ren akustikk. Så, hvis du snakker engelsk med en sterk aksent, kan systemet ikke forstå innholdet, men i stedet dømme ut fra din prosodi (rytme, trykk, intonasjon).

Dette er der Gladia’s innovative løsning kommer inn. Vi har utviklet en hybrid-tilnærming som kombinerer psyko-akustiske funksjoner med innhold-forståelse for dynamisk språk-gjenkjenning.

Vårt system lytter ikke bare på hvordan du snakker, men også forstår hva du sier. Denne doble tilnærmingen muliggjør effektiv kode-omkopling og lar ikke sterke aksenter bli misrepresentert/misforstått.

Kode-omkopling – som er blant våre viktigste differensieringsfaktorer – er en spesielt viktig funksjon i håndtering av flerspråklige samtaler. Talere kan skifte mellom språk midt i en samtale (eller sogar midt i en setning), og evnen til å transkribere nøyaktig på flyttende fot likevel er kritisk.

Gladia API er unik i sin evne til å håndtere kode-omkopling med så mange språk-par med en høy nøyaktighet og fungerer godt selv i støyende miljøer, kjent for å redusere kvaliteten på transkripsjonen.

Sanntidstranskripsjon krever ultra-lav forsinkelse. Hvordan oppnår ditt API en forsinkelse på mindre enn 300 millisekunder mens du opprettholder nøyaktighet?

Å holde forsinkelsen under 300 millisekunder mens du opprettholder høy nøyaktighet, krever en flerfoldig tilnærming som kombinerer hardware-ekspertise, algoritme-optimering og arkitektur-design.

Sanntids-AI er ikke som tradisjonell databehandling – det er tett knyttet til kraften og effektiviteten til GPGPUs. Jeg har arbeidet i dette rommet i nærmere ett tiår, ledet AI-avdelingen i OVHCloud (den største skytjenesteleverandøren i EU), og lærte førstehånd om at det alltid handler om å finne den rette balansen: hvor mye hardware-kraft du trenger, hvor mye det koster, og hvordan du tilpasser algoritmene til å fungere sømløst med den hardwaren.

Ytelse i sanntids-AI kommer fra å effektivt justere våre algoritmer med hardwarens muligheter, sikre at hver operasjon maksimerer gjennomstrømming mens den minimiserer forsinkelsene.

Men det er ikke bare AI og hardware. Systemets arkitektur spiller også en stor rolle, spesielt nettverket, som kan virkelig påvirke forsinkelsen. Vår CTO, som har dyptgående ekspertise i lav-forsinkelses nettverksdesign fra sin tid i Sigfox (en IoT-pioner), har optimalisert vår nettverksoppsett for å skrape av verdifulle millisekunder.

Så, det er virkelig en blanding av alle disse faktorene – smarte hardware-valg, optimerte algoritmer og nettverksdesign – som lar oss konsistent oppnå en forsinkelse på under 300 ms uten å kompromittere på nøyaktighet.

Gladia går utover transkripsjon med funksjoner som taler-identifisering, stemningsanalyse og tid-stemplede transkripsjoner. Hva er noen innovative anvendelser du har sett dine kunder utvikle ved hjelp av disse verktøyene?

ASR låser opp en rekke anvendelser til plattformer over industrier, og det har vært fantastisk å se hvor mange virkelig banebrytende selskaper som har oppstått i løpet av de siste to årene, som utnytter LLM-er og vårt API til å bygge fremtidsrettede, konkurrerende produkter. Her er noen eksempler:

  • Smart notat-takning: Mange kunder bygger verktøy for profesjonelle som trenger å fange og organisere informasjon fra arbeidsmøter, studentforelesninger eller medisinske konsultasjoner. Med taler-identifisering kan vårt API identifisere hvem som sa hva, og gjøre det enkelt å følge samtaler og tildele oppgaver. Kombinert med tid-stemplede transkripsjoner, kan brukerne hoppe rett til bestemte øyeblikk i en innspilling, spare tid og sikre at ingenting blir tapt i oversettelsen.
  • Salgs-aktivering: I salgsverden er hastighet og nøyaktige innsikter alt. Lagene bruker vår stemningsanalyse-funksjon til å få sanntidsinnsikter i hvordan kunder reagerer under samtaler eller demonstrasjoner. Pluss, tid-stemplede transkripsjoner hjelper lagene å gå tilbake til bestemte deler av en samtale for å finjustere sin pitch eller håndtere kunde-bekymringer mer effektivt. For dette brukstilfelle i særlig, er NER også nøkkel til å identifisere navn, firmaopplysninger og annen informasjon som kan utvinnes fra salgs-samtaler for å mate CRM-automatisk.
  • Kontors-assistans: Selskaper i kontors-senter-rommet bruker vårt API til å gi live-assistans til agenter, samt flagge kunde-stemning under samtaler. Taler-identifisering sikrer at ting som blir sagt, blir tildelt riktig person, mens tid-stemplede transkripsjoner muliggjør at ledere kan se igjen kritiske øyeblikk eller compliance-problemer raskt. Dette forbedrer ikke bare kunde-opplevelsen – med bedre på-samtale-løsning og kvalitets-overvåking – men også agent-produktivitet og tilfredshet.

Kan du diskutere rollen til tilpassede ordbøker og enhets-gjenkjenning i å forbedre transkripsjons-påliteligheten for bedriftsbrukere?

Mange industrier avhenger av spesialisert terminologi, varemerker og unike språk-nyanser. Tilpasset ordbok-integrasjon lar STT-løsningen tilpasse seg disse spesifikke behovene, som er avgjørende for å fange kontekstuelle nyanser og levere utdata som nøyaktig reflekterer bedriftens behov. For eksempel, lar det deg opprette en liste over domene-spesifikke ord, som varemerker, på et bestemt språk.

Hvorfor det er nyttig: Tilpasse transkripsjonen til den spesifikke vertikalen lar deg minimere feil i transkripsjoner, oppnå en bedre brukeropplevelse. Denne funksjonen er spesielt kritisk i felt som medisin eller finansielle tjenester.

Navngitt enhets-gjenkjenning (NER) utvinner og identifiserer nøkkelinformasjon fra ustrukturert lyddata, som navn på personer, organisasjoner, steder og mer. En vanlig utfordring med ustrukturert data er at denne kritiske informasjonen ikke er lett tilgjengelig – det er begravd innenfor transkripsjonen.

For å løse dette, har Gladia utviklet en strukturert nøkkeldata-utvinning (KDE)-tilnærming. Ved å utnytte de generative evnene til sin Whisper-baserte arkitektur – lignende LLM-er – fanger Gladia’s KDE kontekst for å identifisere og utvinne relevante data direkte.

Denne prosessen kan videre forbedres med funksjoner som tilpassede ordbøker og NER, som lar bedrifter fylle CRMs med nøkkeldata raskt og effektivt.

I din mening, hvordan transformerer sanntidstranskripsjon industrier som kunde-støtte, salg og innholdsskapning?

Sanntidstranskripsjon omdefinerer disse industrene på dyptgående måter, driver enorme produktivitetsgevinster, sammen med tallbare forretningsfordeler.

Først og fremst er sanntidstranskripsjon en game-changer for støtte-lag. Sanntids-assistans er nøkkel til å forbedre løsning-raten takket være raskere responser, smartere agenter og bedre resultater (i form av NSF, håndteringstider og så videre). Ettersom ASR-systemer blir bedre og bedre til å håndtere ikke-engelske språk og utføre sanntids-oversettelse, kan kontaktsentere oppnå en virkelig global CX til lavere marginer.

I salg er hastighet og nøyaktige innsikter alt. Liksom det som skjer med kontaktsentral-agenter, utstyrer sanntidstranskripsjon dem med de rette innsiktene på rett tid, og lar dem fokusere på hva som betyr mest i å lukke avtaler.

For skapere er sanntidstranskripsjon kanskje mindre relevant i dag, men likevel fullt av potensial, spesielt når det gjelder live-teksting og oversettelse under mediebegivenheter. De fleste av våre nåværende medie-kunder foretrekker fortsatt asynkron transkripsjon, ettersom hastighet er mindre kritisk der, mens nøyaktighet er nøkkel til anvendelser som tid-stemplede video-redigering og undertekst-generering.

Sanntids AI-transkripsjon synes å være en voksende trend. Hvor ser du denne teknologien går i de neste 5-10 årene?

Jeg føler at dette fenomenet, som vi nå kaller sanntids-AI, vil være overalt. I realiteten refererer vi til den sømløse evnen til maskiner å samhandle med mennesker, på samme måte som vi mennesker allerede samhandler med hverandre.

Og hvis du ser på noen Hollywood-filmer (som Her) satt i fremtiden, vil du aldri se noen der som samhandler med intelligente systemer via et tastatur. For meg tjener det som det ultimate beviset på at i den kollektive forestillingen til menneskeheten, vil tale alltid være den primære måten vi samhandler med verden rundt oss.

Tale, som hovedvektoren til å aggregere og dele menneskelig kunnskap, har vært en del av menneskelig kultur og historie i lang tid før skriving. Så skriving tok over fordi det enablet oss å bevare vår kunnskap mer effektivt enn å avhenge av samfunnets eldre å være vogtere av våre historier og visdom.

GenAI-systemer, i stand til å forstå tale, generere svar og lagre våre interaksjoner, brakte noe helt nytt til rommet. Det er det beste av begge verdener og det beste av menneskeheten virkelig. Det gir oss denne unike kraften og energien til tale-kommunikasjon med fordelene til minne, som tidligere bare skrevne medier kunne sikre for oss. Dette er hvorfor jeg tror det vil være overalt – det er vår ultimate kollektive drøm.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke Gladia.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.