Haastattelut
Jean-Louis Quéguiner, Gladia:n perustaja ja toimitusjohtaja – Haastattelusarja

Jean-Louis Quéguiner on Gladia:n perustaja ja toimitusjohtaja. Aikaisemmin hän toimi OVHcloudin datan, tekoälyn ja kvanttilaskennan konsernin varapuheenjohtajana, joka on yksi Euroopan johtavista pilvipalveluntarjoajista. Hänellä on maisterin tutkinto symbolisesta tekoälystä Québecin yliopistosta Kanadassa ja Arts et Métiers ParisTechista Pariisissa. Uransa aikana hän on toiminut merkittävissä asemissa useilla aloilla, mukaan lukien rahoitusdatan analytiikka, koneoppimisen sovellukset reaaliaikaisessa digitaalisessa mainonnassa ja puheen tekoälyrajapintojen kehittämisessä.
Gladia tarjoaa edistyneitä äänitekstintunnistus- ja reaaliaikaisia tekoälyratkaisuja helppokäyttöiseen integrointiin tuotteisiin eri aloilla, kielillä ja teknologiapinoissa. Optimoidessaan viimeisimmän sukupolven ASR- ja generatiivisten tekoälymallien avulla se varmistaa tarkan, viiveettömän puheen ja kielen prosessoinnin. Gladia:n alusta mahdollistaa myös oivallusten ja metatietojen reaaliaikaisen poiston puheluista ja kokouksista, tukeakseen avainyrityssovelluksia, kuten myyntitukea ja automaattista asiakastukea.
Mikä innoitti sinua ratkaisemaan puhe-teksti (STT) -teknologian haasteita, ja mitkä aukot näit markkinassa?
Kun perustin Gladia:n, alkuperäinen tavoite oli laaja – tekoälyyritys, joka tekee monimutkaisen teknologian helposti saatavilla. Mutta kun tutkimme syvemmälle, selvisi, että puheen teknologia oli rikkain ja kriittisin alue, johon täytyi keskittyä.
Ääni on keskeinen osa elämäämme, ja suurin osa viestinnästämme tapahtuu puhumalla. Kuitenkin työkalut, jotka kehittäjille olivat saatavilla äänidatan kanssa työskentelyyn, olivat riittämättömiä nopeuden, tarkkuuden ja hinnan suhteen – erityisesti kielten osalta.
Halusin korjata tämän, purkaa puheen teknologian monimutkaisuuden ja pakata sen yksinkertaiseksi, tehokkaaksi ja saataville. Kehittäjien ei pitäisi huolehtia tekoälymallien monimutkaisuuksista tai kontekstin pituuden nuansseista puheentunnistuksessa. Tavoitteeni oli luoda yritysluokan puhe-teksti -rajapinta, joka toimisi moitteettomasti, riippumatta siitä, mikä malli tai teknologia oli käytössä – oikea plug-and-play -ratkaisu.
Mitkä ovat joitain yksilöllisiä haasteita, joita kohtasit rakennettaessa transkriptioratkaisua yritysten käyttöön?
Puheentunnistuksessa nopeus ja tarkkuus – kaksi tärkeintä suorituskykyä tässä alalla – ovat suunnitelmallisesti toisensa vastakohtia. Tämä tarkoittaa, että toisen parantaminen heikentää toista, ainakin jossain määrin. Kustannusfaktori johtuu suurelta osin palveluntarjoajan valinnasta nopeuden ja laadun välillä.
Gladia:n rakennettaessa tavoitteemme oli löytää täydellinen tasapaino näiden kahden tekijän välillä, samalla varmistamalla, että teknologia on saatavilla aloille ja pk-yrityksille. Prosessissa toteaminen, että perus-ASR-mallit, kuten OpenAI:n Whisper, jolla työskentelimme laajasti, ovat harhaanjohtavia, ja ne painottuvat voimakkaasti englannin kielen puolelle koulutusdatan vuoksi, jättäen monia kieliä aliedustetuiksi.
Joten nopeuden ja tarkkuuden tasapainon löytämisessä oli tärkeää meille – eurooppalaiselle, monikieliselle tiimille – optimoida ja hienosäätää ydinmallejamme luodaksemme todella globaalin rajapinnan, joka auttaa yrityksiä toimimaan kielten yli.
Miten Gladia erottuu tungoksesta tekoälytranskriptiemarkkinassa? Mitä tekee teidän Whisper-Zero ASR: n ainutlaatuiseksi?
Uusi reaaliaikainen moottorimme (Gladia Real Time) saavuttaa johtavan 300 ms viiveen. Lisäksi se pystyy poistamaan oivalluksia puhelusta tai kokouksesta niin kutsutuilla “ääniäly” -lisäominaisuuksilla tai ominaisuuksilla, kuten nimien tunnistamisella (NER) tai mielipidetutkimuksella.
Meidän tietoomme vain harvat kilpailijamme pystyvät tarjoamaan sekä transkriptiota että oivalluksia niin lyhyessä viiveessä (alle 1 s loppupäästä loppuun) – ja tekevät sen tarkasti kielillä, joita ei ole englanti. Kieliemme tuki ulottuu yli 100 kieleen tänään.
Panimme myös erityisen painopisteen tuotteen tekemiseen todella pinotarkoitukselliseksi. Meidän API on yhteensopiva kaikkien olemassa olevien teknologiapinojen ja puhelinprotokollien kanssa, mukaan lukien SIP, VoIP, FreeSwitch ja Asterisk. Puhelinprotokollat ovat erityisen monimutkaisia integroida, joten uskomme, että tämä tuotteen ominaisuus voi tuoda valtavasti arvoa markkinoille.
Harhat tekoälymallissa ovat merkittävä huolenaihe, erityisesti reaaliaikaisessa transkriptiossa. Voitko selittää, mitä harhat ovat STT:n kontekstissa ja miten Gladia ratkaisee tämän ongelman?
Harhat tapahtuvat yleensä, kun malli ei ole tietoinen tai ei ole riittävästi kontekstia aiheesta. Vaikka mallit voivat tuottaa pyynnön mukaisia tuloksia, ne voivat vain viitata tietoihin, jotka olivat olemassa koulutuksen aikana, eikä se välttämättä ole ajan tasalla. Malli luo koherentteja vastauksia täyttämällä aukot tietojolla, joka kuulostaa uskottavalta mutta on väärä.
Vaikka harhat tulivat alun perin tunnetuksi LLM: n kontekstissa, ne tapahtuvat myös puheentunnistusmalleissa – kuten Whisper ASR, johtavassa mallissa, jonka OpenAI on kehittänyt. Whisperin harhat ovat samanlaisia kuin LLM: n harhat samanlaisen arkkitehtuurin vuoksi, joten se on ongelma, joka koskee generatiivisia malleja, jotka voivat ennustaa seuraavat sanat koko kontekstin perusteella. Jollain tavoin ne “keksivät” tulosteen. Tämä lähestymistapa voidaan verrata perinteisempiin, akustisiin ASR-arkkitehtuureihin, jotka vastaavat syötteen ääntä tulokseksi mekanistisemmin.
Seurauksena voi olla, että löydät sanoja transkriptiosta, joita ei todellisuudessa ole sanottu, mikä on selvästi ongelmallista, erityisesti aloilla, kuten lääketieteessä, jossa virheellinen tulos voi johtaa vakaviin seuraamuksiin.
On olemassa useita menetelmiä hallita ja havaita harhoja. Yksi yleinen lähestymistapa on käyttää hakurajapintaa, joka yhdistää mallin generatiiviset ominaisuudet hakumekanismiin, joka tarkistaa tosiasioita. Toinen menetelmä käyttää “ajatusketjun” lähestymistapaa, jossa malli ohjataan määrättyjen askelten tai tarkistuslistojen kautta, jotta se pysyy loogisella polulla.
Toinen strategia harhaisuuden havaitsemiseksi käyttää järjestelmiä, jotka arvioivat mallin tulosteen totuudenmukaisuutta koulutuksen aikana. On olemassa benchmarkkeja, jotka on suunniteltu arvioimaan harhoja, jotka liittyvät eri mallien tuloksia ja määrittämään, kumpi on tarkin.
Me Gladia: ssa olemme kokeilleet yhdistelmää tekniikoita Whisper-Zero:n kehittämisessä, joka on oma ASR, joka poistaa käytännössä kaikki harhat. Se on osoittanut erinomaisia tuloksia asynkronisessa transkriptiossa, ja parhaillaan optimoimme sitä reaaliajassa saavuttamaan saman 99,9 %: n tietojen uskottavuuden.
STT-teknologia on käsiteltävä laajan monimutkaisuuden, kuten aksentit, melu ja monikieliset keskustelut. Miten Gladia lähestyy näitä haasteita varmistaakseen korkean tarkkuuden?
Kielen tunnistaminen ASR: ssä on erittäin monimutkainen tehtävä. Jokaisella puhujalla on ainutlaatuinen äänensävy, jota kutsutaan piirteiksi. Analysoimalla äänispektrumia voidaan tehdä luokitteluja koneoppimismenetelmillä, käyttäen Mel-taajuuscepstraalikertoimia (MFCC) päätaajuuksien erottamiseen.
MFCC on menetelmä, joka on inspiroitu ihmisen kuulohavainnosta. Se kuuluu “psykoakustiseen” alaan, joka keskittyy siihen, miten me havaitsemme ääntä. Se korostaa matalampia taajuuksia ja käyttää tekniikoita, kuten normalisoitua Fourier-hajotusta, äänen muuttamiseksi taajuusspektrumiksi.
Kuitenkin tämä lähestymistapa on rajoitettu: se perustuu pelkästään akustiikkaan. Jos puhut englantia voimakkaalla aksentilla, järjestelmä ei välttämättä ymmärrä sisältöä, vaan sen sijaan arvioi prosodiaa (rytmi, painotus, intonaatio).
Tässä tulee Gladia:n innovatiivinen ratkaisu. Olemme kehittäneet hybridilähestymistavan, joka yhdistää psykoakustiset ominaisuudet sisällön ymmärtämiseen dynaamiseen kielitunnistukseen.
Järjestelmämme ei kuuntele vain, miten puhut, vaan myös ymmärtää, mitä sanot. Tämä kaksinkertainen lähestymistapa mahdollistaa tehokkaan koodinvaihdon ja ei anna voimakkaan aksentin väärin tulkitsemista / väärin ymmärtämistä.
Koodinvaihto – joka on yksi tärkeimmistä erottautumistekijöistämme – on erityisen tärkeä ominaisuus monikielisen keskustelun käsittelyssä. Puhujat voivat vaihtaa kieltä keskustelun aikana (tai jopa keskustelun aikana), ja mallin kyky transkriptoida tarkasti lennossa vaikka kieli vaihtuu on kriittinen.
Gladia API on ainutlaatuinen kyvyssään käsitellä koodinvaihtoa näin monilla kielipareilla korkealla tarkkuudella ja suoriutuu hyvin myös meluisissa ympäristöissä, jotka tunnetaan heikentävän transkriptiotarkkuutta.
Reaaliaikainen transkriptio vaatii erittäin pienen viiveen. Miten teidän API saavuttaa alle 300 millisekunnin viiveen säilyttäen tarkkuuden?
Pitää viive alle 300 millisekunnin, samalla säilyttäen korkean tarkkuuden, vaatii monipuolisen lähestymistavan, joka yhdistää laitteiston asiantuntemuksen, algoritmien optimoinnin ja arkkitehtonisen suunnittelun.
Reaaliaikainen tekoäly ei ole kuin perinteinen laskenta – se on tiiviisti kytköksissä GPGPU: n tehon ja tehokkuuden kanssa. Olen työskennellyt tässä alassa lähes kymmenen vuotta, johtaa tekoälyosastoa OVHCloudissa (Euroopan suurimassa pilvipalveluntarjoajassa), ja opin ensikokemuksesta, että se on aina oikean tasapainon löytäminen: kuinka paljon laitteiston voimaa tarvitaan, kuinka paljon se maksaa ja kuinka algoritmit on räätälöity toimimaan moitteettomasti laitteiston kanssa.
Suorituskyky reaaliajassa tekoälyssä tulee algoritmien ja laitteiston kyvystä toimia yhdessä, varmistaen, että jokainen operaatio maksimoi läpäisyn ja minimoi viiveen.
Mutta se ei ole vain tekoäly ja laitteisto. Järjestelmän arkkitehtuuri myös vaikuttaa paljon, erityisesti verkkoon, joka voi vaikuttaa viiveeseen. Meidän CTO: llamme, jolla on syvä asiantuntemus matalan viiveen verkkosuunnittelusta hänen ajastaan Sigfoxissa (IoT: n edelläkävijä), on optimoinut verkkomme asetukset leikkaamaan arvokkaita millisekunteja.
Joten se on todella sekoitus näistä tekijöistä – älykkäitä laitteiston valintoja, optimoituja algoritmeja ja verkkosuunnittelua – joka mahdollistaa meille saavuttaa johdonmukaisesti alle 300 ms viiveen ilman tarkkuuden heikentymistä.
Gladia menee transkriptiota pidemmälle ominaisuuksilla, kuten puhujan diarisaatio, mielipidetutkimus ja aikaleimatut transkriptit. Mitkä ovat joitain innovatiivisia sovelluksia, joita olette nähneet asiakkaiden kehittävän näiden työkalujen avulla?
Äänitekstintunnistus avaa laajan sovellusten kirjon alustoille eri aloilla, ja on ollut upeaa nähdä, kuinka monia todella uranuurtavia yrityksiä on kehittynyt viimeisen kahden vuoden aikana, jotka hyödyntävät LLM: ää ja meidän API: amme rakentamaan uranuurtavia, kilpailukykyisiä tuotteita. Tässä on joitain esimerkkejä:
- Älykäs muistiinpanojen tekeminen: Monet asiakkaamme kehittävät työkaluja ammattilaisille, jotka tarvitsevat nopeasti kaapata ja järjestellä tietoa työkokouksista, opiskelijoiden luennoista tai lääkärikonsultaatioista. Puhujan diarisaation avulla meidän API: mme voi tunnistaa, kuka sanoo mitä, mikä tekee seurauksien seuraamisen ja toimien määrittämisen helppokäyttöiseksi. Yhdistettynä aikaleimatuilla transkripteilla käyttäjät voivat hypätä suoraan tiettyyn kohtaan tallenteessa, säästäen aikaa ja varmistaen, että mitään ei häviä käännöksessä.
- Myyntituki: Myyntimaailmassa nopeus ja oivallukset ovat kaikki. Tiimit käyttävät meidän mielipidetutkimusominaisuuttamme saadakseen reaaliaikaisia oivalluksia siitä, miten asiakkaat reagoivat puheluissa tai esittelyissä. Lisäksi aikaleimatut transkriptit auttavat tiimejä käymään läpi tärkeitä keskustelun osia uudelleen ja parantamaan heidän tarjouksiaan / osoittamaan asiakkaan huolenaiheita tehokkaammin. Tässä käyttötapauksessa erityisesti NER on myös avainasemassa tunnistamaan nimet, yrityksen tiedot ja muut tiedot, jotka voidaan poistaa myyntipuheluista CRM: ään automaattisesti.
- Asiakaspalvelun tuki: Yritykset asiakaspalvelun parissa käyttävät meidän API: amme tarjoamaan live-tukea edustajille sekä tunnistamaan asiakkaan mielipidettä puheluissa. Puhujan diarisaatio varmistaa, että asiat sanotaan oikealle henkilölle, kun taas aikaleimatut transkriptit mahdollistavat esimiehille tarkastella kriittisiä hetkiä tai noudattamisongelmia nopeasti. Tämä parantaa ei vain asiakaskokemusta – paremman puhelun ratkaisunopeuden ja laadunvalvonnan kanssa – vaan myös edustajien tuottavuutta ja tyytyväisyyttä.
Voitko keskustella roolin, jonka mukautetut sanastot ja yksilöllinen tunnistaminen pelaavat transkriptiotarkkuuden parantamisessa yritysasiakkaiden kannalta?
Monet alat riippuvat erityisesti erikoisterminologiasta, tuotemerkinnistä ja uniikeista kielellisistä nuansseista. Mukautetun sanaston integrointi mahdollistaa STT-ratkaisun sopeutumisen näihin tiettyihin tarpeisiin, mikä on äärimmäisen tärkeää kontekstuaalisten nuanssien ja liiketoimintatarpeisiin vastaavan tulosteen tuottamiseksi.
Miksi se on hyödyllistä: Sopimalla transkriptiota tiettyyn pystyyn sallii vähentää virheitä transkripteissa, saavuttaa paremman käyttäjäkokemuksen. Tämä ominaisuus on erityisen kriittinen aloilla, kuten lääketieteessä tai rahoituksessa.
Nimien tunnistaminen (NER) poistaa ja tunnistaa avaininformaatiota rakenteettomasta äänidatasta, kuten henkilöiden, organisaatioiden, sijaintien nimiä ja paljon muuta. Yleinen haaste rakenteettomissa tiedoissa on, että tätä kriittistä tietoa ei ole helposti saatavilla – se on piilotettu transkriptiin.
Ratkaisemaan tämän ongelman Gladia on kehittänyt järjestelmällisen avaindatan poistomenetelmän (KDE). Hyödyntämällä generatiivisia kykyjä Whisper-pohjaisessa arkkitehtuurissa – samankaltaista kuin LLM: ssä – Gladia:n KDE poistaa kontekstia tunnistaa ja poistaa tärkeää tietoa suoraan.
Tätä prosessia voidaan edelleen parantaa ominaisuuksilla, kuten mukautetulla sanastolla ja NER: llä, jolloin yritykset voivat nopeasti ja tehokkaasti täyttää CRM: änsä tärkeillä tiedoilla.
Miten reaaliaikainen transkriptio muuttaa aloja, kuten asiakaspalvelua, myyntiä ja sisällönluomista?
Reaaliaikainen transkriptio muuttaa näitä aloja perusteellisesti, ajamalla merkittäviä tuottavuuden parannuksia ja konkreettisia liiketoimintahyötyjä.
Ensisijaisesti reaaliaikainen transkriptio on pelinmuuttaja tukitiimeille. Reaaliaikainen tuki on avain parantamaan ratkaisunopeutta nopeampien vastausten, älykkäämpien edustajien ja parempien tuloksien (mm. NSF, käsitelyajat jne.) ansiosta. Koska ASR-järjestelmät paranevat kielellisissä haasteissa ja reaaliaikaisessa käännöksessä, asiakaspalvelukeskukset voivat saavuttaa todella globaalin asiakaskokemuksen alhaisemmilla marginaaleilla.
Myyntialalla nopeus ja oivallukset ovat kaikki. Samoin kuin mitä tapahtuu asiakaspalveluedustajille, reaaliaikainen transkriptio varustaa heidät oikeilla oivalluksilla oikeaan aikaan, mahdollistaen heidän keskittymisen siihen, mikä on tärkeintä kauppojen sulkemisessa.
Luoja: lle reaaliaikainen transkriptio on ehkä vähemmän relevanttia tällä hetkellä, mutta edelleen täynnä potentiaalia, erityisesti live-tekstityksessä ja käännöksessä median tapahtumissa. Useimmat nykyiset median asiakkaamme edelleen suosittelevat asynchronous transkriptiota, koska nopeus ei ole kriittistä siellä, kun taas tarkkuus on avainsovelluksissa, kuten aikaleimattu videoeditointi ja tekstitysten luonti.
Reaaliaikainen tekoälytranskriptio näyttää olevan kasvava trendi. Mihin suuntaan näet tämän teknologian kehittyvän seuraavien 5-10 vuoden aikana?
Tunnen, että tämä ilmiö, jota nyt kutsutaan reaaliaikaiseksi tekoälyksi, tulee olemaan joka paikassa. Perimmältään se, mihin viittaan tässä, on koneiden vaivaton kyky vuorovaikuttaa ihmisten kanssa, samalla tavalla kuin me ihmiset vuorovaikumme toistemme kanssa.
Ja jos katsot minkä tahansa Hollywood-elokuvan (kuten Her), joka on asetettu tulevaisuuteen, et näe ketään, joka vuorovaikuttaa älykkäiden järjestelmien kanssa näppäimistön kautta. Minulle se on lopullinen todiste siitä, että kollektiivisessa ihmiskunnan mielikuvassa ääni on aina ollut pääasiallinen tapa, jolla vuorovaikumme maailman kanssa.
Ääni, joka on tärkein tapa, jolla keräämme ja jaamme ihmisten tietoa, on ollut osa ihmiskulttuuria ja historiaa paljon kauemmin kuin kirjoitus. Sitten kirjoitus otti ylivallan, koska se mahdollisti tietojen säilyttämisen tehokkaammin kuin luottaa yhteisön vanhimpiin, jotka ovat kaiken tietämyksen vartijoita ja viisautta.
GenAI-järjestelmät, jotka voivat ymmärtää puhetta, generoida vastauksia ja tallentaa vuorovaikutuksemme, toivat täysin uuden ulottuvuuden tähän tilaan. Se on kirjoitettujen ja puhuttujen sanojen parasta yhdistelmää ja parasta, mitä ihmisillä on. Se antaa meille tämän ainutlaatuisen voiman ja energian ääniviestinnästä kirjoitetun median muistin edun kanssa, jota aiemmin vain kirjoitettu media pystyi turvaamaan meille. Tämän vuoksi uskon, että se tulee olemaan joka paikassa – se on kollektiivinen unelmamme.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla Gladia: ssa.












