Connect with us

aiOla esittelee QUASARin uudelleenajattelemaan puhetunnistuksen toimintatapaa tuotannossa

Tekoäly

aiOla esittelee QUASARin uudelleenajattelemaan puhetunnistuksen toimintatapaa tuotannossa

mm

aiOla on esitellyt QUASAR, alustan, joka on suunniteltu ratkaisemaan yksi yritysten ääni-ai:n pysyvimmistä ongelmista: epävakaa puhetunnistuksen suorituskyky todellisissa olosuhteissa. Sen sijaan, että asiakkaat lukittaisiin yhden automaattisen puhetunnistuksen (ASR) tarjoajan kanssa, QUASAR toimii älykkäänä portaalina, joka dynaamisesti ohjaa jokaisen ääni-viestinnän ASR-moottoriin, joka on todennäköisesti suoriutuu parhaiten kyseisessä tilanteessa.

Tämä muutos on merkittävä, koska puheesta tulee yhä enemmän ydin syöte AI-vetoinen työnkulkuun yhteyskeskuksissa, noudattamisessa, analytiikassa, haussa ja yhä enemmän autonomisissa AI-välikohteissa. Vaikka vertailu arviot usein ohjaavat ASR-valintaa, tuotanto-olosuhteissa hallitsevat aksentit, taustamelu, alan mukainen sanastoa ja vaihteleva verkon laatu – tekijät, jotka voivat dramaattisesti muuttaa tunnistus tarkkuutta yhdestä vuorovaikutuksesta toiseen.

Miksi yksi-koko-kaikkiin ASR epäonnistuu mittakaavassa

Useimmat yritykset käyttävät tänään ASR:ää statisen infrastruktuuri päätöksenä. Yksi tarjoaja valitaan yhteisten vertailu arvioiden perusteella ja upotetaan syvälle työnkulkuun. Käytännössä tämä luo sokeita pisteitä. Moottori, joka menestyy puhdas, luettu puhe voi kärsiä aksentit puhuvilta tai alan raskaasta sanastosta. Toinen voi käsitellä meluisaa ääntä hyvin, mutta jättää oikeat nimet tai numerot, jotka ovat kriittisiä noudattamisessa ja laskutuksessa.

Tarjoajan vaihtaminen näiden aukkojen korjaamiseksi on kallista ja häiritsevää, usein vaativaa uudelleen koulutusta, uudelleen validointia ja toiminnan keskeytystä. Samaan aikaan uudet ASR-mallit ja päivitykset julkaistaan tahdissa, joka ylittää useimpien organisaatioiden kyvyn testata ja ottaa ne käyttöön. Tuloksena on alempia sisältö kuin odotettu, virheellisiä yhteenvetoja, heikompia analyysejä ja korkeampi laatu varmistus ylityö – kaikki johtuvat transkriptio virheistä, jotka olisi voitu välttää.

QUASARin arkkitehtuuri: Käsittely ASR dynaamisena ongelmana

QUASAR lähestyy puhetunnistusta reaaliaikaisena optimointi haasteena. Jokainen saapuva ääni pyyntö arvioidaan ennen transkriptiota, ottaen huomioon tekijöitä, kuten puhujan ominaisuuksia, akustisia olosuhteita ja alan kontekstia. Tämän arvion perusteella järjestelmä ohjaa äänen ASR-moottoriin, joka todennäköisesti toimittaa korkealaatuisimman tuloksen kyseiselle vuorovaikutukselle.

Teknisesti QUASAR toimii orkestraatio kerroksena, joka voi toimia kaupallisten pilvi-rajapintojen, itse isännöityjen mallien ja mukautettujen ASR-käyttöönottojen yli. Tämä abstraktio sallii yritysten kokeilla uusia moottoreita, tasapainottaa kustannuksia ja laatua ja välttää pitkäaikaista toimittajan lukitusta – kaikki ilman muutoksia alaspäin sovelluksiin.

Ytimessä on valvomaton arviointi ja luokitus mekanismi, joka pisteyttää ASR-vaihtoehtoja reaaliajassa. Sen sijaan, että riippuisi pelkästään historiallisista keskiarvoista, järjestelmä oppii jatkuvasti live-olosuhteista, mahdollistaen transkriptio päätöksiä, jotka mukautuvat ympäristöihin, puhujiin ja käyttötapauksiin.

Suorituskyky todellisissa ääni olosuhteissa

Sisäisissä arvioissa, jotka kattavat kuusi monipuolista benchmark-aineistoa – aina puhdas, luettu puhe ja ammattimaiset puheet aksentilliseen, meluisaan ja alan raskaaseen rahoitus ääneen – QUASAR valitsi parhaiten suorittavan ASR-vaihtoehdon 88,8 %:n kokonaistarkkuudella, tai vastaavan ykkösvaihtoehdon, kun tulokset olivat tehokkaasti tasatilanteessa. Tarkkuus saavutti jopa 97 %:n puhdas puheessa ja säilyi 79-88 %:n välillä haasteellisemmilla ääni olosuhteilla, kuten aksentit, melu ja erikoistunut sanasto.

Nämä tulokset korostavat avain havaintoa: ei ole yhtä ASR-moottoria, joka aina voittaa kaikissa tilanteissa, mutta älykäs reititys voi käyttää useiden moottorien vahvuuksia.

Äänen mahdollistaminen elävänä infrastruktuurina

Puhetunnistuksen laadun irti yhdestä kiinteästä tarjoajasta, QUASAR muuttaa ASR:än siitä, mitä aiOla kuvailee “eläväksi infrastruktuuriksi”. Yritykset saavat hienojakoiset näkymät transkriptio suorituskykyyn vuorovaikutustasolla, sekä mahdollisuuden optimoida tarkkuutta, kustannuksia tai viiveitä riippuen käyttötapauksesta.

Tämä lähestymistapa kiihdyttää myös laajentumista uusiin alueisiin ja pystyihin. Sen sijaan, että odottaisi yhtä tarjoajaa, joka tukee kieltä, aksenttia tai alan mukaista sanastoa, organisaatiot voivat ohjata liikenteen moottoriin, joka on parhaiten soveltuva kyseiseen niukkuuteen tänään – ja vaihtaa, kun parempia vaihtoehtoja tulee saataville.

aiOlan laajempi visio ääni-vetoinen työnkulku

QUASAR perustuu aiOlan laajempaan tavoitteeseen tehdä ääni luonnolliseksi rajapinnaksi yritysten järjestelmiin. Yrityksen patentoidut mallit menevät standardin puhetunnistuksen ulkopuolelle, yhdistäen ääni tunnistuksen työnkulku älymystön kanssa muuttaakseen puhun syötteen rakenteelliseksi, reaaliaikaisesti dataksi. Tämä mahdollistaa käsi vapaa automaation kriittisissä aloissa, joissa manuaalinen data syöttäminen on pullonkaula.

Tukeudutaan 58 miljoonan dollarin rahoituksella ja tutkimus johtavaan tiimiin, aiOla asettaa äänen ei vain syöte modality, vaan perusrakenteelliseksi infrastruktuuriksi AI-vetoinen toiminnan. QUASARin kanssa, yritys laajentaa tätä visiota ASR-kerrokseen itseensä – haastaa perinteisiä oletuksia siitä, miten puhetunnistus tulisi käyttää mittakaavassa.

Kun ääni tulee ensisijaiseksi rajapinnaksi AI-välikohteille ja yritysten järjestelmille, dynaaminen, konteksti tietoinen puhetunnistus voi osoittautua välttämättömäksi. QUASARin julkaisu merkitsee siirtymistä staattisista malli valinnoista adaptiiviseen, suorituskykyyn perustuvaan orkestraatioon – lähestymistapa, joka voi muuttaa, miten koko ääni-ai-ekosysteemi kuluttaa ASR:ää.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.