Connect with us

aiOla Introduceser QUASAR for å gjensette hvordan talegjenkjenning fungerer i produksjon

Kunstig intelligens

aiOla Introduceser QUASAR for å gjensette hvordan talegjenkjenning fungerer i produksjon

mm

aiOla har lansert QUASAR, en plattform designet for å løse ett av de mest vedvarende problemene i bedriftens stemme-AI: inkonsistent talegjenkjenning i sanntidsbetingelser. I stedet for å låse kundene til en enkelt automatisk talegjenkjenning (ASR)-leverandør, fungerer QUASAR som en intelligent gateway som dynamisk ruter hver lydinteraksjon til ASR-motoren som sannsynligvis vil fungere best på det aktuelle tidspunktet.

Dette skiftet har betydning ettersom tale blir en kjerneparameter for AI-drevne arbeidsflyter på tvers av kontaktssentere, overholdelse, analyse, søk og stadig mer, autonome AI-agenter. Mens benchmark-poeng ofte veileder ASR-utvalg, er produksjonsmiljøer dominert av aksenter, bakgrunnsstøy, bransjespesifikk terminologi og fluktueringer i nettverkskvalitet – faktorer som kan dramatisk endre gjenkjenningens nøyaktighet fra en interaksjon til en annen.

Hvorfor en-størrelse-passer-til-alle ASR bryter sammen i skala

De fleste bedrifter i dag distribuerer ASR som en statisk infrastruktur-beslutning. En enkelt leverandør velges basert på aggregerte benchmark-poeng, og deretter dypt integrert i arbeidsflytene. I praksis skaper dette blinde flekker. En motor som excellerer i ren, lest tale kan stride med aksenterte talere eller bransje-tyngde vokabular. En annen kan håndtere støyende lyd godt, men gå glipp av egennavn eller numeriske sekvenser kritiske for overholdelse og fakturering.

Bytte leverandør for å løse disse gapene er dyrt og forstyrrende, og krever ofte om-trening, om-validering og operasjonell nedtid. I mellomtiden lanseres nye ASR-modeller og oppdateringer i en takt som overstiger de fleste organisasjoners evne til å teste og adoptere dem. Resultatet er lavere innhold, ukorrekte sammenfatninger, svakere analyse og høyere kvalitetsikringsoverhodet – alt drevet av transkripsjonsfeil som kunne ha blitt unngått.

Innenfor QUASARs arkitektur: Behandling av ASR som et dynamisk problem

QUASAR nærmer seg talegjenkjenning som en sanntids-optimieringsutfordring. Hver inngående lydforespørsel vurderes før transkripsjon, med hensyn til faktorer som taltrekk, akustiske forhold og bransje-kontekst. Basert på denne vurderingen, ruter systemet lyden til ASR-motoren som sannsynligvis vil levere den høyeste kvaliteten på resultatet for den spesifikke interaksjonen.

Teknisk fungerer QUASAR som en orkestreringslag som kan fungere på tvers av kommersielle sky-API-er, selvvertede modeller og tilpassede ASR-distribusjoner. Denne abstraksjonen tillater bedrifter å eksperimentere med nye motorer, balansere kostnad versus kvalitet og unngå langvarig leverandør-lås – uten å endre nedstrøms-applikasjoner.

I kjernen er det en ubetjent vurdering og rangering-mekanisme som scorer ASR-alternativer i sanntid. I stedet for å kun basere seg på historiske gjennomsnitt, lærer systemet kontinuerlig fra sanntidsforhold, og muliggjør transkripsjonsbeslutninger som tilpasser seg når miljøer, talere og brukstilfeller utvikler seg.

Ytelse på tvers av sanntidslydbetingelser

I interne evalueringer som omfatter seks diverse benchmark-datasett – fra ren, lest tale og profesjonelle foredrag til aksenterte, støyende og bransje-tyngde finansielle lyder – valgte QUASAR den best-performende ASR-alternativet med 88,8 % total nøyaktighet, eller en tilsvarende toppvalg når resultater var effektivt likt. Nøyaktigheten nådde så høyt som 97 % på ren tale og forblev i intervallet 79-88 % for mer utfordrende lyd med aksenter, støy og spesialisert vokabular.

Disse resultater understreker en viktig innsikt: ingen enkelt ASR-motor er konsekvent den beste på tvers av alle scenarier, men intelligent routing kan fange styrkene til mange.

Aktivering av tale som levende infrastruktur

Ved å løse talegjenkjenningens kvalitet fra en fast leverandør, gjør QUASAR ASR til det aiOla beskriver som “levende infrastruktur”. Bedrifter får finmasket visibilitet i transkripsjonsytelse på interaksjonsnivå, samt evnen til å optimere for nøyaktighet, kostnad eller forsinkelse avhengig av brukstilfelle.

Dette tilnærmingen akselerer også utvidelse til nye regioner og vertikaler. I stedet for å vente på at en enkelt leverandør skal støtte et språk, aksent eller bransjespesifikt vokabular, kan organisasjoner route trafikken til motoren som er best egnet for den nisjen i dag – og bytte når bedre alternativer dukker opp.

aiOlás bredere visjon for tale-drevne arbeidsflyter

QUASAR bygger på aiOlás bredere misjon om å gjøre tale til den naturlige grensesnittet for bedriftssystemer. Selskapets patenterede modeller går ut over standard tale-til-tekst, og kombinerer talegjenkjenning med arbeidsflyt-intelligens for å konvertere tale-input til strukturert, sanntidsdata. Dette muliggjør håndfrie automatisering på tvers av kritiske industrier hvor manuell datainntasting fortsatt er en flaskehals.

Støttet av 58 millioner dollar i finansiering og et forskningsdrevet team, posisjonerer aiOla tale ikke bare som en inndata-modus, men som grunnleggende infrastruktur for AI-drevne operasjoner. Med QUASAR utvider selskapet denne visjonen til ASR-laget selv – og utfordrer langvarige antagelser om hvordan talegjenkjenning bør deployeres i skala.

Ettersom tale blir det primære grensesnittet for AI-agenter og bedriftssystemer, kan dynamisk, kontekst-bevisst talegjenkjenning vise seg å være essensiell. QUASARs lansering signaliserer en bevegelse bort fra statiske modellvalg mot adaptiv, ytelses-drevet orkestrering – en tilnærming som kan omforme hvordan hele tale-AI-økosystemet forbruker ASR.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.