Tankeledere

AI-drevne stemmebaserte agenter for bedrifter: To nøkkelutfordringer

Publisert 31. januar 2024

Oppdatert 22. mai 2026

Dr. Itamar Arel and Dr. Ron Chrisley

Nå, mer enn noen gang tidligere, er det tid for AI-drevne stemmebaserte systemer. Tenk på et oppringning til kundeservice. Snart vil all stivhet og inflexibilitet være borte – de stive robotstemmene, “trykk én for salg”-stil menyene, de irriterende opplevelser som har fått oss alle til å trykke frantically på null i håp om å snakke med en menneskelig agent i stedet. (Eller, gitt de lange ventetidene som å bli overført til en menneskelig agent kan medføre, hadde oss til å gi opp på oppringningen helt og holdent.)

Ikke mer. Fremgangene ikke bare i transformer-basert store språkmodeller (LLM), men også i automatisk talegjenkjenning (ASR) og tekst-til-tale (TTS)-systemer betyr at “neste generasjons” stemmebaserte agenter er her – hvis du vet hvordan du bygger dem.

I dag tar vi en titt på utfordringene som konfronterer noen som håper å bygge slike state-of-the-art stemmebaserte konversasjonsagenter.

Hvorfor stemme?

Før vi dykker inn, la oss ta en rask titt på de generelle tiltrekningene og relevansen av stemmebaserte agenter (i motsetning til tekstbaserte interaksjoner). Det er mange grunner til at en stemmeinteraksjon kan være mer passende enn en tekstbasert en – disse kan inkludere, i økende rekkefølge:

Preferanse eller vane – tale forutgår skriving utviklingsmessig og historisk
Langsom tekstinnputt – mange kan snakke raskere enn de kan skrive
Håndfrie situasjoner – som kjøring, trening eller gjøring av vaske
Analfabetisme – i det minste i språkene agenten forstår
Funksjonshemninger – som blindhet eller mangel på ikke-vokal motorisk kontroll

I en tid som synes å være dominert av nettbaserte transaksjoner, er stemme en kraftfull kanal for handel. For eksempel fant en nylig studie av JD Power om kundetilfredshet i hotellindustrien at gjester som bestilte rommet sitt over telefonen var mer tilfreds med oppholdet enn de som bestilte gjennom en nettbasert reisebyrå (OTA) eller direkte gjennom hotellets nettsted.

Men interaktive stemmesvar, eller IVR for kort, er ikke nok. En studie fra 2023 av Zippia fant at 88% av kundene foretrekker stemmeoppringninger med en live-agent i stedet for å navigere gjennom en automatisert telefonmenu. Studien fant også at de øverste tingene som irriterer folk mest om telefonmenyer inkluderer å lytte til irrelevante alternativer (69%), evnen til å fullt ut beskrive problemet (67%), ineffektivt service (33%) og forvirrende alternativer (15%).

Og det er en åpenhet for å bruke stemmebaserte assistenter. Ifølge en studie av Accenture, er rundt 47% av forbrukerne allerede komfortable med å bruke stemmeassistenter til å interagere med bedrifter og rundt 31% av forbrukerne har allerede brukt en stemmeassistent til å interagere med en bedrift.

Uansett grunn, for mange, er det en preferanse og etterspørsel etter taleinteraksjon – så lenge det er naturlig og komfortabelt.

Hva gjør en god stemmebasert agent?

Roughly speaking, en god stemmebasert agent bør svare på brukeren på en måte som er:

Relevant: Basert på en korrekt forståelse av hva brukeren sa/ønsket. Merk at i noen tilfeller vil agentens svar ikke bare være et talt svar, men en form for handling gjennom integrasjon med en backend (f.eks. å faktisk bestille et hotellrom når brukeren sier “Gå videre og bestill det”).
Nøyaktig: Basert på faktene (f.eks. bare si at det er et ledig rom på hotellet den 19. januar hvis det er)
Klar: Svaret bør være forståelig
Tidlig: Med den typen forsinkelse en ville forvente fra en menneskelig
Sikker: Ingen offensive eller upassende språk, avsløring av beskyttet informasjon, osv.

Problemet

Gjeldende stemmebaserte automatiserte systemer prøver å møte ovennevnte kriterier på bekostning av a) å være a) svært begrensede og b) svært frustrerende å bruke. En del av dette er et resultat av de høye forventningene som en stemmebasert konversasjonskontekst setter, med slike forventninger bare øker jo mer stemmekvaliteten i TTS-systemer blir uløselig fra menneskelige stemmer. Men disse forventningene knuses i systemene som er bredt distribuert for øyeblikket. Hvorfor?

I ett ord – inflexibilitet:

Begrenset tale – brukeren er vanligvis tvunget til å si ting på en unaturlig måte: i korte fraser, i en bestemt rekkefølge, uten unødvendig informasjon, osv. Dette tilbyr liten eller ingen fremgang over det gamle skole-nummerbaserte meny-systemet
Smal, ikke-inclusiv forestilling om “akseptabel” tale – lav toleranse for slang, uhms og ahs, osv.
Ingen tilbakevending: Hvis noe går galt, kan det være liten sjanse til å “reparere” eller korrigere det problematiske informasjonsstykket, men i stedet må starte på nytt eller vente på en overføring til en menneskelig.
Streng tur-ordning – ingen evne til å avbryte eller tale en agent

Det går uten å si at folk finner disse begrensningene irriterende eller frustrerende.

Løsningen:

Det gode nyheten er at moderne AI-systemer er kraftige og raske nok til å forbedre betydelig på ovennevnte typer erfaringer, i stedet for å nærme (eller overgå!) menneskebasert kundeservice-standarden. Dette skyldes en rekke faktorer:

Raskere, kraftigere maskinvare
Forbedringer i ASR (høyere nøyaktighet, overvinner støy, aksenter, osv.)
Forbedringer i TTS (naturlig-lydende eller til og med klonede stemmer)
Ankomsten av generative LLM (naturlig-lydende samtaler)

Det siste punktet er en game-changer. Den viktigste innsikten var at en god prediktiv modell kan tjene som en god generativ modell. En kunstig agent kan komme nær menneske-nivå konversasjonsytelse hvis den sier hva en tilstrekkelig god LLM forutsier å være det mest sannsynlige ting en god menneskelig kundeservice-agent ville si i den gitte konversasjonskonteksten.

Kue ankomsten av dusinvis av AI-startups som håper å løse stemmebasert konversasjonsagent-problemet bare ved å velge og deretter koble sammen, av-the-shelf ASR- og TTS-moduler til en LLM-kjerne. På denne visen er løsningen bare et spørsmål om å velge en kombinasjon som minimerer forsinkelse og kostnad. Og selvfølgelig er det viktig. Men er det nok?

Ikke så raskt

Det er flere spesifikke grunner til at denne enkle tilnærmingen ikke vil fungere, men de stammer fra to generelle punkter:

LLM kan faktisk ikke, på egen hånd, gi gode faktum-baserte tekst-samtaler av den typen som kreves for bedriftsapplikasjoner som kundeservice. Så de kan ikke, på egen hånd, gjøre det for stemme-baserte samtaler heller. Noe annet er nødvendig.
Selv om du supplerer LLM med hva som er nødvendig for å lage en god tekst-basert konversasjonsagent, krever det å omdanne det til en god stemme-basert konversasjonsagent mer enn bare å koble det til de beste ASR- og TTS-modulene du kan betale for.

La oss se på et spesifikt eksempel på hver av disse utfordringene.

Utfordring 1: Å holde det reelt

Som nå er vidt kjent, produserer LLM noen ganger uakkurate eller “hallusinerte” informasjon. Dette er katastrofalt i konteksten av mange kommersielle applikasjoner, selv om det kanskje kan gjøre for en god underholdningsapplikasjon hvor nøyaktighet ikke er poenget.

At LLM noen ganger hallucinerer er bare å forvente, på refleksjon. Det er en direkte konsekvens av å bruke modeller trent på data fra et år (eller mer) siden til å generere svar på spørsmål om fakta som ikke er en del av, eller følger av, en datamengde (uansett hvor stor) som kan være et år eller mer gammel. Når brukeren spør “Hva er mitt medlemsnummer?”, kan en enkel forhånds-trent LLM bare generere et plausibelt-lydende svar, ikke et nøyaktig ett.

De vanligste måtene å håndtere dette problemet på er:

Fine-tuning: Trene den forhånds-trente LLM videre, denne gangen på all domene-spesifikke data du ønsker at den skal kunne svare korrekt på.
Prompt-engineering: Legg til den ekstra data/instruksjonene som en inndata til LLM, i tillegg til samtale-historien
Retrieval Augmented Generation (RAG): Lik prompt-engineering, bortsett fra at dataene som legges til i prompten bestemmes på flytte av å matche den nåværende samtale-konteksten (f.eks. kunden har spurt “Har ditt hotell en pool?”) til en innkodet indeks av din domene-spesifikke data (som inkluderer, f.eks. en fil som sier: “Her er fasilitetene tilgjengelige på hotellet: pool, sauna, EV-ladestasjon.”).
Regel-basert kontroll: Lik RAG, men hva som skal legges til (eller trekkes fra) i prompten bestemmes ikke av å matche en neural minne, men er bestemt av hard-kodet (og hånd-kodet) regler.

Merk at en størrelse ikke passer alle. Hvilken av disse metodene som vil være passende, vil avhenge av, for eksempel, den domene-spesifikke dataen som informerer agentens svar. Spesielt vil det avhenge av om nevnte data endrer seg ofte (oppringning til oppringning, f.eks. – kundens navn) eller nesten aldri (f.eks. den innledende hilsenen: “Hei, takk for å ringe Hotel Budapest. Hvordan kan jeg hjelpe deg i dag?”). Fine-tuning ville ikke være passende for det førstnevnte, og RAG ville være en klønete løsning for det sistnevnte. Så noe som fungerer, må bruke en variasjon av disse metodene.

Hva mer, integrering av disse metodene med LLM og hverandre på en måte som minimerer forsinkelse og kostnad, krever nøye ingeniørarbeid. For eksempel kan din modells RAG-ytelse forbedres hvis du fin-justerer den for å fasilitere denne metoden.

Det kan kanskje ikke overraske at hver av disse metodene i sin tur introduserer sine egne utfordringer. For eksempel, ta fine-tuning. Fine-tuning av din forhånds-trente LLM på din domene-spesifikke data vil forbedre dens ytelse på den dataen, ja. Men fine-tuning modifiserer parameterne (vektene) som er grunnlaget for den forhånds-trentes modells (antageligvis ganske gode) generelle ytelse. Denne modifikasjonen forårsaker derfor en “glemsel” (eller “katastrofalt glemsel”) av noen av modellens tidligere kunnskap. Dette kan resultere i at modellen gir inkorrekte eller upassende (selv farlige) svar. Hvis du ønsker at din agent skal fortsette å svare korrekt og trygt, trenger du en fine-tuningsmetode som motvirker katastrofalt glemsel.

Utfordring 2: Endpointing

Å bestemme når en kunde har slutta å snakke er kritisk for naturlig samtale-flyt. Liksom må systemet håndtere avbrytelser på en elegant måte, og sikre at samtalen forblir koherent og responsiv til kundens behov. Å oppnå dette til en standard som er sammenlignbar med menneskelig interaksjon, er en kompleks oppgave, men er essensiell for å skape naturlige og behagelige samtale-erfaringer.

En løsning som fungerer, krever at designerne tar hensyn til spørsmål som:

Hvor lenge etter at kunden har stoppet å snakke, bør agenten vente før den bestemmer seg for at kunden har stoppet å snakke?
Avhenger ovennevnte av om kunden har fullført en full setning?
Hva skal gjøres hvis kunden avbryter agenten?
Spesielt, skal agenten anta at hva den sa, ikke ble hørt av kunden?

Disse problemene, som hovedsakelig handler om timing, krever nøye ingeniørarbeid over og ovenfor det som er involvert i å få en LLM til å gi et korrekt svar.

Konklusjon

Utviklingen av AI-drevne stemmebaserte systemer lover en revolusjonerende forandring i kundeservice-dynamikken, og erstatter gamle telefon-systemer med avanserte LLM, ASR og TTS-teknologier. Men å overvinne utfordringer i hallucinert informasjon og sammenhengende endpointing, vil være avgjørende for å levere naturlige og effektive stemme-interaksjoner.

Automatisering av kundeservice har potensialet til å bli en virkelig game-changer for bedrifter, men bare hvis det gjøres riktig. I 2024, spesielt med alle disse nye teknologiene, kan vi endelig bygge systemer som kan føles naturlige og flytende og robustt forstå oss. Den netto-effekten vil redusere ventetider og forbedre den nåværende erfaringen vi har med stemme-bots, og markerer en transformasjon i kundeservice og kvalitet.

Dr. Itamar Arel

Dr. Itamar Arel, som for tiden er CEO i Tenyx, kombinerer sin akademiske bakgrunn som tidligere professor ved University of Tennessee og Stanford University’s AI-lab med entreprenøriell suksess, med å co-grunnlegge pionerende selskaper Binatix, Apprente (kjøpt av McDonald’s og IBM) og Tenyx. Itamar holdt nylig stillingen som corporate VP og sjef for McD Tech Labs i McDonald’s Corporation og sjef for konversasjons-AI i IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI