Kontakt med oss

Tankeledere

Stemmebasert kunstig intelligens er i sterk vekst – men er den realistisk nok til å gjøre en forskjell?

mm

Det globale markedet for AI-stemmeagenter blomstrer, anslått å vokse fra 3.14 milliarder dollar i 2024 til 47.5 milliarder dollar innen 2034. Teknologien er ikke lenger en nisje, men de fleste store teknologiselskaper (inkludert Google, Amazon, Apple, Meta og Microsoft) har nå taleprodukter, oppstartsbedrifter tilbyr innovasjoner til markedet, og selve teknologien blir stadig mer tilgjengelig med modeller med åpen kildekode. Fra hverdagslige virtuelle assistenter som Siri og Alexa til regional dubbing i filmer og TV, har det aldri vært en mer fruktbar mulighet for bruk av talebasert kunstig intelligens.

Men etter hvert som tilgangen til talebasert kunstig intelligens blir stadig mer utbredt, forblir opplevelsene svært ujevne. Det er fordi den vanskeligste delen av talebasert kunstig intelligens ikke er å generere lyden av en stemme, men å generere en stemme som føles troverdig i daglige interaksjoner. Utbredt tilgjengelighet betyr ikke at disse kunstig intelligens-stemmene er tilstrekkelige for bedriftsbehov eller for langsiktig brukeradopsjon. Det sanne konkurranselandskapet vil bli erobret av de som leverer stemmer som føles menneskelige, dynamiske og følelsesmessig bevisste i virkelige situasjoner.

The Uncanny Valley: «Godt nok» holder ikke

En voksende antagelse i bransjen er at det å oppnå en rimelig menneskelignende AI-stemme vil være «godt nok» for bred adopsjon, noe som effektivt vil avslutte kappløpet. Brukere vil tolerere litt unaturlighet fordi nytten oppveier manglene.

I virkeligheten misforstår denne antagelsen hvordan folk oppfatter tale, følelser og autentisitet. Nesten menneskelige stemmer er tilbøyelige til å skape en «Uhyggelig dal» effekt som gjør brukerne ukomfortable, spesielt under kundestøtte, helseinteraksjoner eller reiseplanlegging, der følelsene kan være høye og det å føle seg forstått er avgjørende. Etter hvert som eksponeringen for AI-stemmer øker, synker toleransen for middelmådighet.

Faktisk, forskning på menneske-maskin-interaksjon viser konsekvent at når en stemme er nesten menneskelig, men mangler emosjonell eller rytmisk tilpasning, brukerne føler instinktivt at noe er galt. For eksempel bemerker noen selskaper med AI-resepsjonister at brukere beskriver interaksjoner som uhyggelige eller urovekkende fordi stemmen har subtile rytmiske eller emosjonelle tidsavvik som rett og slett ikke føles riktige. I kundevendte miljøer kan selv små øyeblikk med friksjon eller ubehag raskt utvikle seg til reell misnøye og til slutt forlatelse.

Det blir stadig viktigere for forretningsmål å bryte seg løs fra denne «godt nok»-modusen. Det er forventet at AI vil håndtere rundt 50% av kundeservicesaker innen 2027, men likevel negative automatiserte interaksjoner kan skade merkevareoppfatningen direkte. En dårlig chatbot-interaksjon etterfulgt av en like dårlig eller unaturlig taleopplevelse vil sannsynligvis skape en dyp følelse av frustrasjon og kan signalisere at det ikke finnes noen pålitelig vei til reell hjelp.

Etter hvert som forbrukere i økende grad samhandler med AI-stemmer, reduseres toleransen for robotiske eller vanskelige interaksjoner, og brukere vil raskt trekke seg tilbake, noe som medfører alvorlige forretningsmessige konsekvenser for selskaper som er avhengige av slike verktøy.

Ekte realisme

Innen stemme-AI handler realisme på menneskelig nivå om mer enn bare uttalepresisjon eller fjerning av robotaktige undertoner. Det krever også en flerdimensjonal kombinasjon av følelser, kontekst, kulturelle nyanser, timing og mer subtile faktorer. Den virkelige utfordringen ligger derfor i å dekonstruere, forstå og til slutt gjenskape lagene som former menneskelig kommunikasjon, slik som:

Emosjonell rekkevidde og autentisitet

Det vakre med menneskelige stemmer ligger i deres evne til å formidle varme, hastverk, humor, skuffelse, begeistring og utallige andre følelser, i forbindelse med selve ordene. Denne emosjonelle nyansen påvirker direkte om en bruker føler seg forstått eller avvist, beroliget eller irritert.

Tenk deg for eksempel en AI-supportmedarbeider som har med en frustrert kunde å gjøre. Boten kan si: «Jeg forstår godt hvor frustrerende dette må være. La oss se hvordan vi kan fikse det.» Når stemmen som sier disse ordene høres empatisk ut, kan det redusere stresset til en innringer og signalisere ekte konfliktløsning. De samme ordene som blir sagt med en flat eller unaturlig stemme kan utløse den motsatte reaksjonen.

Kontekstuell intelligens

Mennesker justerer instinktivt talen sin basert på situasjonsbestemt hastverk, lytterens oppfattede emosjonelle tilstand, informasjonskompleksitet og sosial kontekst. Dagens AI-stemmer har en tendens til å gjengi replikker jevnt, og går glipp av de kontekstuelle signalene som gjør at talen føles responsiv og tilstedeværende. Realistisk tale krever en forståelse ikke bare av ordene, men også av hvorfor de blir sagt og tankegangen til de som uttrykker dem.

Mikrouttrykk i lyd

Naturlig tale inkluderer subtile ufullkommenheter som pust, pauser, nølingsmarkører og uregelmessig tempo. Det er en av hovedgrunnene til at feilfri, uavbrutt AI-tale iboende føles mindre menneskelig. Dessverre er det fortsatt teknisk utfordrende å gjenskape disse signalene på en troverdig måte.

Kulturelle og språklige nyanser

Ved siden av aksentgjengivelse avhenger autentisk regional kommunikasjon av en bevissthet om ulike kulturers tempo, intonasjon, idiomer, formalitetsnivåer og kommunikasjonsstiler. For eksempel kan et stigende intonasjonsmønster som signaliserer vennlighet og begeistring i én kultur tolkes som usikkerhet eller spørsmål i en annen, noe som potensielt kan endre brukerens oppfatning av intensjon eller følelser.

Uten disse vokale nyansene integrert i AI-modeller, kan selv teknisk nøyaktige stemmer føles upassende eller forvirrende for brukere fra ulik kulturell bakgrunn. Sann realisme krever evnen til å tilpasse tone og stil basert på forventningene til en gitt bruker.

Når man tar hensyn til alle disse subtile, men viktige faktorene, blir det tydelig at AI-stemmer ikke bare må høres som et menneske, men også reagere i sanntid slik et menneske ville gjort. Derfor er latens et avgjørende element for å evaluere hvor menneskelignende en AI-stemme føles. I naturlig samtale bytter mennesker på å snakke med gjennomsnittlige intervaller på 250 millisekunderHvis det tar lenger, føles samhandlingen treg, uoppmerksom eller forvirret. Den lille forskjellen mellom en tankefull pause og en teknisk forsinkelse kan være alt som skal til for å forstyrre illusjonen av en naturlig samtale og gjøre stemmen mindre oppmerksom.

Hvorfor dette Matters

Fremover vil markedet uunngåelig favorisere selskaper som kan levere både realisme og respons i sanntid.

For AI-agenter og assistenter avhenger brukeradopsjon og vedvarende engasjement av om folk i utgangspunktet ønsker å samhandle med teknologien. Forskjellen mellom et verktøy folk prøver én gang og et de stoler på hver dag er kvaliteten på samtaleopplevelsen.

I underholdningsbransjen avhenger publikums fengsel og bevaring av hvor troverdig et innhold er, og en enkelt unaturlig replikk kan forstyrre seerengasjementet. AI-stemmer som brukes i dubbing eller karakterprestasjoner må integreres fullt ut i fortellingen for å opprettholde den emosjonelle effekten.

For kundesupport er tillit og empati avgjørende, spesielt siden mange kundeinteraksjoner skjer i øyeblikk med frustrasjon eller forvirring. En stemme som høres stiv eller følelsesmessig frakoblet ut, kan eskalere en situasjon i stedet for å løse den. Brukere forventer stemmer som kan gjenspeile bekymring, tålmodighet eller beroligelse, ikke bare levere skriftlige svar.

Hva kommer så

Selskapene som vinner kappløpet om stemme-AI vil være de som mestrer emosjonelle nyanser, forstår kulturelle og kontekstuelle variasjoner, reagerer umiddelbart og flytende, og leverer opplevelser som ikke kan skilles fra å snakke med et menneske.

I et marked der hvem som helst kan generere en AI-stemme, og brukerforventningene utvikler seg i sin tur, vil «god nok» raskt ikke være bra i det hele tatt. Den eneste måten å holde seg konkurransedyktig på er å generere AI-stemmer som folk lett kan glemme at er AI.

Oz Krakowski, sjef for forretningsutvikling, leder Deepdub's forretningsutvikling og strategisk salg, og har overvåket lokaliseringen av hundrevis av timer med manusbasert og umanusbasert innhold til flere språk ved hjelp av Deepdubs banebrytende AI-drevne lokaliseringsplattform. Fra dubbing av kinofilmer, prisvinnende indiefilmer, det aller første dubbede manusbaserte dramaet på Hulu ("Vanda") til umanusbasert innhold som realityshowet "Hardcore Pawn" og dokumentarfilmen "Forensic Files", har Oz fremmet samarbeid og partnerskap med studioer og innholdseiere over hele verden. Han er også medlem av planleggingskomiteen for DEG Awards. Oz er en seriegründer, og før han begynte i Deepdub var han medgründer av en oppstartsbedrift i helsevesenet.