Connect with us

Tankeledere

Stemmer AI er i fremgang – men er det realistisk nok til å ha en innvirkning?

mm

Det globale markedet for AI-stemmeagenter er i fremgang, og det forventes å vokse fra 3,14 milliarder dollar i 2024 til 47,5 milliarder dollar i 2034. Lenger er det ikke en nisjetechnologi, og de fleste store teknologiselskapene (inkludert Google, Amazon, Apple, Meta og Microsoft) har nå stemmeprodukter, og nye selskaper tilbyr innovasjoner på markedet. Teknologien blir også mer tilgjengelig med åpne kildekodemodeller. Fra hverdagslige virtuelle assistenter som Siri og Alexa til regionale stemmer i filmer og TV, har det aldri vært en mer gunstig mulighet for å ta i bruk stemme-AI.

Men selv om tilgangen til stemme-AI blir mer utbredt, er erfaringene fortsatt svært ulike. Dette skyldes at den hardeste delen av stemme-AI ikke er å generere lyden av en stemme, men å generere en stemme som føles troverdig i daglige interaksjoner. Den vidstrakte tilgjengeligheten betyr ikke at disse AI-stemmene er tilstrekkelige for bedriftens behov eller for langvarig brukeradopsjon. Den sanne konkurransearenaen vil bli erobret av de som leverer stemmer som føles menneskelige, dynamiske og emosjonelt bevisste i sanntids situasjoner.

Den ukomfortable dalen: “Godt nok” er ikke godt nok

En økende antagelse innen bransjen er at å oppnå en rimelig menneske-lignende AI-stemme vil være “godt nok” for vidstrakt adopsjon, og effektivt avslutte kappløpet. Brukerne vil tolerere små unnaturligheter fordi nytten veier opp for manglene.

I virkeligheten misforstår denne antagelsen hvordan mennesker oppfatter tale, emosjon og autentisitet. Nesten-menneskelige stemmer er utsatt for å skape en “ukomfortabel dal”-effekt som gjør brukerne ubekvemme, spesielt under kundesupport, helseinteraksjoner eller reiseplanlegging, hvor emosjoner kan være høye og følelsen av å bli forstått er avgjørende. Ettersom eksponeringen for AI-stemmer øker, synker toleransen for mediokritet.

Faktisk viser forskning på menneske-maskin-interaksjon konsekvent at når en stemme er nære menneskelig, men mangler emosjonell eller rytme-orientert alignering, føler brukerne instinktivt at noe er galt. For eksempel kan noen selskaper med AI-resepsjonister merke at brukerne beskriver interaksjonene som creepy eller uhyggelige fordi stemmen har små rytme- eller emosjonelle tidssinkroniseringsfeil som bare ikke føles riktig. I kundevendte miljøer kan selv små øyeblikk med friksjon eller ubehageligheit raskt kompensere til reell misnøye og eventuell frafall.

Å bryte fri fra denne “godt nok”-modusen er stadig viktigere for bedriftsmål. AI forventes å håndtere rundt 50% av kundeservice-sakene i 2027, men negative automatiserte interaksjoner kan direkte skade merkevar-persepsjonen. En dårlig chatbot-interaksjon fulgt av en like dårlig eller unnaturlig stemme-erfaring vil sannsynligvis skape en dyp følelse av frustrasjon og kan signalisere at det ikke finnes en pålitelig vei til ekte hjelp.

Ettersom forbrukerne stadig oftere interagerer med AI-stemmer, synker toleransen for robotiske eller ubehagelige interaksjoner, og brukerne vil raskt frafall, noe som kan føre til alvorlige forretningskonsekvenser for selskaper som avhenger av slike verktøy.

Sann realisme

I stemme-AI handler menneske-lignende realisme om mer enn bare uttale-aksurat eller fjerning av robot-lignende undertoner. Det krever også en flerdimensjonal kombinasjon av emosjon, kontekst, kulturelle nyanser, timing og mer subtile faktorer. Den virkelige utfordringen ligger derfor i å dekonstruere, forstå og til slutt replikere lagene som former menneskelig kommunikasjon, som for eksempel:

Emosjonell rekkevidde og autentisitet

Skjønnheten i menneskestemmer ligger i deres evne til å overføre varme, hastighet, humor, skuffelse, begeistring og talløse andre emosjoner, i sammenheng med ordene selv. Denne emosjonelle nyansen påvirker direkte om en bruker føler seg forstått eller avvist, beroliget eller irritert.

Tenk for eksempel på en AI-støtteagent som håndterer en frustrert kunde. Boten kan si: “Jeg forstår fullstendig hvor frustrerende dette må være. La oss se hvordan vi kan fikse det.” Når stemmen som sier disse ordene lyder empatisk, kan det senke en ringers stress og signalisere ekte konfliktløsning. De samme ordene sagt i en flat eller unnaturlig stemme kan utløse den motsatte reaksjonen.

Kontekstuell intelligens

Mennesker justerer instinktivt talebasert på situasjonens hastighet, den oppfattede emosjonelle tilstanden til lytteren, informasjonskompleksitet og sosial kontekst. I dagens AI-stemmer leveres linjene vanligvis uniformt, og mangler kontekstuelle signaler som gjør tale følsom og tilstedeværende. Realistisk tale krever en forståelse ikke bare av ordene, men av hvorfor de uttales og hvilken mentalitet de som uttrykker dem har.

Mikro-uttrykk i audio

Naturlig tale inkluderer subtile feil som pust, pauser, tøven og uregelmessig pacing. Dette er en av hovedgrunnene til at feilfrie, uavbrutte AI-tale inneholdt føles mindre menneskelig. Dessverre er det teknisk utfordrende å replikere disse signalene på en troverdig måte.

Kulturelle og lingvistiske nyanser

I tillegg til aksent-reproduksjon, avhenger autentisk regional kommunikasjon av en bevissthet om ulike kulturers pacing, intonasjon, idiom, formellhetsnivå og kommunikasjonsstiler. For eksempel kan en stigende intonasjonsmønster som signaliserer vennlighet og begeistring i en kultur bli tolket som usikkerhet eller spørsmål i en annen, og potensielt endre brukerens oppfattning av intensjon eller emosjon.

Uten disse vokale nyanser integrert i AI-modellene, kan selv teknisk korrekte stemmer føles upassende eller forvirrende for brukere fra ulike kulturelle bakgrunner. Sann realisme krever evnen til å tilpasse tone og stil basert på forventningene til enhver gitt bruker.

Når man tar hensyn til alle disse subtile, men viktige faktorene, blir det klart at AI-stemmer ikke bare må lyde som et menneske, men også reagere i sanntid som et menneske ville. Derfor er latency en kritisk faktor i evaluering av hvor menneske-lignende en AI-stemme føles. I naturlig samtale tar mennesker seg i gjennomsnitt 250 millisekunder på å svare. Hvis det tar lenger, føles interaksjonen treg, likegyldig eller forvirret. Den lille forskjellen mellom en tenkfylt pause og en teknisk forsinkelse kan være nok til å forstyrre illusjonen av naturlig samtale og gjøre stemmen føles mindre oppmerksom.

Hvorfor dette er viktig

I fremtiden vil markedet uunngåelig favorisere selskaper som kan levere både realisme og sanntidsrespons.

For AI-agenter og -assistenter avhenger brukeradopsjon og varig engasjement av om folk ønsker å interagere med teknologien fra første sted. Forskjellen mellom et verktøy folk prøver en gang og ett de avhenger av hver dag, er kvaliteten på samtale-erfaringen.

I underholdningsindustrien avhenger publikums oppslukning og beholdning av hvor troverdig et innhold er, og en enkelt unnaturlig linje kan forstyrre seerens engasjement. AI-stemmer brukt i dubbing eller karakter-utførelse må fullstendig integreres i fortellingen for å opprettholde emosjonell påvirkning.

For kundesupport er tillit og empati avgjørende, spesielt siden mange kundeinteraksjoner skjer under øyeblikk av frustrasjon eller forvirring. En stemme som lyder stiv eller emosjonelt frakoblet kan eskalere en situasjon i stedet for å løse den. Brukere forventer stemmer som kan reflektere bekymring, tålmodighet eller beroligelse, ikke bare levere skriptede svar.

Hva kommer neste

Selskapene som vinner stemme-AI-kappløpet, vil være de som behersker emosjonell nyanser, forstår kulturelle og kontekstuelle variasjoner, reagerer øyeblikkelig og flytende, og leverer erfaringer som er ubeskrevelige fra å snakke med et menneske.

I et marked hvor noen kan generere en AI-stemme og brukerforventningene utvikler seg i takt, vil “godt nok” raskt ikke være godt nok. Den eneste måten å forbli konkurransedyktig på, vil være å generere AI-stemmer som folk lett kan glemme er AI.

Oz Krakowski, Chief Business Development Officer, leder Deepdub's forretningsutvikling og strategisk salg og har overvåket lokaliseringsarbeidet med hundredvis av timer med manus- og ikke-manusbasert innhold til flere språk ved hjelp av Deepdubs banebrytende AI-drevne lokaliseringsplattform. Fra dubbing av teaterforestillinger, prisbelønnede indie-filmer, den første noen gang dubbede manusbaserte drama på Hulu ("Vanda") til ikke-manusbasert innhold som reality-serien "Hardcore Pawn" og dokumentar-krim "Forensic Files", har Oz fostret samarbeid og partnerskap med studioer og eiere av innhold over hele verden, han er også medlem av DEG Awards Planning Committee. Oz er en serial entrepreneur og var medgründer av et startup-selskap på helsemarkedet før han ble med i Deepdub.