Thought leaders

Voice AI is Booming – Maar is het Realistisch Genoeg om een Impact te Maken?

mm

De mondiale markt voor AI-stemassistenten is in opkomst, wordt verwacht dat deze zal groeien van 3,14 miljard dollar in 2024 tot 47,5 miljard dollar in 2034. Het is geen niche-technologie meer, de meeste grote technologiebedrijven (waaronder Google, Amazon, Apple, Meta en Microsoft) hebben nu stemproducten, startups bieden innovaties aan op de markt en de technologie zelf wordt steeds toegankelijker met open-source-modellen. Van alledaagse virtuele assistenten zoals Siri en Alexa tot regionale nasynchronisatie in films en tv, er is nog nooit een vruchtbare gelegenheid geweest voor de adoptie van voice AI.

Maar naarmate de toegang tot voice AI steeds meer wordt verspreid, blijven de ervaringen diep onevenwichtig. Dat komt omdat het moeilijkste deel van voice AI niet het genereren van de klank van een stem is, maar het genereren van een stem die geloofwaardig aanvoelt in dagelijkse interacties. Wijdverbreide beschikbaarheid betekent niet dat deze AI-stemmen voldoende zijn voor bedrijfsbehoeften of voor langetermijngebruik. Het echte concurrentielandschap zal worden veroverd door degene die stemmen leveren die menselijk, dynamisch en emotioneel bewust aanvoelen in real-world situaties.

De Uncanny Valley: “Goed Genoeg” is niet Genoeg

Een groeiende veronderstelling binnen de industrie is dat het bereiken van een redelijk menselijke AI-stem “goed genoeg” zal zijn voor wijdverbreide adoptie, waardoor de race effectief zal eindigen. Gebruikers zullen een lichte onnatuurlijkheid tolereren omdat de functionaliteit de tekortkomingen overtreft.

In werkelijkheid mist deze veronderstelling hoe mensen spreken, emotie en authenticiteit percipiëren. Bijna-menselijke stemmen zijn geneigd om een “uncanny valley”-effect te creëren dat gebruikers ongemakkelijk maakt, vooral tijdens klantenservice, gezondheidsinteracties of reisplanning, waar emoties hoog kunnen oplopen en het gevoel begrepen te worden essentieel is. Naarmate de blootstelling aan AI-stemmen toeneemt, neemt de tolerantie voor middelmatigheid af en zullen gebruikers snel afhaken, waardoor ernstige zakelijke gevolgen ontstaan voor bedrijven die afhankelijk zijn van dergelijke tools.

Feitelijk onderzoek naar mens-machine-interactie toont consistent aan dat wanneer een stem bijna menselijk is maar ontbreekt aan emotionele of ritmische alignering, gebruikers instinctief voelen dat er iets mis is. Bijvoorbeeld, sommige bedrijven met AI-receptionisten merken op dat gebruikers interacties beschrijven als eng of ongemakkelijk omdat de stem subtiele ritmische of emotionele timing-onvolkomenheden heeft die gewoon niet goed aanvoelen. In klantgerichte omgevingen kunnen zelfs kleine momenten van wrijving of ongemak snel omslaan in echte ontevredenheid en uiteindelijke verlating.

Vrijkomen van deze “goed genoeg”-modus is steeds belangrijker voor bedrijfsdoelstellingen. AI wordt verwacht om ongeveer 50% van de klantenservicegevallen af te handelen in 2027, maar negatieve geautomatiseerde interacties kunnen de perceptie van het merk direct beschadigen. Een slechte chatbot-interactie gevolgd door een even slechte of onnatuurlijke stemervaring zal waarschijnlijk een diep gevoel van frustratie creëren en kan aangeven dat er geen betrouwbare weg is naar echte hulp.

Naarmate consumenten steeds meer interactie hebben met AI-stemmen, neemt de tolerantie voor robotachtige of onhandige interacties af en zullen gebruikers snel afhaken, waardoor ernstige zakelijke gevolgen ontstaan voor bedrijven die afhankelijk zijn van dergelijke tools.

Echte Realisme

Bij voice AI gaat menselijk niveau realisme verder dan alleen maar de nauwkeurigheid van de uitspraak of het verwijderen van robotachtige ondertoon. Het vereist ook een multidimensionale combinatie van emotie, context, culturele nuances, timing en meer subtiele factoren. De echte uitdaging ligt dan ook in het deconstrueren, begrijpen en uiteindelijk repliceren van de lagen die menselijke communicatie vormen, zoals:

Emotioneel bereik en authenticiteit

De schoonheid van menselijke stemmen ligt in hun vermogen om warmte, urgentie, humor, teleurstelling, opwinding en talloze andere emoties over te brengen, in combinatie met de woorden zelf. Deze emotionele nuances beïnvloeden rechtstreeks of een gebruiker zich begrepen of afgewezen voelt, gerustgesteld, geïrriteerd of gesteund.

Stel je bijvoorbeeld een AI-ondersteuningsagent voor die met een gefrustreerde klant te maken heeft. De bot zou kunnen zeggen: “Ik begrijp helemaal hoe frustrerend dit moet zijn. Laten we zien hoe we het kunnen oplossen.” Wanneer de stem die deze woorden spreekt empathisch klinkt, kan het de stress van de beller verlagen en een signaal van echte conflictresolutie geven. Dezelfde woorden gesproken in een vlakke of onnatuurlijke stem kunnen het tegenovergestelde effect hebben.

Contextuele intelligentie

Mensen passen hun spraak instinctief aan op basis van situatie-urgentie, de veronderstelde emotionele toestand van de luisteraar, informatieve complexiteit en sociale context. Vandaag de dag leveren AI-stemmen uniforme regels, missend aan de contextuele hints die spraak doen aanvoelen als responsief en aanwezig. Realistische spraak vereist een begrip niet alleen van de woorden, maar van waarom ze worden gesproken en de mindset van degenen die ze uiten.

Micro-uitdrukkingen in audio

Natuurlijke spraak omvat subtiele onvolkomenheden zoals ademhalingen, pauzes, aarzelingen en onregelmatige pacing. Dat is een van de belangrijkste redenen waarom vloeiende, ononderbroken AI-spraak inherent minder menselijk aanvoelt. Helaas blijft het repliceren van deze hints geloofwaardig technisch uitdagend.

Culturele en linguïstische nuances

Naast accentreproductie hangt authentieke regionale communicatie af van een bewustzijn van de verschillende culturen, pacing, intonatie, idiomen, formaliteitsniveaus en communicatiestijlen. Bijvoorbeeld, een stijgende intonatiepatroon dat vriendelijkheid en opwinding aangeeft in de ene cultuur, kan onzekerheid of vragen signaleren in een andere, waardoor de perceptie van intentie of emotie kan veranderen.

Zonder deze vocale nuances geïntegreerd in AI-modellen, kunnen zelfs technisch accurate stemmen ongepast of verwarrend aanvoelen voor gebruikers uit verschillende culturele achtergronden. Echte realisme vereist de capaciteit om toon en stijl aan te passen op basis van de verwachtingen van elke gebruiker.

Wanneer alle deze subtiele maar belangrijke factoren worden meegerekend, wordt het duidelijk dat AI-stemmen niet alleen klinken als een mens, maar ook reageren in real-time als een mens zou doen. Daarom is latentie een cruciaal element bij het evalueren van hoe menselijk een AI-stem aanvoelt. In natuurlijke conversatie nemen mensen gemiddeld 250 milliseconden om te reageren. Elke vertraging hierin kan de interactie laten aanvoelen als traag, onoplettend of verward. Het kleine verschil tussen een bedachtzaam pauze en een technische vertraging kan voldoende zijn om de illusie van natuurlijke conversatie te verstoren en de stem minder attent te laten aanvoelen.

Waarom Dit Ertoe Doet

In de toekomst zal de markt onvermijdelijk de voorkeur geven aan bedrijven die zowel realisme als real-time responsiviteit kunnen leveren.

Voor AI-agents en -assistenten hangt de adoptie en duurzame betrokkenheid van gebruikers af van of mensen de technologie willen gebruiken. Het verschil tussen een tool die mensen één keer proberen en een die ze elke dag gebruiken, is de kwaliteit van de conversatie-ervaring.

In de entertainmentindustrie hangt de betrokkenheid en retentie van het publiek af van hoe geloofwaardig een stuk content is, en één onnatuurlijke zin kan de betrokkenheid van de kijker verstoren. AI-stemmen die worden gebruikt in nasynchronisatie of karakterprestaties moeten volledig in het verhaal worden geïntegreerd om de emotionele impact te behouden.

Voor klantenservice is vertrouwen en empathie essentieel, vooral omdat veel klantinteracties plaatsvinden tijdens momenten van frustratie of verwarring. Een stem die stijf of emotioneel losgekoppeld klinkt, kan een situatie verergeren in plaats van oplossen. Gebruikers verwachten stemmen die bezorgdheid, geduld of geruststelling kunnen weerspiegelen, niet alleen geschreven antwoorden.

Wat Komt Er Hierna

De bedrijven die de voice AI-race winnen, zullen degene zijn die emotionele nuances meester zijn, culturele en contextuele variatie begrijpen, instant en vloeiend reageren en ervaringen leveren die niet te onderscheiden zijn van het spreken met een mens.

In een markt waar iedereen een AI-stem kan genereren en de verwachtingen van gebruikers in hetzelfde tempo evolueren, zal “goed genoeg” snel niet meer voldoende zijn. De enige manier om concurrerend te blijven, is door AI-stemmen te genereren die mensen gemakkelijk kunnen vergeten dat het AI is.

Oz Krakowski, Chief Business Development Officer, leidt de business development en strategische verkoop van Deepdub's en heeft toezicht gehouden op de localisatie van honderden uren aan geschreven en ongeschreven content in meerdere talen met behulp van Deepdub's baanbrekende AI-gebaseerde localisatieplatform. Van het nasynchroniseren van bioscoopfilms, prijswinnende onafhankelijke films, de eerste ooit nagesynchroniseerde scripted drama op Hulu ("Vanda") tot ongeschreven content zoals de realityshow "Hardcore Pawn" en docu-crime "Forensic Files", Oz heeft samenwerkingen en partnerschappen met studios en content-eigenaren over de hele wereld gefaciliteerd, hij is ook lid van de DEG Awards Planning Committee. Oz is een serial entrepreneur en was voordat hij bij Deepdub kwam, mede-oprichter van een startup in de gezondheidszorgmarkt.