Tankeledere

Finn din autentiske stemme: Hvordan syntetisk stemme kan dele merkehistorier med diverse globale publikum

mm

Nærmere to tredjedeler av personer som identifiserer seg med en rase- eller etnisk minoritet sier at de er mer sannsynlig å engasjere seg med merker som inkluderer diverse perspektiver. Men å være divers er mer enn å låte kundene se seg selv i ditt merke, det handler om å låte dem høre seg selv også.

I fjor økte antallet merker som lanserte audio-identiteter for første gang med 22%. Selskapene prøver bokstavelig talt å kutte gjennom støyen i deres bransje, og tilpasse deres meldinger bedre til alle individer de betjener. Men mens merker kjenner til de etiske og økonomiske grunnene til å fremme diversitet uansett medium, vet de ikke alltid hvilke verktøy som kan hjelpe dem å gjøre det i stor skala.

Da kommer syntetisk stemme inn i bildet. Teknologien gjør det mulig for merker å kommunisere med publikum på en mer inkluderende måte – og uten å kompromittere deres autentisitet. Pluss, lettbrukeligheten av syntetisk stemme gjør at flere merker kan bruke den og representere flere mennesker. Her er hvorfor syntetisk stemme vil være høyttaleren for flere diverse merker og deres historier.

Globale selskaper trenger globale stemmer

Massiv digital transformasjon har ført til at merker må være globale fra dag én. I en overveiende online forretningskrets må selskapene betjene kunder i flere lokasjoner og som snakker flere språk med forskjellige aksenter, dialekter og vokabular. Uansett hvilken vertikal du er i, har din brukerbase sannsynligvis diversifisert seg de siste årene, og du må gjenspeile denne utvidelsen i din soniske merkevare.

Europa- og Asia-baserte startups er kanskje mer klar til å diversifisere enn deres amerikanske motparter. Selskaper i USA tenderer til å fokusere hovedsakelig på det hjemlige markedet på grunn av størrelsen og omfanget av muligheter der, og diversifiserer på et senere tidspunkt når de går utenfor landet. Europa- og Asia-baserte startups diversifiserer tidligere på grunn av rekken av grenser og kulturer de krysser. Å operere i et mindre marked kommer faktisk med fordelen av et mer multi-voicet marked.

Stemme-teknologi er primært bygget for engelsktalende – delvis på grunn av utviklingsrøttene i USA, men mer på grunn av dens status som det mest talte språket i verden. Likevel snakker over en milliard engelsk som et andre språk og hører sjelden merke-stemmer som reflekterer deres aksent som en utenlandsk taler.

Med syntetisk stemme kan merker arbeide med stemmeskuespillere som snakker engelsk som et andre språk, lett og nøyaktig fange deres vokale nyanser og utforme den audio over deres markedsføringskampanjer. Ikke bare vil merker representere flere sosiale grupper, de kan også kapitalisere på distinkte, sterke aksenter som underholdningspersonligheter Sofía Vergara (colombiansk) og Arnold Schwarzenegger (østerriksk) gjør.

Repliser flere diverse aksenter

Mens reservoiret av stemmeskuespillere har vokst i de siste årene, er demografien til skuespillerne fortsatt en hvit, mannsdominert majoritet. Det er derfor vanskelig å finne stemmer som har aksenter fra mindre eller mer avsidesliggende steder i verden, for eksempel øya Malta.

Med sofistikert custom voice cloning-teknologi kan stemmeskuespillere fra disse stedene (eller selv vanlige mennesker fra dem) lese en bestemt manus i en bestemt tone, og få de svært små nyansene i deres aksent registrert. Disse aksentene kan deretter repliseres i merkeaudio, og tillate selskaper å lokalisere innholdet sitt og bringe mindre kjente måter å snakke til deres publikum.

Naturligvis er teknologien fortsatt under utvikling og trenger timer med audio-opptak for å være robust og å høres naturlig ut. Stemmemodeller fungerer best når de er bygget for bestemte brukstilfeller som radio, fortelling eller reklame, så merker må ta hensyn til hva konteksten stemmen vil bli brukt i, og finpussere prosessen deretter. Syklusen er enda mer nyansert når sjeldne aksenter produseres, da merker kanskje ikke umiddelbart kan bekrefte at intonasjonen og hastigheten er passende for scenarioet.

Det er en grunn til at markedet for syntetisk stemme forventes å være verdt $36 milliarder i 2025; det er evnen til (bokstavelig talt) å snakke til mennesker som gir merker en direkte linje til kundenes daglige liv. Og i 2022, når mennesker ønsker at merker skal se og høre ut som dem, lar syntetisk stemme selskaper konveyere flere stemmer, høyere, og uten å tape deres originale lyd.

Bring merkefigurer til live

Sonic branding er et kraftig verktøy, spesielt blant yngre, teknologisk kyndige publikum (som også er noen av de mest vokale i å kalle ut merker som ikke er diverse). Faktisk viser forskning fra Storbritannia at over 1 av 5 voksne under 35 er mer sannsynlig å kjøpe et merkeprodukt, jo mer de hører lyden som er assosiert med det merket.

Men audio ikke behøver å være ekte mennesker for å være betraktet som divers. Syntetisk stemme kan realisere fiktive figurer som snakker til nisjegrupper, inkapsler bestemte personlighetstrekk eller er bare en morsom, umiddelbart gjenkjennelig utvidelse av merket. Bare se på likes av Tony the Tiger, Mrs Butterworth og the Laughing Cow.

Syntetisk stemme kan bli designet basert på en sett med kredensialer som konstruerer en ønsket karakter. For eksempel, hvis en karakter er laget av sjokolade og skal høres søt ut, men også litt åndeløs som om den smelter. Omfanget av teknologien gir merker mye kreativ fleksibilitet, og er gunstig for å bygge en sterkere tilstedeværelse på sosiale medieplattformer som Instagram og TikTok, hvor Gen Z-brukere forventer mer unike, kunstneriske merkevarer.

Dr. Timo Kunz er medgrunnlegger og administrerende direktør i Aflorithmic - verdens første fullstendig automatiserbar løsning for skapelse av stemme og lyd fra tekst.