Liity verkostomme!

Ajatusten johtajat

Ääniohjattu tekoäly kukoistaa – mutta onko se tarpeeksi realistinen vaikuttaakseen?

mm

Tekoälyääniagenttien maailmanmarkkinat kukoistavat, ennustetaan odotetaan kasvavan 3.14 miljardista dollarista vuonna 2024 47.5 miljardiin dollariin vuoteen 2034 mennessä. Useimmilla suurilla teknologiayrityksillä (mukaan lukien Google, Amazon, Apple, Meta ja Microsoft) ei ole enää niche-teknologiaa, vaan niillä on nyt äänipohjaisia ​​tuotteita, startupit tarjoavat innovaatioita markkinoille, ja itse teknologiasta on tulossa yhä helpommin saatavilla avoimen lähdekoodin mallien ansiosta. Arkipäivän virtuaaliavustajista, kuten Siri ja Alexa, elokuvien ja TV:n alueelliseen dubbaukseen, äänipohjaisen tekoälyn käyttöönotolle ei ole koskaan ollut yhtä otollista tilaisuutta kuin nyt.

Mutta koska ääni-tekoälyn saatavuus yleistyy, kokemukset pysyvät hyvin epätasaisina. Tämä johtuu siitä, että ääni-tekoälyn vaikein osa ei ole äänen luominen, vaan sellaisen äänen luominen, joka tuntuu uskottavalta päivittäisissä vuorovaikutustilanteissa. Laaja saatavuus ei tarkoita, että nämä tekoälyäänet riittäisivät yritysten tarpeisiin tai pitkäaikaiseen käyttäjien omaksumiseen. Todellisen kilpailukentän valloittavat ne, jotka tuottavat ääniä, jotka tuntuvat inhimillisiltä, ​​dynaamisilta ja emotionaalisesti tietoisilta tosielämän tilanteissa.

The Uncanny Valley: ”Tarpeeksi hyvä” ei riitä

Alan sisällä on yhä yleisempi oletus, että kohtuullisen ihmismäisen tekoälyäänen saavuttaminen on "riittävän hyvä" laajamittaiseen käyttöönottoon, mikä käytännössä lopettaa kilpailun. Käyttäjät sietävät lievää luonnottomuutta, koska hyödyllisyys on suurempi kuin puutteet.

Todellisuudessa tämä oletus ymmärtää väärin, miten ihmiset havaitsevat puheen, tunteet ja aitouden. Lähes ihmisäänet ovat alttiita luomaan "Outo laakso" vaikutus, joka tekee käyttäjät epämukaviksi, erityisesti asiakastuen, terveydenhuollon vuorovaikutuksen tai matkasuunnittelun aikana, joissa tunteet voivat olla kuumia ja ymmärretyksi tulemisen tunne on ensiarvoisen tärkeää. Kun tekoälyäänille altistuminen lisääntyy, keskinkertaisuuden sietokyky laskee.

Itse asiassa, tutkimus ihmisen ja koneen vuorovaikutuksesta käy ilmi johdonmukaisesti, että kun ääni on melkein inhimillinen, mutta emotionaalisesti tai rytmisesti tasapainottunut, käyttäjät aistivat vaistomaisesti, että jokin on vialla. Esimerkiksi jotkut tekoälyllä varustettuja vastaanottovirkailijoita käyttävät yritykset ovat huomanneet, että käyttäjät kuvailevat vuorovaikutusta oudoksi tai häiritseväksi, koska äänessä on hienovaraisia ​​rytmisiä tai emotionaalisia ajoituspoikkeamia, jotka eivät yksinkertaisesti tunnu oikeilta. Asiakaskohtaamisympäristöissä pienetkin kitkan tai epämukavuuden hetket voivat nopeasti muuttua todelliseksi tyytymättömyydeksi ja lopulta asiakkaan hylkäämiseksi.

Tästä "riittävän hyvä" -tilasta irtautuminen on yhä tärkeämpää liiketoiminnan tavoitteiden saavuttamiseksi. Tekoälyn ennustetaan käsittelevän noin 50% asiakaspalvelutapauksista vuoteen 2027 mennessä, mutta negatiiviset automatisoidut vuorovaikutukset voi suoraan vahingoittaa brändin mainetta. Huono chatbot-vuorovaikutus ja sitä seuraava yhtä huono tai luonnoton äänikokemus luo todennäköisesti syvän turhautumisen tunteen ja voi viestiä siitä, ettei ole olemassa luotettavaa tietä todelliseen apuun.

Kuluttajien yhä enemmän käyttäessä tekoälyääniä, robottimaisten tai kömpelöiden vuorovaikutusten sietokyky vähenee, ja käyttäjät irrottautuvat nopeasti, mikä aiheuttaa vakavia liiketoimintaseurauksia yrityksille, jotka ovat riippuvaisia ​​tällaisista työkaluista.

Todellinen realismi

Äänitekoälyssä ihmistason realismi on enemmän kuin pelkkää ääntämisen tarkkuutta tai robottimaisten pohjavireiden poistamista. Se vaatii myös moniulotteista yhdistelmää tunteita, kontekstia, kulttuurisia vivahteita, ajoitusta ja hienovaraisempia tekijöitä. Todellinen haaste on siis purkaa, ymmärtää ja lopulta kopioida ihmisen viestintää muokkaavia kerroksia, kuten:

Tunnealue ja aitous

Ihmisäänten kauneus piilee niiden kyvyssä välittää lämpöä, kiireellisyyttä, huumoria, pettymystä, jännitystä ja lukemattomia muita tunteita yhdessä itse sanojen kanssa. Tämä tunnevivahde vaikuttaa suoraan siihen, tunteeko käyttäjä itsensä ymmärretyksi vai hylätyksi, rauhoittuneeksi vai ärtyneeksi.

Kuvittele esimerkiksi tekoälytukiagentti, joka on tekemisissä turhautuneen asiakkaan kanssa. Botti saattaa sanoa: "Ymmärrän täysin, kuinka turhauttavaa tämän täytyy olla. Katsotaanpa, miten voimme korjata sen." Kun nuo sanat sanova ääni kuulostaa empaattiselta, se voi vähentää soittajan stressiä ja viestiä aidosta konfliktinratkaisusta. Samat sanat, jotka puhutaan lattealla tai luonnottomalla äänellä, voivat laukaista päinvastaisen reaktion.

Kontekstuaalinen älykkyys

Ihmiset mukauttavat vaistomaisesti puhettaan tilanteen kiireellisyyden, kuuntelijan koetun emotionaalisen tilan, tiedon monimutkaisuuden ja sosiaalisen kontekstin perusteella. Nykypäivän tekoälyäänet yleensä esittävät vuorosanoja tasaisesti, jättäen huomiotta kontekstuaaliset vihjeet, jotka saavat puheen tuntumaan reagoivalta ja läsnäolevalta. Realistinen puhe edellyttää paitsi sanojen myös niiden lausumisen syyn ja niiden esittäjien ajattelutavan ymmärtämistä.

Mikroilmeet äänessä

Luonnollisessa puheessa on hienovaraisia ​​epätäydellisyyksiä, kuten hengityksiä, taukoja, epäröintimerkkejä ja epäsäännöllistä tahtia. Tämä on yksi tärkeimmistä syistä, miksi virheetön ja keskeytymätön tekoälyn puhe tuntuu luonnostaan ​​vähemmän inhimilliseltä. Valitettavasti näiden vihjeiden uskottava toistaminen on edelleen teknisesti haastavaa.

Kulttuuriset ja kielelliset vivahteet

Aksentin toistamisen ohella aito alueellinen viestintä riippuu tietoisuudesta eri kulttuurien rytmistä, intonaatiosta, idiomeista, muodollisuuksista ja viestintätyyleistä. Esimerkiksi nouseva intonaatiokuvio, joka viestii ystävällisyydestä ja innostuksesta yhdessä kulttuurissa, voidaan tulkita epävarmuudeksi tai kyseenalaistamiseksi toisessa, mikä voi muuttaa käyttäjän käsitystä aikomuksesta tai tunteesta.

Ilman näitä tekoälymalleihin integroituja äänen vivahteita jopa teknisesti tarkat äänet saattavat tuntua sopimattomilta tai hämmentäviltä eri kulttuuritaustoista tuleville käyttäjille. Todellinen realismi edellyttää kykyä mukauttaa sävyä ja tyyliä minkä tahansa käyttäjän odotusten perusteella.

Kun otetaan huomioon kaikki nämä hienovaraiset mutta tärkeät tekijät, käy selväksi, että tekoälyäänien ei tarvitse ainoastaan kuulostaa kuin ihminen, mutta myös suhtautua reaaliajassa kuten ihminen tekisi. Siksi latenssi on ratkaiseva tekijä arvioitaessa, miltä tekoälyn ääni tuntuu ihmisen kaltaiselta. Luonnollisessa keskustelussa ihmiset puhuvat vuorotellen keskimäärin yhden 250 millisekuntiaPidempi tauko voi aiheuttaa sen, että vuorovaikutus tuntuu hitaalta, tarkkaamattomuudelta tai hämmentyneeltä. Pieni ero harkitun tauon ja teknisen viiveen välillä voi riittää häiritsemään luonnollisen keskustelun illuusion ja saamaan äänen tuntumaan vähemmän tarkkaavaiselta.

Miksi tämä Matters

Jatkossa markkinat suosivat väistämättä yrityksiä, jotka pystyvät tarjoamaan sekä realismia että reaaliaikaista reagointikykyä.

Tekoälyagenttien ja -avustajien kohdalla käyttäjien omaksuminen ja jatkuva sitoutuminen riippuvat siitä, haluavatko ihmiset olla vuorovaikutuksessa teknologian kanssa alun perin. Kerran kokeillun työkalun ja päivittäin käytettävän työkalun välinen ero on keskustelukokemuksen laatu.

Viihdeteollisuudessa yleisön immersio ja pysyvyys riippuvat sisällön uskottavuudesta, ja yksikin luonnoton repliikki voi häiritä katsojan sitoutumista. Dubbauksessa tai hahmojen suorituksissa käytettyjen tekoälyäänien on integroitava täysin kerrontaan emotionaalisen vaikutuksen säilyttämiseksi.

Asiakastuen kannalta luottamus ja empatia ovat ensiarvoisen tärkeitä, varsinkin kun monet asiakaskohtaamiset tapahtuvat turhautumisen tai hämmennyksen hetkinä. Jäykkä tai emotionaalisesti irrallinen ääni voi pikemminkin pahentaa tilannetta kuin ratkaista sen. Käyttäjät odottavat ääniä, jotka heijastavat huolta, kärsivällisyyttä tai rauhoittelua, eivätkä vain anna valmiita vastauksia.

Mitä tulee seuraavaksi

Ääniohjatun tekoälyn kilpailun voittavat ne yritykset, jotka hallitsevat emotionaaliset vivahteet, ymmärtävät kulttuurisia ja kontekstuaalisia vaihteluita, reagoivat välittömästi ja sujuvasti sekä tarjoavat kokemuksia, jotka ovat samanlaisia ​​kuin ihmisen kanssa puhuminen.

Markkinoilla, joilla kuka tahansa voi luoda tekoälyäänen ja käyttäjien odotukset muuttuvat puolestaan, "riittävän hyvä" ei olekaan enää hyvä ollenkaan. Ainoa tapa pysyä kilpailukykyisenä on luoda tekoälyääniä, jotka ihmiset helposti unohtavat.

Oz Krakowski, liiketoiminnan kehitysjohtaja, johtaa Deepdubin liiketoiminnan kehittämistä ja strategista myyntiä, ja hän on valvonut satojen tuntien käsikirjoitetun ja käsikirjoittamattoman sisällön lokalisointia useille kielille Deepdubin uraauurtavan tekoälypohjaisen lokalisointialustan avulla. Teatteriesittelyjen, palkittujen indie-elokuvien ja Hulun ensimmäisen dubatun käsikirjoitetun draaman ("Vanda") sekä käsikirjoittamattoman sisällön, kuten reality-ohjelman "Hardcore Pawn" ja rikosdokumentin "Forensic Files", dubbauksesta Oz on edistänyt yhteistyötä ja kumppanuuksia studioiden ja sisällönomistajien kanssa ympäri maailmaa. Hän on myös DEG-palkintojen suunnittelukomitean jäsen. Oz on sarjayrittäjä ja ennen Deepdubiin liittymistään hän oli terveydenhuoltoalan startup-yrityksen perustajajäsen.