Seguici sui social

L'intelligenza artificiale vocale è in forte espansione: ma è abbastanza realistica da avere un impatto?

Leader del pensiero

L'intelligenza artificiale vocale è in forte espansione: ma è abbastanza realistica da avere un impatto?

mm

Il mercato globale degli agenti vocali AI è in forte espansione, proiettato per crescere da 3.14 miliardi di dollari nel 2024 a 47.5 miliardi di dollari entro il 2034. Non più una tecnologia di nicchia, la maggior parte delle principali aziende tecnologiche (tra cui Google, Amazon, Apple, Meta e Microsoft) ora offre prodotti vocali, le startup offrono innovazioni al mercato e la tecnologia stessa sta diventando sempre più accessibile con modelli open source. Dagli assistenti virtuali di uso quotidiano come Siri e Alexa al doppiaggio regionale in film e TV, non c'è mai stata un'opportunità più fertile per l'adozione dell'intelligenza artificiale vocale.

Tuttavia, con la crescente diffusione dell'intelligenza artificiale vocale, le esperienze rimangono profondamente disomogenee. Questo perché la parte più difficile dell'intelligenza artificiale vocale non è generare il suono di una voce, ma generare una voce che risulti credibile nelle interazioni quotidiane. La sua ampia diffusione non significa che queste voci basate sull'intelligenza artificiale siano sufficienti per le esigenze aziendali o per un'adozione a lungo termine da parte degli utenti. Il vero scenario competitivo sarà conquistato da coloro che forniranno voci che risultino umane, dinamiche ed emotivamente consapevoli nelle situazioni del mondo reale.

The Uncanny Valley: "Abbastanza buono" non basta

Un'ipotesi sempre più diffusa nel settore è che ottenere una voce di intelligenza artificiale ragionevolmente simile a quella umana sarà "sufficiente" per un'adozione diffusa, ponendo di fatto fine alla corsa. Gli utenti tollereranno una leggera innaturalezza perché l'utilità supera i difetti.

In realtà, questa ipotesi fraintende il modo in cui le persone percepiscono il linguaggio, le emozioni e l'autenticità. Le voci quasi umane tendono a creare un “valle perturbante” Un effetto che mette a disagio gli utenti, soprattutto durante l'assistenza clienti, le interazioni sanitarie o la pianificazione di viaggi, dove le emozioni possono essere forti e sentirsi compresi è fondamentale. Con l'aumento dell'esposizione alle voci dell'IA, la tolleranza per la mediocrità sta diminuendo.

Infatti,  riparazioni sull'interazione uomo-macchina mostra costantemente che quando una voce è quasi Anche se la voce è umana ma priva di allineamento emotivo o ritmico, gli utenti percepiscono istintivamente che qualcosa non va. Ad esempio, alcune aziende che impiegano receptionist dotati di intelligenza artificiale notano che gli utenti descrivono le interazioni come inquietanti o inquietanti perché la voce presenta sottili discrepanze ritmiche o emotive che semplicemente non risultano corrette. Negli ambienti a contatto con il cliente, anche piccoli momenti di attrito o disagio possono rapidamente trasformarsi in vera e propria insoddisfazione e, infine, in abbandono.

Liberarsi da questa modalità "abbastanza buono" è sempre più importante per gli obiettivi aziendali. Si prevede che l'intelligenza artificiale gestirà circa 50% dei casi di assistenza clienti entro il 2027, eppure interazioni automatizzate negative può danneggiare direttamente la percezione del brand. Una cattiva interazione con un chatbot seguita da un'esperienza vocale altrettanto scadente o innaturale creerà probabilmente un profondo senso di frustrazione e potrebbe indicare che non esiste un percorso affidabile per ottenere un vero aiuto.

Poiché i consumatori interagiscono sempre più con voci di intelligenza artificiale, la tolleranza per le interazioni robotiche o imbarazzanti diminuisce e gli utenti si disimpegneranno rapidamente, con gravi conseguenze aziendali per le aziende che si affidano a tali strumenti.

Vero realismo

Nell'intelligenza artificiale vocale, il realismo a livello umano non si limita alla semplice precisione della pronuncia o alla rimozione di sfumature robotiche. Richiede anche una combinazione multidimensionale di emozioni, contesto, sfumature culturali, tempismo e fattori più sottili. La vera sfida, quindi, sta nel decostruire, comprendere e infine replicare gli strati che modellano la comunicazione umana, come:

Gamma emotiva e autenticità

La bellezza delle voci umane risiede nella loro capacità di trasmettere calore, urgenza, umorismo, delusione, entusiasmo e innumerevoli altre emozioni, in combinazione con le parole stesse. Questa sfumatura emotiva influenza direttamente il modo in cui un utente si sente compreso o respinto, rassicurato o irritato.

Immaginate, ad esempio, un operatore di supporto AI che si occupa di un cliente frustrato. Il bot potrebbe dire: "Capisco perfettamente quanto possa essere frustrante. Vediamo come possiamo risolvere il problema". Quando la voce pronuncia queste parole suona empatica, può ridurre lo stress del chiamante e segnalare una reale risoluzione del conflitto. Le stesse parole pronunciate con voce piatta o innaturale possono innescare la reazione opposta.

Intelligenza contestuale

Gli esseri umani adattano istintivamente il loro discorso in base all'urgenza della situazione, allo stato emotivo percepito dall'ascoltatore, alla complessità informativa e al contesto sociale. Le voci dell'intelligenza artificiale di oggi tendono a pronunciare le battute in modo uniforme, perdendo gli spunti contestuali che rendono il discorso reattivo e presente. Un discorso realistico richiede la comprensione non solo delle parole, ma anche del perché vengono pronunciate e della mentalità di chi le pronuncia.

Microespressioni nell'audio

Il parlato naturale include sottili imperfezioni come respiri, pause, segnali di esitazione e ritmo irregolare. Questo è uno dei motivi principali per cui un parlato AI impeccabile e ininterrotto risulta intrinsecamente meno umano. Purtroppo, replicare questi segnali in modo credibile rimane tecnicamente impegnativo.

Sfumature culturali e linguistiche

Oltre alla riproduzione dell'accento, un'autentica comunicazione regionale dipende dalla consapevolezza del ritmo, dell'intonazione, degli idiomi, dei livelli di formalità e degli stili comunicativi delle diverse culture. Ad esempio, un'intonazione crescente che segnala cordialità ed entusiasmo in una cultura potrebbe essere interpretata come incertezza o interrogativo in un'altra, alterando potenzialmente la percezione dell'intento o dell'emozione da parte dell'utente.

Senza queste sfumature vocali integrate nei modelli di intelligenza artificiale, anche voci tecnicamente accurate potrebbero risultare inappropriate o confuse per utenti di diversa estrazione culturale. Il vero realismo richiede la capacità di adattare tono e stile in base alle aspettative di ogni singolo utente.

Se si considerano tutti questi fattori sottili ma importanti, diventa chiaro che le voci dell'IA non devono solo suono come un umano ma anche reagire in tempo reale, come farebbe un essere umano. Ecco perché la latenza è un elemento cruciale per valutare quanto sia simile a quella umana la voce di un'intelligenza artificiale. Nella conversazione naturale, gli esseri umani si alternano nel parlare a intervalli medi di Millisecondi 250Se dura di più, l'interazione risulta lenta, disattenta o confusa. La leggera differenza tra una pausa di riflessione e un ritardo tecnico può essere sufficiente a interrompere l'illusione di una conversazione naturale e a far sembrare la voce meno attenta.

Perché è importante

In futuro, il mercato favorirà inevitabilmente le aziende in grado di offrire sia realismo che reattività in tempo reale.

Per gli agenti e gli assistenti AI, l'adozione da parte degli utenti e il coinvolgimento duraturo dipendono innanzitutto dal fatto che le persone desiderino interagire con la tecnologia. La differenza tra uno strumento che le persone provano una volta e uno su cui fanno affidamento ogni giorno è la qualità dell'esperienza conversazionale.

Nell'industria dell'intrattenimento, l'immersione e la fidelizzazione del pubblico dipendono dalla credibilità di un contenuto, e una singola battuta innaturale può compromettere il coinvolgimento dello spettatore. Le voci di intelligenza artificiale utilizzate nel doppiaggio o nell'interpretazione dei personaggi devono integrarsi pienamente nella narrazione per mantenere l'impatto emotivo.

Per l'assistenza clienti, fiducia ed empatia sono fondamentali, soprattutto perché molte interazioni con i clienti avvengono in momenti di frustrazione o confusione. Una voce che suona rigida o emotivamente distaccata può aggravare una situazione anziché risolverla. Gli utenti si aspettano voci che esprimano preoccupazione, pazienza o rassicurazione, non solo risposte preconfezionate.

Quello che viene dopo

Le aziende che vinceranno la gara dell'intelligenza artificiale vocale saranno quelle che padroneggeranno le sfumature emotive, comprenderanno le variazioni culturali e contestuali, risponderanno in modo istantaneo e fluido e offriranno esperienze indistinguibili dal parlare con un essere umano.

In un mercato in cui chiunque può generare una voce AI e le aspettative degli utenti evolvono di conseguenza, "abbastanza buono" non sarà più sufficiente. L'unico modo per rimanere competitivi sarà generare voci AI che le persone possano facilmente dimenticare essere AI.

Oz Krakowski, Chief Business Development Officer, guida Deepdub's Sviluppo commerciale e vendite strategiche, e ha supervisionato la localizzazione di centinaia di ore di contenuti, sceneggiati e non, in diverse lingue utilizzando l'innovativa piattaforma di localizzazione basata sull'intelligenza artificiale di Deepdub. Dal doppiaggio di spettacoli teatrali, film indipendenti pluripremiati, il primo sceneggiato doppiato su Hulu ("Vanda"), a contenuti non sceneggiati come il reality show "Hardcore Pawn" e il docu-crime "Forensic Files", Oz ha promosso collaborazioni e partnership con studi cinematografici e proprietari di contenuti in tutto il mondo. È anche membro del Comitato di Pianificazione dei Premi DEG. Oz è un imprenditore seriale e, prima di entrare in Deepdub, è stato co-fondatore di una startup nel settore sanitario.