Seguici sui social

Leader del pensiero

Agenti vocali per le aziende basati sull'intelligenza artificiale: due sfide chiave

mm mm

Ora più che mai è il momento dei sistemi vocali basati sull’intelligenza artificiale. Considera una chiamata al servizio clienti. Presto tutta la fragilità e l'inflessibilità scompariranno: le voci robotiche rigide, i menu restrittivi in ​​stile "premi quello per le vendite", le esperienze fastidiose che ci hanno portato tutti a premere freneticamente lo zero nella speranza di parlare invece con un agente umano. (Oppure, dati i lunghi tempi di attesa che può comportare il trasferimento a un agente umano, abbiamo rinunciato del tutto alla chiamata.)

Non più. Progressi non solo nel settore dei trasformatori modelli linguistici di grandi dimensioni (LLM) ma in automatico riconoscimento vocale (ASR) e text-to-speech (TTS) significano che gli agenti vocali di “prossima generazione” sono qui, se sai come costruirli.

Oggi diamo uno sguardo alle sfide che deve affrontare chiunque speri di costruire un agente conversazionale basato sulla voce così all'avanguardia.

Perché la voce?

Prima di entrare nel merito, diamo una rapida occhiata alle attrazioni generali e alla rilevanza degli agenti vocali (in contrapposizione alle interazioni basate sul testo). Ci sono molte ragioni per cui un'interazione vocale potrebbe essere più appropriata di una basata sul testo; queste possono includere, in ordine crescente di gravità:

  • Preferenza o abitudine: parlare è anteriore alla scrittura dal punto di vista evolutivo e storico

  • Inserimento lento del testo: molti possono parlare più velocemente di quanto riescano a scrivere

  • Situazioni a mani libere – come guidare, allenarsi o lavare i piatti

  • Analfabetismo – almeno nella/e lingua/e che l’agente comprende

  • Disabilità – come cecità o mancanza di controllo motorio non vocale

In un’epoca apparentemente dominata dalle transazioni mediate dai siti web, la voce rimane un potente canale per il commercio. Ad esempio, un recente studio condotto da JD Power sulla soddisfazione dei clienti nel settore alberghiero ha rilevato che gli ospiti che hanno prenotato la loro camera per telefono erano più soddisfatti del loro soggiorno rispetto a quelli che hanno prenotato tramite un'agenzia di viaggi online (OTA) o direttamente tramite il sito web dell'hotel. .

Ma le risposte vocali interattive, o IVR in breve, non sono sufficienti. Uno studio del 2023 di Zippia ha rilevato che l'88% dei clienti preferisce le chiamate vocali con un agente dal vivo invece della navigazione in un menu telefonico automatizzato. Lo studio ha inoltre rilevato che le cose che infastidiscono maggiormente le persone riguardo ai menu del telefono includono l'ascolto di opzioni irrilevanti (69%), l'incapacità di descrivere completamente il problema (67%), un servizio inefficiente (33%) e opzioni confuse (15% ).

E c’è un’apertura verso l’utilizzo di assistenti vocali. Secondo uno studio di Accenture, circa il 47% dei consumatori si sente già a proprio agio nell’utilizzare gli assistenti vocali per interagire con le aziende e circa il 31% dei consumatori ha già utilizzato un assistente vocale per interagire con un’azienda.

Qualunque sia la ragione, per molti c’è una preferenza e una richiesta di interazione orale, purché sia ​​naturale e confortevole.

Cosa rende un buon agente vocale?

In parole povere, un buon agente vocale dovrebbe rispondere all'utente in un modo che sia:

  • Rilevante: basato su una corretta comprensione di ciò che l'utente ha detto/voleva. Tieni presente che in alcuni casi, la risposta dell'agente non sarà solo una risposta vocale, ma una qualche forma di azione attraverso l'integrazione con un backend (ad esempio, provocando effettivamente la prenotazione di una camera d'albergo quando il chiamante dice "Vai avanti e prenotala"). .

  • Accurato: basato sui fatti (ad esempio, dire solo che c'è una camera disponibile in hotel il 19 gennaio, se disponibile)

  • Chiaro: la risposta dovrebbe essere comprensibile

  • Tempestivo: con il tipo di latenza che ci si aspetterebbe da un essere umano

  • Sicuro: nessun linguaggio offensivo o inappropriato, rivelazione di informazioni protette, ecc.

Il problema

Gli attuali sistemi automatizzati basati sulla voce tentano di soddisfare i criteri di cui sopra a scapito di a) essere a) molto limitati eb) molto frustranti da usare. In parte ciò è il risultato delle elevate aspettative che un contesto di conversazione basato sulla voce pone, e tali aspettative non fanno altro che aumentare quanto più la qualità della voce nei sistemi TTS diventa indistinguibile dalle voci umane. Ma queste aspettative sono deluse nei sistemi ampiamente utilizzati al momento. Perché?

In una parola – inflessibilità:

  • Discorso limitato: l'utente è in genere costretto a dire cose in modo innaturale: con frasi brevi, in un ordine particolare, senza informazioni spurie, ecc. Ciò offre poco o nessun progresso rispetto al sistema di menu basato sui numeri della vecchia scuola

  • Nozione ristretta e non inclusiva di discorso “accettabile” – bassa tolleranza per lo slang, uhm e ah, ecc.

  • Nessun ritorno sui propri passi: se qualcosa va storto, potrebbero esserci poche possibilità di “riparare” o correggere l’informazione problematica, ma è invece necessario ricominciare da capo o attendere il trasferimento a un essere umano.

  • Turni rigorosi: nessuna possibilità di interrompere o parlare con un agente

Inutile dire che le persone trovano questi vincoli fastidiosi o frustranti.

La soluzione:

La buona notizia è che i moderni sistemi di intelligenza artificiale sono abbastanza potenti e veloci da migliorare notevolmente i tipi di esperienze di cui sopra, invece di avvicinarsi (o superare!) gli standard di servizio clienti basati sull’uomo. Ciò è dovuto a una serie di fattori:

  • Hardware più veloce e potente

  • Miglioramenti nell'ASR (maggiore precisione, superamento del rumore, degli accenti, ecc.)

  • Miglioramenti nel TTS (voci dal suono naturale o addirittura clonate)

  • L’arrivo dei LLM generativi (conversazioni dal suono naturale)

Quest’ultimo punto è un punto di svolta. L’intuizione chiave è stata che un buon modello predittivo può fungere da buon modello generativo. Un agente artificiale può avvicinarsi alle prestazioni conversazionali a livello umano se dice qualunque cosa un LLM sufficientemente buono prevede sia la cosa più probabile che un buon agente del servizio clienti umano direbbe nel dato contesto conversazionale.

Indica l'arrivo di dozzine di startup AI che sperano di risolvere il problema degli agenti conversazionali basati sulla voce semplicemente selezionando e quindi collegando moduli ASR e TTS standard a un core LLM. Da questo punto di vista, la soluzione è semplicemente questione di selezionare una combinazione che riduca al minimo la latenza e i costi. E ovviamente questo è importante. Ma è abbastanza?

Non così in fretta

Esistono diversi motivi specifici per cui questo semplice approccio non funziona, ma derivano da due punti generali:

  1. Gli LLM in realtà non possono, da soli, fornire buone conversazioni testuali basate sui fatti del tipo richiesto per applicazioni aziendali come il servizio clienti. Quindi non possono farlo da soli nemmeno per le conversazioni vocali. C'è bisogno di qualcos'altro.

  2. Anche se integri i LLM con ciò che è necessario per creare un buon agente conversazionale basato su testo, trasformarlo in un buon agente conversazionale basato sulla voce richiede molto più che semplicemente collegarlo ai migliori moduli ASR e TTS che ti puoi permettere.

Diamo un'occhiata a un esempio specifico di ciascuna di queste sfide.

Sfida 1: mantenerlo reale

Come ormai ampiamente noto, gli LLM a volte producono informazioni imprecise o "allucinate". Ciò è disastroso nel contesto di molte applicazioni commerciali, anche se potrebbe costituire una buona applicazione di intrattenimento in cui la precisione potrebbe non essere il punto.

Che i LLM a volte abbiano allucinazioni è solo prevedibile, riflettendoci. È una conseguenza diretta dell'utilizzo di modelli addestrati su dati di un anno (o più) fa per generare risposte a domande su fatti che non fanno parte o non sono implicati da un set di dati (per quanto enorme) che potrebbe essere un anno o più vecchio. Quando il chiamante chiede "Qual è il mio numero di iscrizione?", un semplice LLM pre-addestrato può solo generare una risposta plausibile, non accurata.

I modi più comuni per affrontare questo problema sono:

  • Perfezionamento: addestra ulteriormente il LLM pre-addestrato, questa volta su tutti i dati specifici del dominio a cui desideri che sia in grado di rispondere correttamente.

  • Ingegneria rapida: aggiungi dati/istruzioni aggiuntivi come input per LLM, oltre alla cronologia delle conversazioni

  • Retrieval Augmented Generation (RAG): come il prompt engineering, tranne per il fatto che i dati aggiunti al prompt vengono determinati al volo abbinando il contesto conversazionale corrente (ad esempio, il cliente ha chiesto "Il tuo hotel ha una piscina?") a un incorporamento codificato indice dei dati specifici del tuo dominio (che include, ad esempio, un file che dice: "Ecco i servizi disponibili in hotel: piscina, sauna, stazione di ricarica per veicoli elettrici.").

  • Controllo basato su regole: come RAG, ma ciò che deve essere aggiunto (o sottratto) al prompt non viene recuperato abbinando una memoria neurale ma è determinato attraverso regole codificate (e codificate manualmente).

Tieni presente che una taglia non va bene per tutti. Quale di questi metodi sarà appropriato dipenderà, ad esempio, dai dati specifici del dominio che informano la risposta dell'agente. In particolare, dipenderà dal fatto che tali dati cambino frequentemente (da una chiamata all'altra, ad esempio - ad esempio nome del cliente) o quasi mai (ad esempio, il saluto iniziale: “Buongiorno, grazie per aver chiamato l'Hotel Budapest. Come posso aiutarvi oggi? ?”). Per il primo caso la messa a punto non sarebbe opportuna, mentre per il secondo il RAG sarebbe una soluzione maldestra. Quindi qualsiasi sistema funzionante dovrà utilizzare una varietà di questi metodi.

Inoltre, l'integrazione di questi metodi con LLM e tra loro in modo da ridurre al minimo la latenza e i costi richiede un'attenta progettazione. Ad esempio, le prestazioni RAG del tuo modello potrebbero migliorare se lo ottimizzi per facilitare questo metodo.

Potrebbe non sorprendere che ciascuno di questi metodi introduca a sua volta le proprie sfide. Prendiamo ad esempio la messa a punto. La messa a punto del tuo LLM pre-addestrato sui dati specifici del tuo dominio migliorerà le sue prestazioni su tali dati, sì. Ma la messa a punto modifica i parametri (pesi) che sono alla base delle prestazioni generali (presumibilmente abbastanza buone) del modello pre-addestrato. Questa modifica provoca quindi un disimparamento (o un “dimenticamento catastrofico”) di alcune delle conoscenze precedenti del modello. Ciò può far sì che il modello fornisca risposte errate o inappropriate (anche non sicure). Se vuoi che il tuo agente continui a rispondere in modo accurato e sicuro, hai bisogno di un metodo di regolazione fine che riduca l'oblio catastrofico.

Sfida 2: Endpoint

Determinare quando un cliente ha finito di parlare è fondamentale per il flusso naturale della conversazione. Allo stesso modo, il sistema deve gestire le interruzioni con garbo, garantendo che la conversazione rimanga coerente e rispondente alle esigenze del cliente. Raggiungere questo obiettivo a uno standard paragonabile all’interazione umana è un compito complesso ma è essenziale per creare esperienze di conversazione naturali e piacevoli.

Una soluzione che funzioni richiede che i progettisti considerino domande come queste:

  • Quanto tempo dopo che il cliente ha smesso di parlare l'agente dovrebbe attendere prima di decidere che il cliente ha smesso di parlare?

  • Quanto sopra dipende dal fatto che il cliente abbia completato o meno l'intera frase?

  • Cosa si dovrebbe fare se il cliente interrompe l'agente?

  • In particolare, l'agente dovrebbe presumere che ciò che ha detto non sia stato ascoltato dal cliente?

Questi problemi, che hanno in gran parte a che fare con la tempistica, richiedono un'attenta progettazione che va oltre quella necessaria per far sì che un LLM dia una risposta corretta.

Conclusione

L’evoluzione dei sistemi vocali basati sull’intelligenza artificiale promette un cambiamento rivoluzionario nelle dinamiche del servizio clienti, sostituendo i sistemi telefonici antiquati con tecnologie LLM, ASR e TTS avanzate. Tuttavia, superare le sfide legate alle allucinazioni e all’endpoint senza soluzione di continuità sarà fondamentale per fornire interazioni vocali naturali ed efficienti.

L’automazione del servizio clienti ha il potere di diventare un vero punto di svolta per le aziende, ma solo se eseguita correttamente. Nel 2024, in particolare con tutte queste nuove tecnologie, possiamo finalmente costruire sistemi che possano sembrare naturali, fluidi e comprenderci in modo efficace. L’effetto netto ridurrà i tempi di attesa e migliorerà l’attuale esperienza che abbiamo con i robot vocali, segnando un’era di trasformazione nel coinvolgimento dei clienti e nella qualità del servizio.

Il dottor Itamar Arel, attualmente CEO di Tenyx, unisce il suo background accademico come ex professore presso l'Università del Tennessee e il laboratorio di intelligenza artificiale dell'Università di Stanford con il successo imprenditoriale, co-fondando le società pionieristiche Binatix, Apprente (acquisita da McDonald's e IBM) e Tenyx. Itamar ha recentemente ricoperto la carica di vicepresidente aziendale e capo di McD Tech Labs presso McDonald's Corporation e capo dell'intelligenza artificiale conversazionale presso IBM Watson Orders.

Il dottor Ron Chrisley è attualmente consulente scientifico capo presso Tenyx, che ha co-fondato nel 2021. Ha conseguito una laurea in Sistemi simbolici a Stanford, ha conseguito un dottorato presso l'Università di Oxford ed è professore di scienze cognitive e intelligenza artificiale presso l'Università del Sussex. Dal 2019 al 2020 è stato Visiting Scholar presso l'Institute for Human-Centered AI di Stanford.