Myšlenkové vůdce
Hlasové agenty pro podniky s umělou inteligencí: dvě klíčové výzvy

Nyní, více než kdy předtím, je čas na hlasové systémy založené na umělé inteligenci. Zvažte zavolání na zákaznický servis. Brzy zmizí veškerá křehkost a nepružnost – strnulé robotické hlasy, zúžená menu ve stylu „tiskové jedničky pro prodej“, otravné zážitky, kvůli kterým jsme všichni horečně mačkali nulu v naději, že si místo toho promluvíme s lidským agentem. (Nebo vzhledem k dlouhým čekacím dobám, které může znamenat převedení na lidského agenta, jsme museli hovor úplně vzdát.)
Už ne. Pokroky nejen v oblasti transformátorů velké jazykové modely (LLM), ale v automatickém režimu rozpoznávání řeči (ASR) a text na řeč Systémy (TTS) znamenají, že jsou zde hlasové agenty „nové generace“ – pokud víte, jak je sestavit.
Dnes se podíváme na výzvy, kterým čelí každý, kdo doufá, že sestrojí takový nejmodernější hlasový konverzační agent.
Proč hlas?
Než se do toho pustíme, pojďme se rychle podívat na obecné zajímavosti a význam hlasových agentů (na rozdíl od textových interakcí). Existuje mnoho důvodů, proč může být hlasová interakce vhodnější než textová – mezi ně patří, v pořadí podle závažnosti:
-
Preference nebo zvyk – mluvení vývojově a historicky předchází psaní
-
Pomalé zadávání textu – mnozí mohou mluvit rychleji než psát
-
Hands-free situace – jako je řízení, cvičení nebo mytí nádobí
-
Negramotnost – alespoň v jazyce (jazycích), kterému agent rozumí
-
Postižení – jako je slepota nebo nedostatek nehlasové motoriky
Ve věku, kterému zdánlivě dominují transakce zprostředkované webovými stránkami, zůstává hlas mocným prostředníkem pro obchod. Například nedávná studie společnosti JD Power o spokojenosti zákazníků v hotelovém průmyslu zjistila, že hosté, kteří si rezervovali svůj pokoj po telefonu, byli se svým pobytem spokojenější než ti, kteří si rezervovali prostřednictvím online cestovní kanceláře (OTA) nebo přímo přes webové stránky hotelu. .
Ale interaktivní hlasové odezvy, nebo zkráceně IVR, nestačí. Studie z roku 2023 od Zippie zjistili, že 88 % zákazníků upřednostňuje hlasové hovory s živým agentem místo navigace v automatické nabídce telefonu. Studie také zjistila, že mezi hlavní věci, které lidi nejvíce obtěžují v nabídkách telefonu, patří poslouchání irelevantních možností (69 %), neschopnost plně popsat problém (67 %), neefektivní služby (33 %) a matoucí možnosti (15 %) ).
A existuje otevřenost pro používání hlasových asistentů. Podle studie společnosti Accenture již asi 47 % spotřebitelů vyhovuje používání hlasových asistentů k interakci s podniky a přibližně 31 % spotřebitelů již hlasového asistenta k interakci s firmou použilo.
Ať už je důvod jakýkoli, mnozí upřednostňují a vyžadují mluvenou interakci – pokud je to přirozené a pohodlné.
Co dělá dobrého hlasového agenta?
Zhruba řečeno, dobrý hlasový agent by měl reagovat na uživatele způsobem, který je:
-
Relevantní: Na základě správného pochopení toho, co uživatel řekl/chtěl. Všimněte si, že v některých případech nebude odpovědí agenta pouze mluvená odpověď, ale určitá forma akce prostřednictvím integrace s backendem (např. ve skutečnosti způsobí rezervaci hotelového pokoje, když volající řekne „Pokračujte a zarezervujte si to“). .
-
Přesné: Na základě faktů (např. řekněte pouze, že je v hotelu volný pokoj 19. ledna, pokud existuje)
-
Jasné: Odpověď by měla být srozumitelná
-
Včasný: S takovou latencí, jakou by člověk očekával od člověka
-
Bezpečné: Žádné urážlivé nebo nevhodné výrazy, odhalování chráněných informací atd.
Problém
Současné hlasové automatizované systémy se pokoušejí splnit výše uvedená kritéria na úkor toho, že a) jsou a) velmi omezené ab) používání je velmi frustrující. Částečně je to důsledek vysokých očekávání, která konverzační kontext založený na hlasu nastavuje, přičemž tato očekávání jsou tím vyšší, čím více je kvalita hlasu v systémech TTS nerozeznatelná od lidských hlasů. Tato očekávání jsou však v systémech, které jsou v současnosti široce nasazovány, zmařena. Proč?
Jedním slovem – nepružnost:
-
Omezená řeč – uživatel je obvykle nucen říkat věci nepřirozeně: v krátkých frázích, v určitém pořadí, bez falešných informací atd. To nabízí jen malý nebo žádný pokrok oproti starému systému menu založenému na číslech.
-
Úzký, neobsahující pojem „přijatelné“ řeči – nízká tolerance ke slangu, uhms a ahs atd.
-
Žádné zpětné sledování: Pokud se něco pokazí, může existovat malá šance na „opravu“ nebo opravu problematické informace, ale místo toho je třeba začít znovu nebo čekat na přenos na člověka.
-
Přísné střídání – žádná schopnost přerušit nebo mluvit agenta
Je samozřejmé, že lidé považují tato omezení za otravná nebo frustrující.
Řešení:
Dobrou zprávou je, že moderní systémy umělé inteligence jsou dostatečně výkonné a rychlé na to, aby výrazně zlepšily výše uvedené druhy zážitků, místo aby se přibližovaly (nebo překračovaly!) standardům zákaznických služeb založených na lidech. Je to způsobeno řadou faktorů:
-
Rychlejší a výkonnější hardware
-
Vylepšení v ASR (vyšší přesnost, překonání šumu, akcentů atd.)
-
Vylepšení v TTS (přirozeně znějící nebo dokonce klonované hlasy)
-
Příchod generativních LLM (přirozeně znějících konverzací)
Tento poslední bod mění hru. Klíčovým poznatkem bylo, že dobrý prediktivní model může sloužit jako dobrý generativní model. Umělý agent se může přiblížit konverzačnímu výkonu na lidské úrovni, pokud řekne cokoliv, co dostatečně dobrý LLM předpovídá jako nejpravděpodobnější věc, kterou by dobrý lidský agent zákaznických služeb řekl v daném konverzačním kontextu.
Zapomeňte na příchod desítek startupů s umělou inteligencí, které doufají, že vyřeší problém hlasového konverzačního agenta jednoduše výběrem a následným připojením standardních modulů ASR a TTS k jádru LLM. Z tohoto pohledu je řešení pouze otázkou výběru kombinace, která minimalizuje latenci a náklady. A to je samozřejmě důležité. Ale stačí to?
Ne tak rychle
Existuje několik konkrétních důvodů, proč tento jednoduchý přístup nebude fungovat, ale vycházejí ze dvou obecných bodů:
-
LLM ve skutečnosti samy o sobě nedokážou poskytovat kvalitní textové konverzace založené na faktech, které jsou potřebné pro podnikové aplikace, jako je zákaznický servis. Takže to sami nemohou udělat ani pro hlasové konverzace. Je potřeba něco jiného.
-
I když LLM doplníte tím, co je potřeba k vytvoření dobrého textového konverzačního agenta, přeměna toho na dobrého hlasového konverzačního agenta vyžaduje více než jen připojení k nejlepším modulům ASR a TTS, které si můžete dovolit.
Podívejme se na konkrétní příklad každé z těchto výzev.
Výzva 1: Udržujte to skutečné
Jak je nyní všeobecně známo, LLM někdy produkují nepřesné nebo „halucinované“ informace. To je v kontextu mnoha komerčních aplikací katastrofální, i když to může být dobrá aplikace pro zábavu, kde přesnost nemusí být tím nejdůležitějším.
To, že LLM mají někdy halucinace, lze očekávat pouze při zamyšlení. Je to přímý důsledek používání modelů trénovaných na datech před rokem (nebo více) ke generování odpovědí na otázky týkající se faktů, které nejsou součástí souboru dat (jakkoli obrovského), který může být rok nebo déle starý. Když se volající zeptá „Jaké je moje členské číslo?“, jednoduchý předem vyškolený LLM může vygenerovat pouze věrohodně znějící odpověď, nikoli přesnou.
Nejběžnější způsoby řešení tohoto problému jsou:
-
Jemné ladění: Trénujte předškolený LLM dále, tentokrát na všech datech specifických pro doménu, na která chcete, aby byl schopen správně odpovědět.
-
Rychlé inženýrství: Přidejte další data/instrukce jako vstup do LLM, kromě historie konverzace
-
Retrieval Augmented Generation (RAG): Stejně jako rychlé inženýrství, s tím rozdílem, že data přidaná do výzvy se určují za běhu přiřazováním aktuálního kontextu konverzace (např. zákazník se zeptal „Má váš hotel bazén?“) s kódovaným vkládáním. index dat specifických pro vaši doménu (který zahrnuje např. soubor, který říká: „Zde jsou zařízení dostupná v hotelu: bazén, sauna, nabíjecí stanice pro elektromobily.“).
-
Řízení založené na pravidlech: Jako RAG, ale to, co má být přidáno do výzvy (nebo od ní odečteno), není získáno porovnáváním neurální paměti, ale je určeno pomocí pevně zakódovaných (a ručně kódovaných) pravidel.
Všimněte si, že jedna velikost nesedí všem. Která z těchto metod bude vhodná, bude záviset například na datech specifických pro doménu, která informují agentovu odpověď. Zejména bude záležet na tom, zda se uvedené údaje mění často (zavolání, řekněme – např. jméno zákazníka) nebo téměř vůbec (např. úvodní pozdrav: „Dobrý den, děkujeme, že jste zavolali do hotelu Budapešť. Jak vám dnes mohu pomoci? ?“). Jemné ladění by nebylo vhodné pro první a RAG by bylo neohrabané řešení pro druhé. Takže každý fungující systém bude muset používat řadu těchto metod.
A co víc, integrace těchto metod s LLM a mezi sebou navzájem způsobem, který minimalizuje latenci a náklady, vyžaduje pečlivé inženýrství. Například výkon RAG vašeho modelu se může zlepšit, pokud jej doladíte tak, aby tuto metodu usnadnil.
Možná nebude překvapením, že každá z těchto metod přináší své vlastní výzvy. Vezměte například jemné doladění. Jemné vyladění vašeho předtrénovaného LLM na datech specifická pro vaši doménu zlepší její výkon na těchto datech, ano. Ale jemné doladění upravuje parametry (hmotnosti), které jsou základem (pravděpodobně docela dobré) obecného výkonu předem trénovaného modelu. Tato modifikace tedy způsobuje odnaučení (nebo „katastrofické zapomenutí“) některých předchozích znalostí modelu. To může vést k tomu, že model bude poskytovat nesprávné nebo nevhodné (dokonce nebezpečné) odpovědi. Pokud chcete, aby váš agent i nadále odpovídal přesně a bezpečně, potřebujete metodu jemného doladění, která zmírní katastrofické zapomínání.
Výzva 2: Koncový bod
Pro přirozený tok konverzace je rozhodující určit, kdy zákazník dokončil řeč. Podobně musí systém zvládat přerušení ladně a zajistit, aby konverzace zůstala koherentní a reagovala na potřeby zákazníka. Dosáhnout toho na úroveň srovnatelnou s lidskou interakcí je složitý úkol, ale je nezbytný pro vytváření přirozených a příjemných konverzačních zážitků.
Řešení, které funguje, vyžaduje, aby návrháři zvážili otázky, jako jsou tyto:
-
Jak dlouho poté, co zákazník přestane mluvit, by měl agent čekat, než rozhodne, že zákazník přestal mluvit?
-
Závisí výše uvedené na tom, zda zákazník dokončil celou větu?
-
Co by se mělo dělat, když zákazník vyruší agenta?
-
Zejména by měl agent předpokládat, že to, co říkal, zákazník neslyšel?
Tyto problémy, které do značné míry souvisejí s načasováním, vyžadují pečlivé inženýrství nad rámec toho, co se týká získání LLM, aby poskytl správnou odpověď.
Proč investovat do čističky vzduchu?
Evoluce hlasových systémů poháněných umělou inteligencí slibuje revoluční posun v dynamice zákaznických služeb tím, že nahradí zastaralé telefonní systémy pokročilými technologiemi LLM, ASR a TTS. Překonání problémů s halucinačními informacemi a bezproblémové koncové body však budou klíčové pro poskytování přirozených a účinných hlasových interakcí.
Automatizace zákaznického servisu má sílu stát se skutečnou změnou hry pro podniky, ale pouze pokud je provedena správně. V roce 2024, zejména se všemi těmito novými technologiemi, můžeme konečně vybudovat systémy, které se budou cítit přirozeně a plynule a budou nám robustně rozumět. Čistý efekt zkrátí čekací doby a zlepší současnou zkušenost, kterou máme s hlasovými roboty, což znamená transformační éru v zapojení zákazníků a kvalitě služeb.