Myslitelé

AI-Powered Voice-based Agents for Enterprises: Two Key Challenges

Publikováno 31. ledna 2024

Aktualizováno 27. dubna 2026

Dr. Itamar Arel and Dr. Ron Chrisley

Nyní více než kdykoli předtím je čas pro systémy založené na umělé inteligenci a využívající hlas. Zvažte hovor na zákaznickou podporu. Brzy všechny křehkosti a inflexibilitu budou pryč – tuhé robotické hlasy, „stiskněte 1 pro prodej“-styl omezujících menu, nepříjemné zkušenosti, které nás všechny donutily franticky stisknout nulu v naději, že budeme moci mluvit s lidským agentem. (Nebo, vzhledem k dlouhým čekacím dobám, které mohou být spojeny s přenosem na lidského agenta, jsme raději ukončili hovor úplně.)

To už nebude. Pokroky nejen v transformátorových velkých jazycových modelech (LLM), ale také v automatickém rozpoznávání řeči (ASR) a text-to-speech (TTS) systémech znamenají, že „nová generace“ hlasových agentů je zde – pokud víte, jak je postavit.

Dnes se podíváme na výzvy, kterým čelí všichni, kteří doufají postavit takovýto špičkový hlasový konverzační agent.

Proč hlas?

Než se ponoříme do problematiky, podívejme se na obecné přitažlivosti a relevanci hlasových agentů (oproti textovým interakcím). Existuje mnoho důvodů, proč by mohla být hlasová interakce vhodnější než ta textová – tyto důvody zahrnují, v rostoucím pořadí závažnosti:

Preference nebo zvyk – mluvení předchází vývoji psaní a historicky
Pomalý textový vstup – mnozí mohou mluvit rychleji, než psát
Situace bez použití rukou – jako je řízení, cvičení nebo mytí nádobí
Negramotnost – alespoň v jazycích, které agent rozumí
Postižení – jako je slepota nebo nedostatek neverbální motorické kontroly

V době, která se zdá být ovlivněna transakcemi zprostředkovanými webovými stránkami, zůstává hlas silným kanálem pro obchod. Například nedávná studie JD Power o spokojenosti zákazníků v hotelovém průmyslu zjistila, že hosté, kteří si zarezervovali pokoj telefonicky, byli spokojenější se svým pobytem než ti, kteří si zarezervovali prostřednictvím online cestovní agentury (OTA) nebo přímo prostřednictvím webových stránek hotelu.

Ale interaktivní hlasové odpovědi, nebo IVR, nejsou dostatečné. Studie z roku 2023 od Zippia zjistila, že 88 % zákazníků preferuje hlasové hovory s živým agentem místo navigace v automatickém telefonním menu. Studie také zjistila, že nejvíce lidí rozčilují následující věci na telefonních menu: poslouchání irelevantních možností (69 %), neschopnost plně popsat problém (67 %), neefektivní služba (33 %) a matoucí možnosti (15 %).

A existuje otevřenost vůči používání hlasových asistentů. Podle studie Accenture je kolem 47 % spotřebitelů již pohodlně používá hlasové asistenty pro interakci s podniky a kolem 31 % spotřebitelů již použilo hlasového asistenta pro interakci s podnikem.

Bez ohledu na důvod, pro mnohé z nich existuje preference a poptávka po mluvené interakci – pokud je to přirozené a pohodlné.

Co dělá dobrého hlasového agenta?

Přibližně řečeno, dobrý hlasový agent by měl reagovat na uživatele způsobem, který je:

Relevantní: Založený na správném pochopení toho, co uživatel řekl/chtěl. Poznámka: V některých případech nebude odpověď agenta pouze mluvená odpověď, ale nějaká forma akce prostřednictvím integrace s backendem (například skutečné rezervování hotelu, když volající řekne „Pokračujte a zarezervujte to“).
Přesný: Založený na faktech (například říkat, že je k dispozici pokoj v hotelu 19. ledna, pouze pokud je真的)
Čitelný: Odpověď by měla být srozumitelná
Včasný: S latencí, kterou byste očekávali od člověka
Bezpečný: Žádný útočný nebo nevhodný jazyk, vyzrazení chráněných informací atd.

Problém

Současné automatické hlasové systémy se snaží splnit výše uvedená kritéria na úkor a) být a) velmi omezené a b) velmi frustrující při použití. Částečně je to důsledkem vysokých očekávání, která hlasová konverzační kontext nastavuje, s takovými očekáváními, které se pouze zvyšují, jakmile kvalita hlasu v TTS systémech se stává nerozlišitelnou od lidských hlasů. Ale tato očekávání jsou zklamána v systémech, které jsou目前 široce nasazeny. Proč?

V jednom slově – inflexibilita:

Omezená řeč – uživatel je obvykle nucen říkat věci nepřirozeně: ve stručných frázích, v určitém pořadí, bez zbytečných informací atd. To nabízí málo nebo žádné zlepšení oproti starému školnímu číselnému menu systému
Úzká, neinkluzivní představa o „přijatelné“ řeči – nízká tolerance pro slang, uhmy a áhy atd.
Žádné zpětné kroky: Pokud něco půjde špatně, může být málo šance na „opravu“ nebo korekci problematického kusu informací, ale místo toho musíte začít znovu, nebo počkat na přenos na lidského agenta.
Přísné střídání – žádná možnost přerušit nebo mluvit s agentem

Jde bez řeči, že lidé tyto omezení považují za rozčilující nebo frustrující.

Řešení:

Dobrá zpráva je, že moderní AI systémy jsou dostatečně silné a rychlé, aby výrazně zlepšily výše uvedené zkušenosti, místo toho, aby se přiblížily (nebo dokonce překročily!) standardy zákaznické služby založené na lidech. To je způsobeno řadou faktorů:

Rychlejší, výkonnější hardware
Zlepšení ASR (vyšší přesnost, překonání šumu, akcentů atd.)
Zlepšení TTS (přirozeně znějící nebo dokonce klonované hlasy)
Příchod generativních LLM (přirozeně znějící konverzace)

Ten poslední bod je zásadním zlomem. Klíčovým poznatkem bylo, že dobrý prediktivní model může sloužit jako dobrý generativní model. Umělý agent může dosáhnout blízkého lidského konverzačního výkonu, pokud řekne cokoli, co dostatečně dobrý LLM předpovídá jako nejpravděpodobnější věc, kterou by dobrý lidský zákaznický servisový agent řekl v daném konverzačním kontextu.

Signál pro příchod desítek AI startupů, které doufají vyřešit problém hlasového konverzačního agenta jednoduše výběrem a poté propojením standardních ASR a TTS modulů s LLM jádrem. Z tohoto pohledu je řešení pouze otázkou výběru kombinace, která minimalizuje latenci a náklady. A samozřejmě, že je to důležité. Ale je to dostatečné?

Ne tak rychle

Existují několik konkrétních důvodů, proč tento jednoduchý přístup nebude fungovat, ale vycházejí z dvou obecných bodů:

LLM nemohou samy o sobě poskytnout dobré fakticky založené textové konverzace požadovaného typu pro podnikové aplikace, jako je zákaznická služba. Takže nemohou samy o sobě udělat to pro hlasové konverzace.
I když doplníte LLM o to, co je potřeba k vytvoření dobrého textového konverzačního agenta, přeměna toho na dobrého hlasového konverzačního agenta vyžaduje více než jen připojení k nejlepšímu ASR a TTS modulu, který si můžete dovolit.

Podíváme se na konkrétní příklad každého z těchto výzev.

Výzva 1: Udržení reality

Jak je nyní široce známo, LLM někdy produkují nepřesné nebo „halucinované“ informace. To je katastrofální v kontextu mnoha komerčních aplikací, i když by to mohlo být dobré pro zábavní aplikaci, kde přesnost nemusí být bodem.

To, že LLM někdy halucinuje, je pouze očekávaným důsledkem použití modelů trénovaných na datech z roku (nebo staršího) k generování odpovědí na otázky o faktech, které nejsou součástí, nebo nejsou implikovány datovým souborem (jak velkým). Když volající zeptá „Jaké je moje členské číslo?“, jednoduchý předtrénovaný LLM může generovat pouze pravděpodobně znějící odpověď, ne přesnou.

Nejběžnější způsoby, jak řešit tento problém, jsou:

Jemné ladění: Trénujte předtrénovaný LLM dále, tentokrát na všech doménově specifických datech, které chcete, aby mohl správně odpovědět.
Inženýrství podnětů: Přidejte další data/instrukce jako vstup do LLM, kromě konverzační historie
Retrieval Augmented Generation (RAG): Podobné inženýrství podnětů, kromě toho, že data přidána do podnětu jsou určena na základě shody aktuálního konverzačního kontextu (například zákazník se zeptal „Má váš hotel bazén?“) s embedovaným indexem vašich doménově specifických dat (které zahrnují, například soubor, který říká: „Zde jsou zařízení dostupná v hotelu: bazén, sauna, stanice pro dobíjení elektromobilů.“).
Pravidlové řízení: Podobné RAG, ale co je přidáno do (nebo odebráno z) podnětu, není načteno z neuronové paměti, ale je určeno prostřednictvím pevně zakódovaných (a ručně kódovaných) pravidel.

Je třeba poznamenat, že jeden velikost se nehodí všem. Který z těchto metod bude vhodný, bude záviset na doménově specifických datech, která informují odpověď agenta. Konkrétně bude záviset na tom, zda jsou tato data často měněna (například hovor od hovoru – například jméno zákazníka) nebo téměř nikdy (například úvodní pozdrav: „Dobrý den, děkuji za zavolání do Hotelu Budapešť. Jak vám mohu pomoci dnes?“). Jemné ladění by nebylo vhodné pro první případ a RAG by byl neohrabaným řešením pro druhý. Takže jakýkoli fungující systém bude muset použít kombinaci těchto metod.

Co víc, integrace těchto metod s LLM a navzájem vyžaduje pečlivé inženýrství. Například výkon vašeho modelu RAG by se mohl zlepšit, pokud byste jej jemně nastavili, aby usnadnil tuto metodu.

Může být překvapením, že každá z těchto metod představuje své vlastní výzvy. Například vezměme jemné ladění. Jemné ladění vašeho předtrénovaného LLM na vašich doménově specifických datech zlepšuje jeho výkon na těchto datech, ano. Ale jemné ladění modifikuje parametry (váhy), které jsou základem předtrénovaného modelu (předpokládaně bastante dobrého) obecného výkonu. Tato modifikace proto způsobuje zapomnění (nebo „katastrofické zapomnění“) některých předchozích znalostí modelu. To může vést k tomu, že model poskytne nesprávné nebo nevhodné (nebo dokonce nebezpečné) odpovědi. Pokud chcete, aby váš agent pokračoval v poskytování přesných a bezpečných odpovědí, potřebujete metodu jemného ladění, která zmírní katastrofické zapomnění.

Výzva 2: Endpointing

Určení, kdy zákazník skončil mluvení, je kritické pro přirozený konverzační tok. Stejně tak musí systém zpracovat přerušení elegantně, aby konverzace zůstala soudržná a reagovala na potřeby zákazníka. Dosáhnout tohoto na standardu srovnatelném s lidskou interakcí je složitý úkol, ale je nezbytný pro vytváření přirozených a příjemných konverzačních zkušeností.

Řešení, které funguje, vyžaduje, aby designéři zvažovali otázky, jako jsou:

Jak dlouho by měl agent čekat po skončení mluvení zákazníka, než rozhodne, že zákazník přestal mluvit?
Závisí výše uvedené na tom, zda zákazník dokončil celou větu?
Co by se mělo udělat, pokud zákazník přeruší agenta?
Konkrétně, měl by agent předpokládat, že to, co říkal, nebylo zákazníkovi slyšet?

Tyto otázky, které se týkají hlavně časování, vyžadují pečlivé inženýrství nad rámec toho, co je zapojeno do získání LLM, aby poskytl správnou odpověď.

Závěr

Evoluce AI poháněných hlasových systémů slibuje revoluční změnu v dynamice zákaznické služby, nahrazující zastaralé telefonní systémy pokročilými LLM, ASR a TTS technologiemi. Nicméně, překonání výzev v halucinovaných informacích a bezproblémovém endpointingu bude zásadní pro poskytování přirozených a efektivních hlasových interakcí.

Automatizace zákaznické služby má sílu stát se skutečným herním měničem pro podniky, ale pouze pokud je provedena správně. V roce 2024, zejména s těmito novými technologiemi, můžeme konečně postavit systémy, které mohou cítit přirozeně a plynule a robustně nás rozumět. Činidlo bude snižovat čekací doby a zlepšovat současné zkušenosti, které máme s hlasovými boty, označující transformační éru zákaznické angažovanosti a kvality služby.

Dr. Itamar Arel

Dr. Itamar Arel,目前 CEO at Tenyx, kombinuje svou akademickou minulost jako bývalý profesor na University of Tennessee a Stanford University’s AI lab s podnikatelským úspěchem, spoluzakladatelem průkopnických společností Binatix, Apprente (získané McDonald’s a IBM) a Tenyx. Itamar nedávno zastával pozici corporate VP a head of McD Tech Labs at McDonald’s Corporation a head of conversational AI at IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI