Лидеры мнений

AI-ориентированные голосовые агенты для предприятий: два ключевых вызова

Published January 31, 2024

Updated April 4, 2026

Dr. Itamar Arel and Dr. Ron Chrisley

Теперь, больше чем когда-либо прежде, время для AI-ориентированных голосовых систем. Рассмотрим звонок в службу поддержки клиентов. Скоро все хрупкость и негибкость исчезнут – жесткие роботизированные голоса, меню в стиле “нажмите 1 для продаж” с ограничениями, раздражающие опыт, который заставил нас всех отчаянно нажимать 0 в надежде поговорить с живым агентом. (Или, учитывая долгое время ожидания, которое может быть связано с перенаправлением на живого агента, мы отказались от звонка вообще.)

Больше нет. Улучшения не только в трансформаторных больших языковых моделях (LLM), но и в автоматическом распознавании речи (ASR) и системах текст-в-речь (TTS) означают, что “следующее поколение” голосовых агентов здесь – если вы знаете, как их построить.

Сегодня мы рассматриваем проблемы, с которыми сталкивается любой, кто надеется построить такой передовой голосовой разговорный агент.

Почему голос?

Прежде чем приступить, давайте посмотрим на общие достоинства и актуальность голосовых агентов (в отличие от текстовых взаимодействий). Есть много причин, почему голосовое взаимодействие может быть более подходящим, чем текстовое – это могут быть:

Предпочтение или привычка – говорение предшествует развитию письма исторически
Медленное ввод текста – многие могут говорить быстрее, чем печатать
Ситуации без рук – такие как вождение, упражнения или мытье посуды
Неграмотность – по крайней мере, в языке(ах), который понимает агент
Инвалидность – такая как слепота или отсутствие невокальной моторной функции

В эпоху, которая, кажется, доминируется транзакциями, посредством веб-сайтов, голос остается мощным каналом для коммерции. Например, недавнее исследование JD Power о удовлетворенности клиентов в отельной индустрии показало, что гости, которые забронировали номер по телефону, были более удовлетворены своим пребыванием, чем те, кто забронировал через онлайн-агентство по путешествиям (OTA) или直接 через веб-сайт отеля.

Но интерактивные голосовые ответы, или IVR, недостаточно. Исследование 2023 года от Zippia показало, что 88% клиентов предпочитают голосовые звонки с живым агентом вместо навигации по автоматизированному телефонному меню. Исследование также показало, что главными вещами, которые раздражают людей больше всего в телефонных меню, являются прослушивание нерелевантных вариантов (69%), невозможность полностью описать проблему (67%), неэффективная служба (33%) и запутанные варианты (15%).

И есть открытость использования голосовых помощников. Согласно исследованию Accenture, около 47% потребителей уже комфортно используют голосовые помощники для взаимодействия с бизнесом, и около 31% потребителей уже использовали голосового помощника для взаимодействия с бизнесом.

Как бы то ни было, для многих существует предпочтение и спрос на устное взаимодействие – пока оно естественно и комфортно.

Что делает хорошим голосовым агентом?

Примерно говоря, хороший голосовой агент должен реагировать на пользователя так, чтобы:

Релевантность: На основе правильного понимания того, что сказал/хотел пользователь. Обратите внимание, что в некоторых случаях ответ агента не будет просто устным ответом, но некоторым видом действия через интеграцию с бэкендом (например, фактическим бронированием номера в отеле, когда звонящий говорит “Идите вперед и забронируйте его”).
Точность: На основе фактов (например, сказать, что в отеле есть номер, доступный 19 января, только если это так)
Ясность: Ответ должен быть понятным
Своевременность: С задержкой, которую можно было бы ожидать от человека
Безопасность: Нет оскорбительного или неуместного языка, раскрытия защищенной информации и т. д.

Проблема

Текущие автоматизированные голосовые системы пытаются удовлетворить вышеуказанным критериям за счет того, что они очень ограничены и очень раздражают использовать. Часть этого является результатом высоких ожиданий, которые контекст голосового разговора задает, с такими ожиданиями, которые только растут, когда качество голоса в системах TTS становится неотличимым от человеческого голоса. Но эти ожидания разбиваются в системах, которые в настоящее время широко развернуты. Почему?

В одном слове – негибкость:

Ограниченная речь – пользователю обычно приходится говорить неестественно: в коротких фразах, в определенном порядке, без посторонней информации и т. д. Это предлагает мало или никакого преимущества над старомодной системой меню на основе номеров
Узкое, неинклюзивное понятие “допустимой” речи – низкая терпимость к сленгу, ухм и ах и т. д.
Нет возможности вернуться назад: Если что-то идет не так, может быть мало шансов “исправить” или исправить проблемную информацию, но вместо этого начать заново или подождать передачи на человека.
Строгое чередование – нет возможности прервать или говорить агенту

Это неудивительно, что люди находят эти ограничения раздражающими или разочаровывающими.

Решение:

Хорошая новость в том, что современные системы ИИ достаточно мощны и быстры, чтобы значительно улучшить вышеуказанные виды опыта, вместо того, чтобы приближаться (или превышать!) стандарты обслуживания клиентов на основе человека. Это связано с рядом факторов:

Быстрее, более мощное оборудование
Улучшения в ASR (более высокая точность, преодоление шума, акцентов и т. д.)
Улучшения в TTS (естественно звучащие или даже клонированные голоса)
Прибытие генеративных LLM (естественно звучащие разговоры)

Последний пункт является игроком. Ключевым прозрением было то, что хорошая прогностическая модель может служить хорошей генеративной моделью. Искусственный агент может приблизиться к человеческому разговорному выступлению, если он говорит все, что достаточно хорошая LLM предсказывает быть наиболее вероятным, что хороший человеческий агент обслуживания клиентов сказал бы в данном контексте разговора.

Сигнал прибытия десятков стартапов ИИ, надеющихся решить проблему голосового разговорного агента, просто выбрав и затем подключив готовые модули ASR и TTS к ядру LLM. С этой точки зрения решение заключается просто в выборе комбинации, которая минимизирует задержку и стоимость. И, конечно, это важно. Но достаточно ли этого?

Не так быстро

Есть несколько конкретных причин, почему этот простой подход не сработает, но они вытекают из двух общих моментов:

LLM на самом деле не могут, сами по себе, обеспечить хорошие факто-основанные текстовые разговоры, необходимые для корпоративных приложений, таких как обслуживание клиентов. Итак, они не могут, сами по себе, сделать это и для голосовых разговоров. Что-то еще нужно.
Даже если вы дополните LLM тем, что необходимо для создания хорошего текстового разговорного агента, превращение этого в хороший голосовой разговорный агент требует больше, чем просто подключение его к лучшим модулям ASR и TTS, которые вы можете себе позволить.

Давайте рассмотрим конкретный пример каждого из этих вызовов.

Вызов 1: Сохранение реальности

Как теперь широко известно, LLM иногда производят неточные или “галлюцинированные” сведения. Это катастрофично в контексте многих коммерческих приложений, даже если это может сделать хороший развлекательный приложение, где точность может не быть главной целью.

Тот факт, что LLM иногда галлюцинирует, ожидаем, на размышлении. Это прямое следствие использования моделей, обученных на данных годичной давности (или более), для генерации ответов на вопросы о фактах, которые не являются частью или не вытекают из набора данных (как бы он ни был велик), который может быть годичной давности (или более). Когда звонящий спрашивает “Какой мой номер членства?”, простая предварительно обученная LLM может сгенерировать только правдоподобно звучащий ответ, а не точный.

Самые распространенные способы решения этой проблемы являются:

Настройка: Обучите предварительно обученную LLM дальше, на этот раз на всех доменных данных, которые вы хотите, чтобы она могла ответить правильно.
Инженерия подсказок: Добавьте дополнительные данные/инструкции в качестве входных данных в LLM, в дополнение к истории разговора
Получение дополненной генерации (RAG): Как инженерия подсказок, за исключением того, что данные, добавленные в подсказку, определяются на лету путем сопоставления текущего контекста разговора (например, клиент спросил “Есть ли у вашего отеля бассейн?”) с вложенным кодированным индексом ваших доменных данных (который включает, например, файл, который говорит: “Вот объекты, доступные в отеле: бассейн, сауна, станция зарядки электромобилей.”).
Управление на основе правил: Как RAG, но то, что добавляется к (или вычитается из) подсказки, не извлекается путем сопоставления нейронной памяти, а определяется жесткими (и ручными) правилами.

Обратите внимание, что один размер не подходит всем. Какой из этих методов будет уместен, будет зависеть, например, от доменных данных, которые информируют ответ агента. В частности, это будет зависеть от того, меняются ли эти данные часто (например, звонок за звонком – например, имя клиента) или почти никогда (например, первоначальное приветствие: “Здравствуйте, спасибо за звонок в отель Будапешт. Как я могу вам помочь сегодня?”). Настройка не будет подходящей для первого, и RAG будет неуклюжим решением для второго. Итак, любая работающая система должна использовать несколько этих методов.

Что более того, интеграция этих методов с LLM и друг с другом в sposób, который минимизирует задержку и стоимость, требует тщательного проектирования. Например, производительность вашей модели RAG может улучшиться, если вы настроите ее для облегчения этого метода.

Это может не удивить, что каждый из этих методов, в свою очередь, вводит свои собственные вызовы. Например, возьмем настройку. Настройка вашей предварительно обученной LLM на ваших доменных данных улучшит ее производительность на этих данных, да. Но настройка изменит параметры (веса), которые являются основой предварительно обученной модели (предположительно довольно хорошей) общей производительности. Это изменение, следовательно, вызывает разучивание (или “катастрофическое забывание”) некоторых знаний модели. Это может привести к тому, что модель даст неправильные или неуместные (даже небезопасные) ответы. Если вы хотите, чтобы ваш агент продолжал отвечать точно и безопасно, вам нужен метод настройки, который смягчает катастрофическое забывание.

Вызов 2: Окончание

Определение того, когда клиент закончил говорить, имеет решающее значение для естественного потока разговора. Аналогично, система должна обрабатывать прерывания грациозно, обеспечивая, чтобы разговор оставался связным и реагировал на потребности клиента. Достижение этого на уровне, сравнимом с человеческим взаимодействием, является сложной задачей, но имеет решающее значение для создания естественных и приятных разговорных опытов.

Решение, которое работает, требует от дизайнеров рассмотреть вопросы, такие как:

Как долго после того, как клиент перестал говорить, агент должен ждать, прежде чем решить, что клиент перестал говорить?
Зависит ли это от того, что клиент завершил полное предложение?
Что следует делать, если клиент прерывает агента?
В частности, должен ли агент предположить, что то, что он говорил, не было услышано клиентом?

Эти проблемы, имеющие в основном отношение к таймингу, требуют тщательного проектирования выше и за пределами того, что связано с получением LLM, чтобы дать правильный ответ.

Заключение

Эволюция AI-ориентированных голосовых систем обещает революционный сдвиг в динамике обслуживания клиентов, заменяя устаревшие телефонные системы передовыми LLM, ASR и TTS-технологиями. Однако преодоление вызовов в галлюцинированной информации и бесшовном окончании будет иметь решающее значение для обеспечения естественных и эффективных голосовых взаимодействий.

Автоматизация обслуживания клиентов имеет силу стать настоящим игроком для предприятий, но только если это сделано правильно. В 2024 году, особенно с всеми этими новыми технологиями, мы, наконец, можем построить системы, которые могут чувствовать себя естественными и плавными и надежно понимать нас. Чистый эффект уменьшит время ожидания и улучшит текущий опыт, который мы имеем с голосовыми ботами, отмечая трансформационную эпоху в вовлечении клиентов и качестве обслуживания.

Related Topics:thought leaders voice-based AI

Dr. Itamar Arel

Доктор Итамар Арел, в настоящее время являющийся генеральным директором в Tenyx, сочетает свой академический опыт как бывший профессор в Университете Теннесси и лаборатории искусственного интеллекта Стэнфордского университета с предпринимательским успехом, соосновав пионерские компании Binatix, Apprentice (приобретена McDonald’s и IBM) и Tenyx. Итамар недавно занимал должность корпоративного вице-президента и руководителя McD Tech Labs в корпорации McDonald’s и руководителя разговорного ИИ в IBM Watson Orders.

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI