Интервью

Никола Мркшич, сооснователь и генеральный директор PolyAI – Интервью

Published February 18, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Никола Мркшич является сооснователем и генеральным директором PolyAI, ведущего поставщика готовых к использованию в предприятиях голосовых помощников для автоматизированного обслуживания клиентов.

Что изначально привлекло вас к ИИ?

Я интересовался математикой и компьютерными науками с раннего возраста. Во время моих студенческих лет в Кембридже, я получил возможность работать с несколькими ведущими исследователями в области машинного обучения, включая Стива Янга и Зубина Гахрамани. Стив убедил меня присоединиться к его стартапу, VocalIQ, для работы над созданием систем диалога на основе речи. Позже, я также защитил докторскую диссертацию под руководством Стива, работая над созданием моделей понимания языка на основе данных, которые работают в разных случаях и языках. Конверсационный ИИ – это действительно сложная и трудная область работы, с множеством научных и инженерных прорывов впереди, и она держит меня в напряжении с тех пор.

В 2017 году вы запустили PolyAI, компанию, занимающуюся конверсационным ИИ, можете ли вы рассказать историю о создании PolyAI?

Мои сооснователи, Шон Вен, Эдди Су и я сделали свои докторские диссертации в Кембридже в одно и то же время. Мы работали над системами диалога в течение многих лет, но вскоре осознали, что виды сложных систем, над которыми мы работали, имели очень мало коммерческих применений. Итак, мы собрались вместе, чтобы создать решение конверсационного ИИ, которое было бы полезно в реальном мире. Мы увидели возможность для действительно конверсационных, многоходовых, транзакционных систем диалога, которые могли бы взаимодействовать с реальными людьми в повседневной жизни.

Мы сосредоточились на обслуживании клиентов, поскольку чувствовали, что текущие технологические возможности и требования клиентов хорошо соответствовали друг другу.

Можете ли вы рассказать о некоторых технологиях машинного обучения и обработки естественного языка, которые используются?

Наш основной секрет – это наш набор различных проприетарных моделей кодирования. Мы предварительно обучили их на миллиардах естественных разговоров, поэтому они могут извлекать намерения даже тогда, когда входная речь использует сленг или идиомы, например. Это невероятно важно для общения по телефону. Клиенты не говорят на ключевых словах; они рассказывают истории, перебивают, задают вопросы и вообще просто хотят взять под контроль разговор.

Мы недавно объявили о нашем модели ConVEx, чрезвычайно эффективном извлекателе сущностей, который позволяет нам точно извлекать значения из разговоров.

Наш процесс оркестровки распознавания речи включает в себя тонкую настройку платформ распознавания речи для нейтрализации шума, вызванного разными акцентами, а также тонкую настройку для разных контекстов.

Мы также разработали довольно прочную библиотеку политики диалога с предустановленными случаями использования, которые включают все общие транзакции обслуживания клиентов, поэтому мы можем быстро запустить новый голосовой помощник для клиентов.

По вашему мнению, что отличает хороший конверсационный ИИ-продукт от плохого?

Хороший продукт будет последовательно понимать, что пользователи имеют в виду, и никогда не заставит пользователей повторять себя. Звонки часто происходят в шумной среде, поэтому продукты должны быть устойчивыми к запутанным входным данным. Когда бренды выходят на большие рынки, продукты должны понимать разнообразие акцентов и способов формулирования намерений. Оба этих требования требуют от продуктов гарантировать прочные возможности распознавания речи, устойчивую классификацию намерений и извлечение сущностей.

Отличный продукт будет активно привлекать пользователей. Он будет следовать за мыслями пользователя и сможет справиться с сложными, повседневными случаями, когда пользователи могут делиться несколькими намерениями и фрагментами информации одновременно, и они могут прыгать между разными контекстами. Для этого требуется прочная классификация с несколькими метками и управление контекстом.

Привлекательный продукт будет демонстрировать человеческие характеристики, не будучи неестественным или слишком роботизированным. Это означает быстрые взаимодействия, подлинные голоса, непрерывные сигналы обратной связи и определенная степень случайности и несовершенства.

Наконец, отличный конверсационный ИИ-продукт будет взаимодействовать с пользователями, где бы они ни были, и предлагать бесперебойный, специфичный для платформы опыт, который может охватывать голос, SMS, чат или социальные платформы обмена сообщениями. Парадигма взаимодействия должна принять специфику каждой платформы связи.

Каковы некоторые преимущества использования конверсационного ИИ вместо попыток направить запросы на чат-боты?

Опыт клиента имеет решающее значение и стал ключевым фактором для удержания. Главным приоритетом должно быть облегчение клиентам выполнения того, что им нужно сделать.

Телефон все еще является наиболее предпочтительным каналом для контакта с компанией для большинства клиентов. До 65% всех взаимодействий с клиентами все еще происходят по телефону. Во время пандемии COVID-19 контактные центры были вынуждены работать в экстремальных условиях, с большим количеством клиентов, чем когда-либо, звонящих за поддержкой.

Конечно, отличный опыт позволяет клиентам общаться так, как им нравится, поэтому для тех, кто предпочитает асинхронную связь, мы делаем простым для брендов предложить тот же уровень опыта на текстовых каналах.

Насколько сложно обнаружить намерение того, что пытается сказать клиент?

Существует ряд проблем с пониманием клиентов через голосовые каналы. Точно и последовательно понимать смысл пользователей требует совместной работы многих компонентов.

Во-первых, распознавание речи является сложным, особенно когда люди звонят из шумной среды, например, когда они находятся на громкой связи или когда едут через трафик или туннели. Распознавание речи также может быть сложным в регионах с разными акцентами и диалектами. Мы разработали эффективный способ предвзятости моделей распознавания речи для данного контекста, чтобы оптимизировать распознавание речи.

Поскольку наша модель ConveRT была обучена на таком огромном количестве разговорных данных, она может обнаружить намерения на слабых сигналах, как и мы, люди, обычно понимаем, что кто-то говорит, даже если мы пропустим слово или два.

Другим фактором является понимание, когда пользователи хотят выполнить несколько действий одновременно. Например, кто-то может сказать: “Я потерял свою карту. Можете ли вы сказать мне, была ли она использована и заблокировать ее?”. В этом случае модель должна распознать два намерения и действовать на них в порядке, который имеет смысл.

Модель также должна быть в состоянии извлечь и понять сущности, предоставляемые клиентами. Например, “У вас есть столик на субботний обед для меня, моей жены и наших 2 детей?”. Поверхностное намерение здесь – проверка наличия столика, но модель должна вычленить дату (субботу) и количество людей (4) и любую другую потенциальную информацию, которая может быть актуальной (например, дети разрешены только в ресторанном зале и не могут сидеть за баром).

Наконец, разговор не всегда линеен. Клиенты могут перебивать с вопросами, не связанными с приглашением голосового помощника, поэтому помощник должен быть в состоянии “слушать” один тип входных данных, оставаясь открытым для разных триггеров, таких как часто задаваемые вопросы или изменения информации, ранее предоставленной пользователем.

Какой процесс и сроки необходимы для компании, которая хочет запустить конверсационного ИИ-бота с PolyAI?

Мы здесь, чтобы предоставить голосовых помощников, которые имеют осязаемое бизнес-воздействие. Итак, мы начинаем каждое взаимодействие с открытия, где мы помогаем клиентам определить и сформулировать свои цели CX, ключевые метрики и процессы поддержки. Это то место, где мы очерчиваем пути, по которым голосовой помощник будет направлять клиентов.

Оттуда мы можем разработать голосового помощника с очень небольшим входом, необходимым от клиента, поэтому это не требует больших усилий от внутренних команд ИТ.

В зависимости от сложности, мы можем запустить доказательство ценности за всего 2 недели, а полноценное развертывание – за 2 месяца.

Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить PolyAI.

Antoine Tardif, CEO & Founder of Unite.AI

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.

Unite.AI

Никола Мркшич, сооснователь и генеральный директор PolyAI – Интервью

You may like