Интервью
Дэн О’Коннелл, главный стратегический директор в Dialpad – Интервью

Дэн является главным офицером по доходам в Dialpad. Ранее он был генеральным директором TalkIQ, стартапа по распознаванию речи и обработке естественного языка в реальном времени, который Dialpad приобрел в мае 2018 года. До TalkIQ он занимал различные руководящие должности в области продаж в AdRoll и Google.
Dialpad – это облачная платформа для коммуникаций, работающая на основе искусственного интеллекта, которая делает более простым и эффективным соединение и сотрудничество с вашей командой
Вы ранее были генеральным директором TalkIQ, стартапа по распознаванию речи и обработке естественного языка в реальном времени, который Dialpad приобрел в мае 2018 года. Какой был секрет успеха этого стартапа в технологии распознавания речи?
Это было сочетание нескольких факторов: время, люди и фокус. Технология автоматического распознавания речи (ASR) не нова, она существует уже десятилетия — намного дольше, чем люди думают. В течение этого времени (и, в частности, в последние пять лет) технология ASR получила выгоду от увеличения вычислительной мощности, облачных технологий, доступности наборов данных и массового внедрения умных колонок на рынке потребителей. Все эти факторы привели к увеличению точности транскрипций.
Кроме того, мы были удачливы, что смогли объединить специалистов (таких как лингвисты) с хакерами. И когда я говорю хакеры, я имею в виду инженеров, которые могут быстро выводить продукты на рынок — они стимулируют инновации и быстро решают проблемы. И хотя их решения могут не всегда быть самыми элегантными, они обычно являются самыми быстрыми и позволяют вам быть видимым как инноватор на переднем крае — что становится чем-то, что можно использовать с точки зрения маркетинга и продаж. Эта история хорошо звучит, когда вы строите свой стартап и пытаетесь привлечь деньги.
Итак, у нас были эксперты в этой области, естественные тенденции на рынке, огромный синий океан, когда речь идет об применении технологии в корпоративном секторе, и команда с опытом вывода инновационных технологий на рынок с повторяющимися движениями по выходу на рынок.
Наконец, мы подошли к решению проблемы с другой стороны. Традиционные двигатели транскрипции функционировали как записи на ленту. Вы записываете звонок; вы сохраняете аудиофайл; вы передаете его через свой двигатель транскрипции; и через некоторое время вы получаете свою выходную транскрипцию. Первоначально 30-минутный звонок занимал 30 минут для транскрипции, поэтому мы говорим о реальных задержках в масштабе.
Мы хотели решить эту проблему и построить двигатель транскрипции в реальном времени, который не требует аудиофайла. Это может показаться немного новым сегодня, но годы назад не было двигателя потоковой передачи, который мог обрабатывать аудио в реальном времени с низким качеством (т.е. не стерео качеством — 44кГц). Мы не хотели строить магнитофон.
Мы хотели построить двигатель в реальном времени, чтобы понять и проанализировать разговоры. Если мы могли бы сделать это, то возможности были бы бесконечными, потому что вы можете начать автоматизировать рабочие процессы и делать все sorts of интересных вещей, которые не были сделаны раньше. И большое спасибо Джиму Палмеру, Этьену Мандершайду, Кевину Джеймсу, Ноа Гаспару и многим другим за то, что они были первыми, кто построил такой реальный двигатель.
Можете ли вы обсудить переходный период после того, как Dialpad приобрел TalkIQ в мае 2018 года?
Фаза приобретения была фактически сверхгладкой. Dialpad был партнером TalkIQ, и наши команды продукта уже были на месте в Dialpad на еженедельной основе. И я ранее работал с сооснователями Крейгом Уокером и Брайаном Питерсоном в Google и был взволнован перспективой объединения с ними.
Мы все видели будущее одинаково, в том, что эти технологии (ASR/NLP), включенные в платформу коммуникаций и сотрудничества, могут быть разрушительными для рынка и игровыми для бизнеса. Это часть причины, почему почти сразу после закрытия приобретения мы привлекли 50 миллионов долларов в раунде финансирования под руководством ICONIQ. Инвесторы увидели возможность в будущем применении технологий и команды, работающей над этими проблемами.
В TalkIQ мы были по сути стартапом, пытающимся быть тремя разными стартапами одновременно: мы строили свою собственную стопку телефонии, двигатель распознавания речи и внутреннюю технологию NLP. Это три сложные проблемы, которые нужно решить. Dialpad уже успешно решил проблему телефонии, поэтому когда пришло предложение об приобретении, оно было легким решением. Мы рассматривали Dialpad как наиболее инновационную бизнес-платформу коммуникаций в этом пространстве, и наше видение будущего бизнес-коммуникаций очень хорошо совпадало.
Какие из различных технологий машинного обучения используются в Dialpad?
Наш собственный двигатель Voice Intelligence (Vi) использует ИИ и МО, чтобы помочь организациям стимулировать продажи, получать конкурентные идеи, повышать обслуживание клиентов и проводить более эффективные онлайн-встречи.
Технологии ASR и NLP от TalkIQ используются для приема разговоров из голосовых и видеозвонков в реальном времени. В то же время наша проприетарная технология позволяет нам обрабатывать входящие данные разговора и точно захватывать и транскрибировать их с отраслевым уровнем точности в легко читаемый формат.
Встроенное МО помогает Vi улучшаться со временем. Чем больше вы используете Vi, тем больше он учится и тем лучше он становится в обработке разговоров. Со временем транскрипции звонков будут увеличиваться в точности, и Vi сможет обрабатывать более тонкие нюансы разговоров.
Dialpad недавно достигла значительного рубежа ИИ после анализа более одного миллиарда минут голоса, и тесты показали, что модель транскрипции Dialpad превзошла основных конкурентов, включая улучшенную телефонную модель Google. Какие тесты были проведены, чтобы количественно оценить эти результаты?
У нас есть коллекция тестовых наборов, содержащих аудио и сопровождающую транскрипцию, которая считается эталонной истиной того, что было сказано в аудио. Мы отправляем одно и то же аудио каждому конкуренту и получаем транскрипцию обратно, которую мы затем сравниваем с эталонной истиной. Мы рассчитываем количество ошибок, чтобы определить процент точности. Мы сравниваем себя с Google с момента приобретения TalkIQ в апреле 2018 года и всегда имели более низкую точность, пока теперь.
Какие из ключевых различий между проприетарным двигателем Voice Intelligence (Vi) Dialpad и конкурирующими двигателями?
Одним из самых больших различий является то, что мы делаем это дольше, чем конкуренты, то есть мы проанализировали больше данных, чтобы обеспечить, что наша технология является наиболее точной. Мы проанализировали более одного миллиарда минут голосовой коммуникации и продолжаем обрабатывать примерно 90 миллионов минут в месяц с помощью нашего двигателя Vi. В этом отношении мы буквально находимся на годы впереди конкурентов.
Другим различием является наш индивидуальный и масштабируемый подход к языковым моделям. Для каждого клиента мы строим базу данных компаний-специфических ключевых слов, чтобы мы могли выполнять повышение ключевых слов для улучшения точности. Например, для пользователя, который пишет свое имя как “Кэтрин” и работает в компании под названием Skribbl, наша система будет правильно писать собственные имена, тогда как другие модели, вероятно, будут писать их так, как они звучат (т.е. “Кэтрин” и “скриббл”).
Каково ваше личное мнение о будущем обработки естественного языка? Как долго до тех пор, пока ИИ достигнет почти 100% или даже 100% точности?
Идеальная точность почти недостижима. Может быть, когда-нибудь я буду удивлен (я надеюсь так!). Я думаю, мы получим очень, очень близко, но не идеально. Причина в том, что автоматическое распознавание речи (и, следовательно, NLP) имеет почти бесконечные проблемы для решения: акценты, близость к микрофону, фоновый шум, проблемы с подключением, разные типы микрофонов, как быстро кто-то говорит, произношение, контекст (Сара против Сары против Серры), аббревиатуры, сленг и так далее. Хотя я хотел бы сказать, что мы доберемся туда, я думаю, мы можем добиться очень близко, но последняя миля, или 1-2% в плане точности, будет сложной.
Тем не менее, я думаю, что будут некоторые интересные разработки в области читаемости. Сегодня, когда вы просматриваете транскрипцию разговора, она может читаться как поток сознания. Мы естественно говорим в жидком виде, используем предложения, повторяем слова, перезапускаем предложения — мы делаем все sorts of вещей, которые мы не делаем в письменной форме. Есть некоторые уникальные возможности, когда речь идет о более читаемой версии транскрипции — той, которая удаляет избыточности, предсказывает или улучшает пунктуацию и тонко настраивает или оптимизирует транскрипцию, чтобы сделать ее более читаемой.
В моем уме есть две версии: вербатимная версия, которая является как можно ближе к 100% разговора (с повторениями и всем остальным), и затем есть улучшенная версия, которая намного легче переварить благодаря пунктуации и оптимизации.
И это затем ведет нас по пути к тому, можем ли мы синтезировать разговор до его наиболее значимых частей? Вам нужна полная транскрипция или вам нужен точный обзор, отформатированный для читаемости?
Это определенно зависит от вашего случая использования, но это то, что интересно и волнительно в этом пространстве. Мы находимся, может быть, в третьем иннинге того, что возможно, и мы еще не вошли в инновацию рабочих процессов, где мы увидим NLP, становящуюся более “контекстно-осведомленной”, как использование предыдущих разговоров для улучшения точности.
Чем более конкретный контекст имеют модели для обучения, тем лучше. Подумайте о том, чтобы поделиться этим же контекстом по нескольким разговорам и непрерывно адаптировать контекст для того, чтобы МО стал умнее. Контекстно-зависимая технология также важна для улучшения точности, учитывая огромные различия в том, как мы общаемся. То, что может показаться тонкими лингвистическими различиями для людей, очень сложно обучить модель МО для дублирования.
Какие услуги Dialpad в настоящее время предлагает клиентам?
Dialpad – это умный способ работать. Мы построили платформу для современной, гибридной рабочей силы — чтобы люди и команды были более эффективными, результативными и вовлеченными из любой точки мира. Мы предоставляем бесперебойный опыт бизнес-коммуникаций — звонки, чат, видеоконференции и колл-центры — с непревзойденным качеством, безопасностью и надежностью. Dialpad предлагает этот опыт как объединенную, облачную платформу, которая является экономичной, простой в развертывании и легкой в управлении.
Есть ли что-то еще, что вы хотели бы поделиться о Dialpad?
2020 год был монументальным для компании, что действительно удивительно, учитывая, что мир пережил (и продолжает переживать). Мы удвоили наш штат, обеспечили 100 миллионов долларов финансирования, приобрели компанию и сделали это, пока наша база клиентов росла экспоненциально.
С учетом того, что удаленная работа остается, мы ожидаем, что этот рост продолжится, и мы с нетерпением ждем года вперед. Мы считаем, что движение “работать откуда угодно” повысит потребность в инновационных технологиях, которые помогают сотрудникам работать умнее — а не усерднее. Компании будут обращаться к ИИ, чтобы оптимизировать эффективность, устранить скучные задачи и позволить сотрудникам сосредоточиться на более важных приоритетах. Dialpad хорошо подходит для удовлетворения этих потребностей.
Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить Dialpad.












