Искусственный интеллект

Викрант Томар, технический директор и основатель Fluent.ai – Серия интервью

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Викрант Томар является техническим директором и основателем Fluent.ai, программного обеспечения для понимания речи и голосового интерфейса для производителей устройств и сервис-провайдеров.

Что изначально привлекло вас к изучению акустического моделирования для распознавания речи?

На самом деле, это возможность говорить с устройствами так же, как мы говорим с другим человеком. Это видение меня увлекло. Я начал изучать распознавание речи в последнем году моего бакалавриата. Это также было время, когда я начал интересоваться исследованием, поэтому я взял курс по распознаванию речи и связанный исследовательский проект. Мне удалось опубликовать исследовательскую статью на конференции InterSpeech, одной из крупнейших и наиболее авторитетных конференций по распознаванию речи, на основе этой работы. Все это мотивировало меня выбрать исследование в области распознавания речи как долгосрочную цель, поэтому я выбрал PhD.

В 2015 году вы запустили Fluent.ai, можете ли вы рассказать историю создания этого стартапа?

У меня давно было желание стать предпринимателем. Я, вместе с двумя другими друзьями, попытался создать компанию после окончания бакалавриата, однако по нескольким причинам эта попытка не увенчалась успехом. Во время моего PhD в McGill, я следил за стартап-сценой в Монреале. В это время я также познакомился с людьми из TandemLaunch – стартап-фабрики, где я создал Fluent.ai. В это время я был gần окончания моего PhD, и я подумал о том, чтобы снова попробовать себя в предпринимательстве. Через мой опыт работы, исследования и связь с другими группами исследователей речи, я понял, что большинство этих опытов были сосредоточены на распознавании речи определенным образом: от речи к текстовой транскрипции, а затем к обработке естественного языка. Однако это оставило пробел в удобстве использования. Большая часть населения не может воспользоваться решениями, разработанными таким образом. Количество данных, необходимое для таких методов, так велико, что не имело смысла разрабатывать отдельные модели для языков с меньшим количеством говорящих. Кроме того, многие диалекты и языки не имеют четкой письменной формы. Даже моя собственная семья не могла использовать инструменты, разработанные мной (они говорят на диалекте хинди). Учитывая все это, я начал думать о разных способах создания моделей речи, где количество необходимых данных было меньше, и/или конечный пользователь мог сам обучать или обновлять модели. Я был знаком с работой, выполненной в KU Leuven University (KUL), которая могла удовлетворять некоторым из этих требований. С частью технологии, полученной из KUL, мы смогли сделать первые шаги к тому, что Fluent.ai является сегодня.

Можете ли вы рассказать об интуитивных решениях для понимания речи Fluent.ai?

Решения Fluent.ai для распознавания речи вдохновлены тем, как люди приобретают и распознают языки. Традиционные системы распознавания речи сначала транскрибируют входную речь в текст, а затем извлекают смысл из этого текста. Это не так, как люди распознают речь. Возьмем пример детей, которые еще не умеют читать и писать: несмотря на то, что они не знают ничего о письменной форме языка, они могут легко вести разговор. Аналогично, модели Fluent.ai на основе глубоких нейронных сетей могут直接 извлекать смысл из звуков речи без необходимости предварительной транскрипции в текст. Технически это истинное понимание устного языка. Есть несколько преимуществ этого подхода. Традиционное распознавание речи – это громоздкий подход, где несколько модулей, обученных отдельно, объединяются для предоставления окончательного ответа. Это приводит к неоптимальному решению, которое страдает от вариаций в результатах для акцентов, шума, фонового шума и т. д. Система автоматического распознавания намерений (AIR) Fluent.ai оптимизирована конец в конец; это полностью архитектура на основе нейронной сети, где все модули обучаются совместно для предоставления наиболее оптимального решения. Кроме того, мы можем удалить несколько вычислительно тяжелых модулей, обычно присутствующих в традиционных системах распознавания речи. Это позволяет нам создавать системы распознавания речи с низким потреблением памяти, которые могут работать всего лишь 40 КБ ОЗУ на низкомощном микроконтроллере, работающем на частоте 50 МГц. Наконец, наши системы понимания устного языка на основе AIR могут использовать сходства между различными языками уникальным образом для предоставления непревзойденных функций, таких как возможность распознавать несколько языков в одной модели.

Какие есть проблемы, связанные с искусственным интеллектом, при преодолении проблемы фонового шума?

Шум – одна из самых больших проблем для распознавания речи. Что делает ее действительно сложной проблемой, так это то, что существует много разных типов шума, и они влияют на спектр речи по-разному. Иногда шум также может повлиять на реакцию микрофона. Во многих случаях невозможно разделить источники речи от источников шума. В некоторых случаях шум может привести к маскировке информации, доступной в спектре речи, в то время как в других случаях он может полностью удалить полезную информацию. Оба результата приводят к низкой точности. Хотя легко удалить постоянные типы шума, такие как шум вентилятора, некоторые типы шума, такие как шум или люди, говорящие на фоне, или музыка, очень трудно удалить, потому что они влияют на спектр речи.

Можете ли вы определить, что такое Edge AI, и как Fluent.ai использует этот тип ИИ?

Edge AI – это термин, используемый для описания различных способов, которыми приложения ИИ могут быть перенесены на устройства с низкой мощностью. Все чаще этот термин используется для случаев, когда устройства на краю сети выполняют определенные интеллектуальные расчеты самостоятельно. В Fluent.ai мы сосредоточены на предоставлении высококачественного понимания устного языка на краю сети. Мы разработали эффективные алгоритмы, которые позволяют устройствам с низкой мощностью самостоятельно распознавать входную речь без необходимости отправлять данные на сервер в облаке для обработки. Преимущества двойные: во-первых, конфиденциальность пользователя не нарушается путем потоковой передачи и хранения их голосовых данных в облаке. Во-вторых, такой подход снижает задержку, поскольку речевые данные и ответ не должны путешествовать между сервером в облаке и устройством.

Какие другие типы технологий машинного обучения используются?

Наш основной фокус – это подходы, основанные на глубоком обучении, для распознавания речи. Мы используем методы RL (обучение с подкреплением), например, NASIL[1], для открытия новых, ранее неизвестных архитектур ИИ (в некотором смысле, ИИ, создающий ИИ). И мы используем AutoML для настройки наших предопределенных моделей ИИ для достижения надежных результатов для различных приложений, тем самым увеличивая надежность и воспроизводимость. Сжатие модели и другие математические подходы помогают еще больше оптимизировать производительность модели.

Что, по вашему мнению, произойдет в течение следующих 5 лет для обоих понимания естественного языка и обработки естественного языка?

Я думаю, что системы будут эволюционировать, чтобы обеспечить более естественные взаимодействия. Несмотря на прогресс в последние годы, большинство текущих систем могут либо только отвечать на простые запросы, либо выполнять голосовой поиск в Интернете. Мы увидим все больше и больше решений, которые могут рассуждать и отвечать на полный запрос человека, а не просто функционировать как голосовой поисковый движок.

Другой интересный аспект – это конфиденциальность. Текущие популярные решения в основном представляют собой устройства, подключенные к Интернету, которые передают все голосовые данные пользователя на сервер в облаке. Однако конфиденциальность таких решений становится проблемой. Мы также начинаем видеть применения голосового интерфейса за пределами потребительской электроники в промышленных условиях, в профессиональном аудиопространстве, а также в гостиничном и конференц-центрах. Одним из ключевых требований для этих приложений является конфиденциальность, поэтому текущие подключенные решения не удовлетворяют – поэтому мы увидим все больше и больше решений на основе Edge AI или на устройстве для понимания естественного языка.

Как я упоминал ранее, решения для речи и естественного языка остаются недоступными для большой части населения мира. Есть значительная работа, направленная на создание новых типов моделей ИИ, которые могут обучаться на небольшом количестве данных, что приводит к снижению затрат на разработку, и, в свою очередь, позволяет создавать модели для языков с меньшим количеством говорящих. Аналогично, мы увидим решения, которые могут распознавать несколько языков в одной модели. В целом, мы увидим все больше и больше развертываний многоязычных моделей ИИ, которые могут отвечать на запрос пользователя на его родном языке.

Есть ли что-то еще, что вы хотели бы поделиться о Fluent.ai?

Технология речи прошла долгий путь за последние несколько лет и имеет большой потенциал роста на пути вперед. В Fluent.ai мы всегда ищем новые случаи использования нашей существующей технологии, а также постоянно инновируем внутри. Пандемия COVID-19 создала повышенную чувствительность к высоко прикосновенным областям, таким как кнопки лифта, киоски в ресторанах и т. д., что вызвало новый спрос на голосовую технологию. Fluent.ai надеется помочь заполнить эти пробелы, поскольку наши решения являются многоязычными и, следовательно, более инклюзивными, и работают автономно, предлагая дополнительный уровень конфиденциальности. Эти функции, как упоминалось, вероятно, будут будущим технологии речи.

Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Unite.AI

Викрант Томар, технический директор и основатель Fluent.ai – Серия интервью

You may like