Интервью
Павел Осокин, сооснователь и CEO AMAI – Интервью-серия

Павел Осокин является сооснователем и CEO AMAI, Сан-Францисской стартапом, производящей AI-voice движки. Павел руководит операциями и стратегией Amai с профессиональной амбицией установить свою голосовую технологию на каждый телефон в мире. В AMAI они разработали AI-voice, который не может быть различим от реальной человеческой речи 97% пользователей.
Вы были предпринимателем всю жизнь, запустив свою первую компанию в 13 лет, что было вашим первым опытом в бизнесе и что мотивировало этот предпринимательский настрой?
Я не называл это компанией, но я заработал свои первые деньги, перепродавая вещи или просто洗ая машины на улице с ведром. Моя мотивация была в том, что я хотел Кока или Сникерса, и у моих родителей не было денег. Я мог либо ждать, пока деньги появятся, либо заработать их сам. Ждать мне не нравится.
Можете ли вы рассказать историю создания AMAI?
Я спросил своего партнера: “Что нужно компаниям во всем мире?” В этом разговоре я понял, что каждая компания ищет “продажу”. Мы начали создавать роботов, которые могли бы общаться с клиентами и продавать продукты через почту и мессенджеры. С другой стороны, это было не что-то особенно новое, поскольку существует много чат-ботов. Итак, мы подумали, что если эти роботы также могли бы делать звонки, это было бы круто. Поскольку на рынке было мало хороших решений, мы создали прототип нашего синтезированного голоса, и после первых продаж отказались от робота и сосредоточились на TTS.
Что именно означает AMAI?
Это означает “Я – ИИ” (I’m artificial intelligence).
Можете ли вы обсудить некоторые из проблем, связанных с проектированием передовой технологии Text-to-speech?
Проектирование передовой TTS предлагает несколько проблем. Первая из них – сбор наборов данных. Обучение нейронной сети требует женских и мужских голосов разного возраста, и чем больше, тем лучше. Второе – необходимо добиться очень близкого сходства с естественным голосом. Лучший метод – тестировать разные модели машинного обучения и постоянно экспериментировать с различными случаями использования голоса: в частности, необходимо найти наиболее проблемный образец и обработать его отдельно. Говоря о долгосрочных проблемах, может быть трудно оценить, стало ли голос лучше или хуже, и в каком направлении его следует улучшать.
Какие проблемы существуют при распознавании речи, когда люди взаимодействуют с голосовым ИИ AMAI?
Существует сотни компаний, работающих над распознаванием голоса, поскольку это проще разработать. Проблема, которая в настоящее время не имеет решения, – распознавание голоса ребенка. Дети имеют много характеристик речи в молодом возрасте, поэтому трудно учесть все они. Тем не менее, мы работаем над решением этой проблемы, и мы очень близки к объявлению результата – скоро наш ИИ не будет иметь проблем с взаимодействием не только со взрослыми, но и с детьми.
Какие популярные случаи использования AMAI?
На данный момент это дубляж аудиокниг и корпоративное использование в колл-центрах.
Какие языки в настоящее время предлагаются, и над какими языками в настоящее время работают?
Наша система с несколькими дикторами включает два языка, русский и английский. Идея заключается в том, что голос, созданный на одном языке, может говорить на всех других языках нашей модели. В настоящее время мы собираем данные для 40 других языков, и очень скоро у нас будет 42.
Каково ваше видение будущего голосовых помощников ИИ?
Я считаю, что голосовые помощники перейдут в метавселенную, и мы сейчас изучаем эти возможности. Если вы интегрируете помощника с умными колонками или веб-браузером, больше людей будут использовать голосовой поиск и взаимодействовать с помощником каждый день. Вы можете говорить со своим холодильником или телевизором.
Есть ли что-то еще, что вы хотели бы поделиться об AMAI?
AMAI использует только свои собственные проприетарные технологии.
Спасибо за интервью, читатели, которые хотят узнать больше, должны посетить AMAI.












