Интервью
Джеймс Каплан, CEO и сооснователь MeetKai Metaverse – Интервью

Джеймс Каплан является CEO и сооснователем MeetKai, компании, занимающейся искусственным интеллектом, виртуальной реальностью и разговорным поиском, базирующейся в Лос-Анджелесе, Калифорния. В настоящее время компания лидирует в гонке речевых технологий ИИ с никогда ранее не виденными функциями. Ее разговорный ИИ может понимать более сложные речевые конструкции и предоставлять персонализированные результаты в естественной беседе на многие темы в различных реалиях. Технология MeetKai развернута во всем мире через iOS, Google Play и AppGallery.
У вас была страсть к ИИ с раннего возраста 6 лет, как вы впервые познакомились с этой технологией?
Мое знакомство с ИИ произошло через видеоигры. Сначала это было через попытки понять, как работает ИИ в игре Oregon Trail – не очень интеллектуальный, но все же форма ИИ. Оттуда мой интерес к ИИ вырос, когда я начал играть в MMORPG. Мне действительно нравилось играть в онлайн-игры, но я ненавидел сбор предметов. Поэтому я начал писать ботов.
Какие были некоторые из первых приложений ИИ, которые вы написали?
Написание ботов для MMO было моим первым шагом в разработку определенной формы ИИ. Сначала мои боты были довольно простыми и ближе к макросам, чем к искусственному интеллекту. Но когда я стал старше, и обнаружение ботов в многих играх стало лучше, это потребовало, чтобы боты выглядели все больше и больше как игроки. Мне всегда нравилось писать ботов – я даже написал бота, чтобы выиграть конкурс Тейлор Свифт, пока был в школе (и она действительно пришла выступить!). Также я написал первый бот для Pokémon Go и, к сожалению, получил многих людей забаненных, когда я потерял интерес к уклонению от обнаружения.
Вы запустили MeetKai в 2018 году после разочарования в текущих голосовых помощниках ИИ. Почему большинство помощников ИИ предлагают неудовлетворительный опыт?
Суть проблемы заключается в том, что большинство помощников ИИ слишком сильно полагаются на внешние API для выполнения запросов. Даже когда они контролируют выполнение, например, Alexa для поиска в электронной коммерции, они страдают от одних и тех же проблем. Просто говоря, как можно ожидать, что голосовой помощник будет умным, если все, что он делает, – это переводит речь в текст и помещает этот текст в текстовый поисковый движок? Мы начали MeetKai с идеей, что мы можем предоставить “прыжок” в развитии ИИ-помощника, контролируя весь конечный процесс обработки, который составляет голосовой помощник. Мы разработали разговорный поисковый движок, а не основанный на ключевых словах, чтобы поддержать более сложные запросы и разговоры. Другие помощники застряли в неудовлетворительном опыте, потому что они не могут построить поддержку многоходовых разговоров на основе таких ограничивающих факторов. Хотя наша цель – добраться туда, мы все еще находимся на очень ранней стадии масштабирования нашей технологии, чтобы выполнить то же количество доменов, что и существующие игроки.
Какие некоторые из естественного понимания языка и обработки языка задачи за построением передового голосового помощника?
Одной из основных задач следующего поколения NLU является переход за пределы намерений и сущностей. Большинство NLU сосредоточено на традиционном подходе к пониманию языка. Каждый входной запрос классифицируется по намерению, а затем токены внутри помечаются как сущности с помощью модели последовательной маркировки. Я мог бы перечислить десятки проблем с этим стандартным подходом. Однако наиболее критические из них:
- Классификация намерений, независимая от контекста, не может справиться с многоходовым разговором. Большинство подходов заботятся только о том, какой текст был транскрибирован. Они не заботятся о контексте – не о том, кто пользователь, не о том, что пользователь любит, только о том, что он только что спросил. Это особенно важно, когда пользователь говорит что-то краткое. Например, если кто-то говорит “космополит”, это может означать напиток или журнал и сильно зависит от человека.
- Модели распознавания сущностей делают плохую работу с чем-либо, что не является категориальным значением. Большие языковые модели не могут адаптироваться достаточно быстро к новым сущностям, которые есть в дикой природе, потому что они не находятся в наборе данных. ИИ нужно иметь гораздо более сложный способ распознавания сущностей, учитывая гораздо более глубокий контекст. Например, местоположение пользователя должно сильно влиять на то, является ли что-то названием ресторана или чем-то другим.
- Отношения между сущностями не хорошо учитываются. Мой любимый пример – это то, как часто большинство поисковых систем терпят неудачу, когда речь идет об отрицании. Попробуйте поискать фильм без романтики на других голосовых помощниках, и вы увидите, что я имею в виду.
В настоящее время большинство голосовых помощников просто переводят голос в текст и проводят поиск в Google. Как MeetKai AI работает по-другому?
Основное различие между MeetKai и Google, когда речь идет о поиске, заключается в том, что мы используем гораздо более богатую модель понимания языка, чтобы искать элементы сами по себе, а не только веб-страницы. Когда вы ищете “фильмы Тома Круза без действия”, Google ищет страницы, на которых появляется этот набор токенов (Том Круз, фильмы, действие). В MeetKai мы правильно понимаем, что Том Круз – актер, фильмы – класс медиа, который они ищут, и что действие – нежелаемый жанр. С этим мы можем проводить гораздо более умные поиски.
Meetkai недавно запустила свою первую лайфстайл-VR-мир: MeetKai Metaverse. Можете ли вы обсудить, что это за приложение?
Большинство компаний в области метаверса работают над взаимодействием человека с человеком. Помимо этого, контент также в основном либо карикатурный, либо представляет собой 360°-видео. Наша цель с MeetKai Metaverse – сосредоточиться на совершенно другом угле – человек-ИИ. Мы разрабатываем метаверс, где персонажи, с которыми вы взаимодействуете, все управляются нашей передовой разговорной ИИ. Кроме того, мы работаем над процедурной генерацией окружающей среды, чтобы сделать ее гораздо более реалистичной и погружающей по сравнению с другими компаниями в этой области. Два первых мира, доступных для исследования в нашем метаверсе, – это для двух первоначальных случаев использования: медитация и музеи. В первом мы оцифровали эксперта по Вин-Чун, и впервые мы создали ИИ-персонажа, который может обучать пользователей, как использовать революционные методы медитации, чтобы войти в состояние расслабления. Во втором мы создали постоянно растущий художественный музей и предоставили ИИ-куратора, способного отвечать на вопросы об искусстве в пространстве и предоставлять экскурсии.
Какие примеры использования ИИ в этом Метаверсе?
Мы используем ИИ в трех местах:
- Чтобы обеспечить разговорные возможности каждого персонажа в нашем метаверсе.
- Чтобы динамически создать контент, доступный пользователю через голосовое руководство. Примеры этого включают сеансы медитации и экскурсии по художественной галерее в наших первых двух опытах.
- Чтобы создать 3D-пространство процедурно, а не требовать ручной раскладки.
Каково ваше видение будущего голосовых помощников?
Чтобы голосовые помощники имели будущее, они должны эволюционировать в нечто гораздо более сложное, чем командная система. Это означает получение глубокой экспертизы и возможностей в многих конкретных доменах. Я думаю, что сбор различных домен-специфических голосовых помощников будет ключом к построению всестороннего интеллектуального мета-помощника. Это в резком контрасте с попытками “сделать все сразу”, которые мы видели с момента появления голосовых помощников в этой области.
Есть ли что-то еще, что вы хотели бы поделиться о MeetKai или MeetKai Metaverse?
Мы все еще находимся на очень ранней стадии нашей дорожной карты метаверса. Наша конечная цель – мы хотим быть в состоянии воспроизвести любой опыт, который у вас есть в реальном мире с метаверсом, и затем пойти дальше. Это означает, что мы хотим исключить стоимость и ограничения времени, которые ограничивают эти же опыт в реальности. Метаверс может позволить нам жить гораздо более богатой жизнью, а не заменять ее. У нас есть несколько технических задач, которые все еще нужно решить, однако у нас есть четкий набор вех, которые можно достичь, предполагая, что аппаратное обеспечение будет продолжать улучшаться. Мы тесно сотрудничаем с партнерами по аппаратному обеспечению, чтобы обеспечить быстрое продвижение VR-пространства. Помимо VR, мы хотим сделать наш опыт метаверса возможным вне VR. Мы будем объявлять больше информации об этом в ближайшие месяцы.
Спасибо за отличное интервью, я с нетерпением жду, чтобы следить за вашим прогрессом в вашей версии метаверса. Читатели, которые хотят узнать больше, должны посетить MeetKai.












