заглушки От Siri до ReALM: путь Apple к более умным голосовым помощникам - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

От Siri до ReALM: путь Apple к более умным голосовым помощникам

mm

опубликованный

 on

С момента запуска Siri в 2011 году компания Apple постоянно находится в авангарде инноваций в области голосовых помощников, адаптируясь к глобальным потребностям пользователей. Внедрение ReALM знаменует собой важный момент на этом пути, позволяя взглянуть на развивающуюся роль голосовых помощников в нашем взаимодействии с устройствами. В этой статье рассматривается влияние ReALM на Siri и потенциальные направления для будущих голосовых помощников.

Расцвет голосовых помощников: рождение Siri

Путь начался, когда Apple интегрировала Siri, сложную систему искусственного интеллекта, в свои устройства, изменив то, как мы взаимодействуем с нашими технологиями. Созданный на основе технологии, разработанной SRI InternationalSiri стала золотым стандартом для голосовых помощников. Пользователи могли выполнять такие задачи, как поиск в Интернете и планирование, с помощью простых голосовых команд, расширяя границы диалоговых интерфейсов и разжигая конкурентную гонку на рынке голосовых помощников.

Siri 2.0: новая эра голосовых помощников

Пока Apple готовится к выпуску Система IOS 18 на Всемирная конференция разработчиков (WWDC) В июне 2024 года в технологическом сообществе нарастают ожидания того, что, как ожидается, станет значительной эволюцией Siri. Этот новый этап, получивший название 2.0 серия, обещает вывести на первый план достижения в области генеративного искусственного интеллекта, потенциально превратив Siri в еще более сложного виртуального помощника. Хотя точные улучшения остаются конфиденциальными, мир технологий гудит от перспективы того, что Siri достигнет новых высот в области разговорного интеллекта и персонализированного взаимодействия с пользователем, используя сложные модели изучения языка, которые можно увидеть в таких технологиях, как ChatGPT. В этом контексте появление ReALM, компактной языковой модели, предполагает возможные улучшения, которые Siri 2.0 может предложить своим пользователям. В следующих разделах будет обсуждаться роль ReALM и его потенциальное влияние как важного шага в постоянном развитии Siri.

Представляем ReALM

ReALM, что означает «Разрешение ссылок как языковое моделирование», представляет собой специализированную языковую модель, предназначенную для расшифровки контекстных и неоднозначных ссылок во время разговоров, таких как «тот» или «это». Он выделяется своей способностью обрабатывать разговорные и визуальные ссылки, преобразуя их в текстовый формат. Эта возможность позволяет ReALM беспрепятственно интерпретировать и взаимодействовать с макетами экрана и элементами в диалоге, что является важной функцией для точной обработки запросов в визуально зависимых контекстах.

Архитектура ReALM варьируется от меньших версий, таких как ReALM-80M, до более крупных, таких как ReALM-3B, оптимизированных для обеспечения эффективности вычислений для интеграции в мобильные устройства. Такая эффективность обеспечивает стабильную производительность при меньшем энергопотреблении и меньшей нагрузке на вычислительные ресурсы, что важно для продления срока службы батареи и обеспечения быстрого отклика на различных устройствах.

Кроме того, конструкция ReALM допускает модульные обновления, облегчающие интеграцию последних достижений в области эталонного разрешения. Этот модульный подход не только повышает адаптируемость и гибкость модели, но также обеспечивает ее долгосрочную жизнеспособность и эффективность, позволяя ей соответствовать меняющимся потребностям пользователей и технологическим стандартам для широкого спектра устройств.

ReALM против языковых моделей

В то время как традиционные языковые модели, такие как GPT-3.5 В основном обрабатывая текст, ReALM использует мультимодальный путь, подобно моделям вроде Gemini, работая как с текстом, так и с визуальными эффектами. В отличие от более широких функций GPT-3.5 и Gemini, который решает такие задачи, как генерация текста, понимание и создание изображений, ReALM особенно нацелен на расшифровку разговорного и визуального контекстов. Однако в отличие от мультимодальных моделей, таких как Gemini, которые напрямую обрабатывают визуальные и текстовые данные, ReALM переводит визуальное содержимое экранов в текст, аннотируя объекты и их пространственные детали. Это преобразование позволяет ReALM интерпретировать содержимое экрана в текстовой форме, способствуя более точной идентификации и пониманию ссылок на экране.

Как ReALM может изменить Siri?

ReALM может значительно расширить возможности Siri, превратив его в более интуитивно понятного и контекстно-зависимого помощника. Вот как это может повлиять:

  • Лучшее контекстное понимание: ReALM специализируется на расшифровке двусмысленных ссылок в разговорах, что потенциально значительно улучшает способность Siri понимать контекстно-зависимые запросы. Это позволит пользователям более естественно взаимодействовать с Siri, поскольку она сможет воспринимать такие ссылки, как «включи эту песню еще раз» или «позвони ей» без дополнительных подробностей.
  • Улучшенное взаимодействие с экраном: Благодаря своему мастерству в интерпретации макетов экрана и элементов диалогов, ReALM может позволить Siri более плавно интегрироваться с визуальным контентом устройства. Затем Siri могла выполнять команды, связанные с элементами на экране, например «открыть приложение рядом с почтой» или «прокрутить эту страницу вниз», расширяя свою полезность при выполнении различных задач.
  • Персонализация: Извлекая уроки из предыдущих взаимодействий, ReALM может улучшить способность Siri предлагать персонализированные и адаптивные ответы. Со временем Siri может предсказывать потребности и предпочтения пользователя, предлагая или инициируя действия на основе прошлого поведения и контекстного понимания, подобно знающему личному помощнику.
  • Улучшенная доступность: Возможности контекстного и эталонного понимания ReALM могут значительно улучшить доступность, сделав технологию более инклюзивной. Siri, работающая на базе ReALM, может точно интерпретировать расплывчатые или частичные команды, облегчая и делая более естественным использование устройства людьми с физическими нарушениями или нарушениями зрения.

ReALM и стратегия Apple в области искусственного интеллекта

Запуск ReALM отражает ключевой аспект стратегии Apple в области искусственного интеллекта, делая упор на интеллект на устройстве. Эта разработка согласуется с более широкой отраслевой тенденцией периферийных вычислений, когда данные обрабатываются локально на устройствах, что снижает задержку, экономит полосу пропускания и защищает пользовательские данные на самом устройстве.

Проект ReALM также демонстрирует более широкие цели Apple в области искусственного интеллекта, фокусируясь не только на выполнении команд, но и на более глубоком понимании и прогнозировании потребностей пользователей. ReALM представляет собой шаг к будущим инновациям, в которых устройства смогут предоставлять более персонализированную и прогнозируемую поддержку, основанную на глубоком понимании привычек и предпочтений пользователей.

Выводы

Переход Apple от Siri к ReALM подчеркивает продолжающуюся эволюцию технологии голосовых помощников с упором на улучшение понимания контекста и взаимодействия с пользователем. ReALM означает переход к более интеллектуальной, персонализированной и конфиденциальной голосовой помощи, что соответствует отраслевой тенденции периферийных вычислений для улучшенной обработки и безопасности на устройстве.

Доктор Техсин Зия — штатный доцент Университета COMSATS в Исламабаде, имеет докторскую степень в области искусственного интеллекта, полученную в Венском технологическом университете, Австрия. Специализируясь на искусственном интеллекте, машинном обучении, науке о данных и компьютерном зрении, он внес значительный вклад, публикуя публикации в авторитетных научных журналах. Доктор Техсин также руководил различными промышленными проектами в качестве главного исследователя и консультанта по искусственному интеллекту.