Искусственный интеллект
От Siri до ReALM: путь Apple к более умным голосовым помощникам
С момента запуска Siri в 2011 году компания Apple неизменно занимает лидирующие позиции в области инноваций в области голосовых помощников, адаптируясь к потребностям пользователей по всему миру. Внедрение ReALM знаменует собой важный этап на этом пути, позволяя взглянуть на меняющуюся роль голосовых помощников в нашем взаимодействии с устройствами. В этой статье рассматривается влияние ReALM на Siri и потенциальные направления развития голосовых помощников в будущем.
Расцвет голосовых помощников: рождение Siri
Путь начался, когда Apple интегрировала Siri, сложную систему искусственного интеллекта, в свои устройства, изменив то, как мы взаимодействуем с нашими технологиями. Созданный на основе технологии, разработанной SRI InternationalSiri стала золотым стандартом для голосовых помощников. Пользователи могли выполнять такие задачи, как поиск в Интернете и планирование, с помощью простых голосовых команд, расширяя границы диалоговых интерфейсов и разжигая конкурентную гонку на рынке голосовых помощников.
Siri 2.0: новая эра голосовых помощников
Пока Apple готовится к выпуску Система IOS 18 на Всемирная конференция разработчиков (WWDC) В июне 2024 года в технологическом сообществе нарастают ожидания того, что, как ожидается, станет значительной эволюцией Siri. Этот новый этап, получивший название 2.0 серия, обещает вывести на первый план достижения в области генеративного искусственного интеллекта, потенциально превратив Siri в еще более сложного виртуального помощника. Хотя точные улучшения остаются конфиденциальными, мир технологий гудит от перспективы того, что Siri достигнет новых высот в области разговорного интеллекта и персонализированного взаимодействия с пользователем, используя сложные модели изучения языка, которые можно увидеть в таких технологиях, как ChatGPT. В этом контексте появление ReALM, компактной языковой модели, предполагает возможные улучшения, которые Siri 2.0 может предложить своим пользователям. В следующих разделах будет обсуждаться роль ReALM и его потенциальное влияние как важного шага в постоянном развитии Siri.
Представляем ReALM
ReALM, что означает «Разрешение ссылок как языковое моделирование», представляет собой специализированную языковую модель, предназначенную для расшифровки контекстных и неоднозначных ссылок во время разговоров, таких как «тот» или «это». Он выделяется своей способностью обрабатывать разговорные и визуальные ссылки, преобразуя их в текстовый формат. Эта возможность позволяет ReALM беспрепятственно интерпретировать и взаимодействовать с макетами экрана и элементами в диалоге, что является важной функцией для точной обработки запросов в визуально зависимых контекстах.
Архитектура ReALM варьируется от меньших версий, таких как ReALM-80M, до более крупных, таких как ReALM-3B, оптимизированных для обеспечения эффективности вычислений для интеграции в мобильные устройства. Такая эффективность обеспечивает стабильную производительность при меньшем энергопотреблении и меньшей нагрузке на вычислительные ресурсы, что важно для продления срока службы батареи и обеспечения быстрого отклика на различных устройствах.
Более того, конструкция ReALM допускает модульные обновления, что обеспечивает бесшовную интеграцию новейших достижений в области эталонного разрешения. Этот модульный подход не только повышает адаптивность и гибкость модели, но и обеспечивает её долгосрочную жизнеспособность и эффективность, позволяя ей соответствовать меняющимся потребностям пользователей и технологическим стандартам для широкого спектра устройств.
ReALM против языковых моделей
В то время как традиционные языковые модели, такие как GPT-3.5 В основном обрабатывая текст, ReALM использует мультимодальный путь, подобно моделям вроде Gemini, работая как с текстом, так и с визуальными эффектами. В отличие от более широких функций GPT-3.5 и Gemini, который решает такие задачи, как генерация текста, понимание и создание изображений, ReALM особенно нацелен на расшифровку разговорного и визуального контекстов. Однако в отличие от мультимодальных моделей, таких как Gemini, которые напрямую обрабатывают визуальные и текстовые данные, ReALM переводит визуальное содержимое экранов в текст, аннотируя объекты и их пространственные детали. Это преобразование позволяет ReALM интерпретировать содержимое экрана в текстовой форме, способствуя более точной идентификации и пониманию ссылок на экране.
Как ReALM может изменить Siri?
ReALM может значительно расширить возможности Siri, превратив её в более интуитивно понятного и контекстно-зависимого помощника. Вот как это может повлиять:
- Лучшее контекстное понимание: ReALM специализируется на расшифровке неоднозначных фраз в разговорах, что потенциально значительно улучшает способность Siri понимать контекстно-зависимые запросы. Это позволит пользователям взаимодействовать с Siri более естественно, поскольку система сможет распознавать такие фразы, как «включи эту песню ещё раз» или «позвони ей», без дополнительных деталей.
- Улучшенное взаимодействие с экраном: Благодаря своей способности интерпретировать макеты экрана и элементы диалогов, ReALM может позволить Siri более эффективно интегрироваться с визуальным контентом устройства. Siri сможет выполнять команды, связанные с элементами на экране, например, «открыть приложение рядом с Почтой» или «прокрутить эту страницу вниз», расширяя возможности Siri в решении различных задач.
- Персонализация: Извлекая уроки из предыдущих взаимодействий, ReALM может улучшить способность Siri предлагать персонализированные и адаптивные ответы. Со временем Siri может предсказывать потребности и предпочтения пользователя, предлагая или инициируя действия на основе прошлого поведения и контекстного понимания, подобно знающему личному помощнику.
- Улучшенная доступность: Возможности контекстного и эталонного понимания ReALM могут значительно улучшить доступность, сделав технологию более инклюзивной. Siri, работающая на базе ReALM, может точно интерпретировать расплывчатые или частичные команды, облегчая и делая более естественным использование устройства людьми с физическими нарушениями или нарушениями зрения.
ReALM и стратегия Apple в области искусственного интеллекта
Запуск ReALM отражает ключевой аспект стратегии Apple в области искусственного интеллекта, делающий акцент на интеллектуальных возможностях устройств. Это развитие соответствует более широкой отраслевой тенденции периферийных вычислений, где данные обрабатываются локально на устройствах, что позволяет сократить задержки, экономить пропускную способность и защищать пользовательские данные непосредственно на устройстве.
Проект ReALM также демонстрирует более широкие цели Apple в области искусственного интеллекта, фокусируясь не только на выполнении команд, но и на более глубоком понимании и прогнозировании потребностей пользователей. ReALM — это шаг к будущим инновациям, в которых устройства смогут предоставлять более персонализированную и прогнозируемую поддержку, основанную на глубоком понимании привычек и предпочтений пользователей.
Выводы
Переход Apple от Siri к ReALM демонстрирует продолжающуюся эволюцию технологий голосовых помощников, ориентированную на улучшение понимания контекста и взаимодействия с пользователем. ReALM знаменует собой переход к более интеллектуальным, персонализированным и конфиденциальным голосовым помощникам, что соответствует отраслевому тренду на периферийные вычисления для улучшения обработки данных на устройствах и повышения безопасности.










