Искусственный интеллект
От Siri до ReALM: Путь Apple к более умным голосовым помощникам
С момента запуска Siri в 2011 году Apple последовательно была на переднем крае инноваций в области голосовых помощников, адаптируясь к глобальным потребностям пользователей. Введение ReALM означает значительную точку в этом пути, предлагая взгляд на эволюционирующую роль голосовых помощников в нашем взаимодействии с устройствами. Эта статья исследует влияние ReALM на Siri и потенциальные направления для будущих голосовых помощников.
Рост голосовых помощников: Происхождение Siri
Путь начался, когда Apple интегрировала Siri, сложную систему искусственного интеллекта, в свои устройства, преобразуя то, как мы взаимодействуем с нашей технологией. Происходящая из технологии, разработанной SRI International, Siri стала эталоном для голосовых помощников. Пользователи могли выполнять задачи, такие как поиск в Интернете и планирование, с помощью простых голосовых команд, расширяя границы разговорных интерфейсов и запуская конкурентную гонку на рынке голосовых помощников.
Siri 2.0: Новая эра голосовых помощников
Когда Apple готовится к выпуску iOS 18 на Мировой конференции разработчиков (WWDC) в июне 2024 года, в технологическом сообществе растет ожидание того, что это будет значительная эволюция Siri. Эта новая фаза, называемая Siri 2.0, обещает принести достижения в области генеративного ИИ на передний план, потенциально преобразуя Siri в еще более сложного виртуального помощника. Хотя точные улучшения остаются конфиденциальными, технологическое сообщество ажиотажно обсуждает перспективу того, что Siri достигнет новых высот в разговорной интеллекте и персонализированном взаимодействии с пользователем, используя такие же сложные языковые модели, как в технологиях типа ChatGPT. В этом контексте введение ReALM, компактной языковой модели, предполагает возможные улучшения, которые Siri 2.0 может принести своим пользователям. Следующие разделы будут обсуждать роль ReALM и его потенциальное влияние как важный шаг в продолжающемся совершенствовании Siri.
Представление ReALM
ReALM, что означает Reference Resolution As Language Modeling, представляет собой специализированную языковую модель, умело расшифровывающую контекстные и двусмысленные ссылки в разговорах, такие как “тот” или “это”. Она выделяется своей способностью обрабатывать разговорные и визуальные ссылки, преобразуя их в текстовый формат. Эта способность позволяет ReALM интерпретировать и взаимодействовать с экранными макетами и элементами без проблем внутри диалога, что является важной функцией для точной обработки запросов в визуально зависимых контекстах.
Архитектура ReALM варьируется от более мелких версий, таких как ReALM-80M, до более крупных, таких как ReALM-3B, оптимизированных для вычислительной эффективности для интеграции в мобильные устройства. Эта эффективность обеспечивает последовательную производительность с уменьшенным энергопотреблением и меньшей нагрузкой на вычислительные ресурсы, что важно для продления срока службы батареи и обеспечения быстрых ответов на различных устройствах.
Кроме того, дизайн ReALM предусматривает модульные обновления, облегчающие бесшовную интеграцию последних достижений в области разрешения ссылок. Этот модульный подход не только повышает адаптивность и гибкость модели, но также обеспечивает ее долгосрочную жизнеспособность и эффективность, позволяя ей удовлетворять меняющимся потребностям пользователей и технологическим стандартам в широком спектре устройств.
ReALM vs. Языковые модели
В то время как традиционные языковые модели, такие как GPT-3.5, в основном обрабатывают текст, ReALM идет по многомодальному пути, аналогично моделям, таким как Gemini, работая как с текстом, так и с визуальными данными. В отличие от более широких функций GPT-3.5 и Gemini, которые обрабатывают задачи, такие как генерация текста, понимание и создание изображений, ReALM в первую очередь ориентирован на расшифровку контекстных и визуальных контекстов. Однако, в отличие от многомодальных моделей, таких как Gemini, которые напрямую обрабатывают визуальные и текстовые данные, ReALM переводит визуальный контент экранов в текст, аннотируя сущности и их пространственные детали. Этот перевод позволяет ReALM интерпретировать контент экрана в текстовом виде, облегчая более точную идентификацию и понимание ссылок на экране.
Как ReALM может преобразовать Siri?
ReALM может существенно повысить возможности Siri, превратив ее в более интуитивный и контекстно-осведомленный помощник. Вот, как он может повлиять:
- Лучшее контекстное понимание: ReALM специализируется на расшифровке двусмысленных ссылок в разговорах, потенциально значительно улучшая способность Siri понимать контекстно-зависимые запросы. Это позволит пользователям взаимодействовать с Siri более естественно, поскольку она сможет понять ссылки, такие как “воспроизвести эту песню снова” или “позвонить ей”, без дополнительных деталей.
- Улучшенное взаимодействие с экраном: Благодаря своей способности интерпретировать макеты экрана и элементы внутри диалогов, ReALM может позволить Siri более без проблем интегрироваться с визуальным контентом устройства. Siri сможет выполнять команды, связанные с элементами на экране, такими как “открыть приложение рядом с Почтой” или “прокрутить вниз на этой странице”, расширяя ее полезность в различных задачах.
- Персонализация: Изучая предыдущие взаимодействия, ReALM может улучшить способность Siri предлагать персонализированные и адаптивные ответы. Со временем Siri может предсказать потребности и предпочтения пользователя, предлагая или инициируя действия на основе прошлого поведения и контекстного понимания, подобно знающему личному помощнику.
- Улучшенная доступность: Способности ReALM по контекстному и ссылочному пониманию могут существенно выиграть от доступности, делая технологии более инклюзивными. Siri, оснащенная ReALM, может точно интерпретировать неясные или частичные команды, облегчая более естественное и простое использование устройств людьми с физическими или зрительными нарушениями.
ReALM и стратегия Apple в области ИИ
Запуск ReALM отражает ключевой аспект стратегии Apple в области ИИ, подчеркивающий интеллект на устройстве. Это развитие соответствует более широкой тенденции отрасли в области edge-вычислений, где данные обрабатываются локально на устройствах, снижая задержку, экономя пропускную способность и защищая пользовательские данные на самом устройстве.
Проект ReALM также демонстрирует более широкие цели Apple в области ИИ, фокусирующиеся не только на выполнении команд, но и на более глубоком понимании и предсказании потребностей пользователей. ReALM представляет собой шаг к будущим инновациям, где устройства могут предоставлять более персонализированную и прогностическую поддержку, информированную глубоким пониманием привычек и предпочтений пользователей.
Итог
Развитие Apple от Siri до ReALM подчеркивает продолжающуюся эволюцию в технологии голосовых помощников, фокусируясь на улучшении контекстного понимания и взаимодействия с пользователем. ReALM означает сдвиг в сторону более интеллектуальной, персонализированной и ориентированной на конфиденциальность голосовой помощи, соответствуя тенденции отрасли в области edge-вычислений для улучшения обработки и безопасности на устройстве.












