Зв'язатися з нами

Від Siri до ReALM: шлях Apple до розумніших голосових помічників

Штучний Інтелект

Від Siri до ReALM: шлях Apple до розумніших голосових помічників

mm

З моменту запуску Siri у 2011 році Apple незмінно була в авангарді інновацій у сфері голосових помічників, адаптуючись до глобальних потреб користувачів. Представлення ReALM знаменує важливий момент у цій подорожі, пропонуючи зазирнути в еволюцію ролі голосових помічників у нашій взаємодії з пристроями. У цій статті розглядається вплив ReALM на Siri та потенційні напрямки для майбутніх голосових помічників.

Поява голосових помічників: Siri's Genesis

Подорож почалася, коли Apple інтегрувала Siri, складну систему штучного інтелекту, у свої пристрої, змінивши спосіб нашої взаємодії з нашими технологіями. Походить від технології, розробленої SRI International, Siri стала золотим стандартом для голосових помічників. Користувачі можуть виконувати такі завдання, як пошук в Інтернеті та планування за допомогою простих голосових команд, розширюючи межі розмовних інтерфейсів і розпалюючи конкурентну гонку на ринку голосових помічників.

Siri 2.0: нова ера голосових помічників

Поки Apple готується до випуску Система IOS 18 в Всесвітня конференція розробників (WWDC) У червні 2024 року в технічній спільноті зростає очікування того, що, як очікується, стане значною еволюцією Siri. Ця нова фаза, яка називається Сірі 2.0, обіцяє вивести генеративні досягнення ШІ на передній план, потенційно перетворивши Siri на ще більш складного віртуального помічника. Хоча точні вдосконалення залишаються конфіденційними, світ технологій вирує з перспективи досягнення Siri нових висот у розмовному розумінні та персоналізованій взаємодії з користувачем, використовуючи складні моделі вивчення мови, які можна побачити в таких технологіях, як ChatGPT. У цьому контексті впровадження ReALM, компактної мовної моделі, передбачає можливі вдосконалення, які Siri 2.0 може представити своїм користувачам. У наступних розділах буде обговорено роль ReALM і його потенційний вплив як важливого кроку в поточному розвитку Siri.

Розкриття ReALM

ReALM, що розшифровується як Reference Resolution As Language Modeling, є спеціалізованою мовною моделлю, здатною розшифровувати контекстуальні та неоднозначні посилання під час розмов, наприклад «той» або «цей». Він виділяється своєю здатністю обробляти розмовні та візуальні посилання, перетворюючи їх у текстовий формат. Ця можливість дозволяє ReALM інтерпретувати та взаємодіяти з макетами екрана та елементами в межах діалогу, що є важливою функцією для точної обробки запитів у візуально залежних контекстах.

Архітектура ReALM варіюється від менших версій, таких як ReALM-80M, до більших, таких як ReALM-3B, оптимізованих для обчислювальної ефективності для інтеграції в мобільні пристрої. Ця ефективність забезпечує постійну продуктивність зі зниженим енергоспоживанням і меншим навантаженням на ресурси обробки, що важливо для подовження терміну служби батареї та забезпечення швидкого часу відгуку на різноманітних пристроях.

Крім того, дизайн ReALM підтримує модульні оновлення, що полегшує бездоганну інтеграцію останніх досягнень еталонної роздільної здатності. Цей модульний підхід не тільки підвищує адаптивність і гнучкість моделі, але й забезпечує її довгострокову життєздатність і ефективність, дозволяючи їй задовольняти мінливі потреби користувачів і технологічні стандарти в широкому спектрі пристроїв.

ReALM проти мовних моделей

Хоча традиційні мовні моделі подобаються GPT-3.5 переважно обробляючи текст, ReALM використовує мультимодальний шлях, подібний до таких моделей, як Gemini, працюючи як з текстом, так і з візуальними елементами. На відміну від більш широких функцій GPT-3.5 і Gemini, які виконують такі завдання, як створення тексту, розуміння та створення зображень, ReALM особливо спрямований на розшифровку розмовного та візуального контекстів. Однак, на відміну від мультимодальних моделей, таких як Gemini, які безпосередньо обробляють візуальні та текстові дані, ReALM перетворює візуальний вміст екранів у текст, анотуючи сутності та їхні просторові деталі. Це перетворення дозволяє ReALM інтерпретувати вміст екрана в текстовому вигляді, сприяючи точнішій ідентифікації та розумінню посилань на екрані.

Як ReALM може змінити Siri?

ReALM може значно розширити можливості Siri, перетворивши її на більш інтуїтивно зрозумілого помічника з урахуванням контексту. Ось як це може вплинути:

  • Краще розуміння контексту: ReALM спеціалізується на розшифровці неоднозначних посилань у розмовах, потенційно значно покращуючи здатність Siri розуміти контекстно-залежні запити. Це дозволить користувачам взаємодіяти з Siri більш природно, оскільки вона зможе сприймати посилання на зразок «відтвори цю пісню ще раз» або «зателефонуй їй» без додаткових деталей.
  • Покращена взаємодія з екраном: Завдяки своїй майстерності в інтерпретації макетів екрана та елементів у діалогах ReALM може дозволити Siri більш плавно інтегруватися з візуальним вмістом пристрою. Потім Siri могла виконувати команди, пов’язані з елементами на екрані, наприклад «відкрити програму біля «Пошти» або «прокрутити сторінку вниз», розширюючи свою корисність у різних завданнях.
  • Персоналізація : на основі попередньої взаємодії ReALM може покращити здатність Siri пропонувати персоналізовані та адаптивні відповіді. З часом Siri може передбачати потреби та вподобання користувачів, пропонуючи чи ініціюючи дії на основі минулої поведінки та розуміння контексту, подібно до досвідченого особистого помічника.
  • Покращена доступність: можливості ReALM для розуміння контексту та посилань можуть значно підвищити доступність, зробивши технологію більш інклюзивною. Siri на базі ReALM може точно інтерпретувати розпливчасті або часткові команди, полегшуючи та природніше користування пристроєм для людей із вадами зору чи фізичними вадами.

ReALM і стратегія штучного інтелекту Apple

Запуск ReALM відображає ключовий аспект стратегії Apple щодо штучного інтелекту, наголошуючи на інтелекті на пристрої. Ця розробка узгоджується з ширшою галузевою тенденцією периферійних обчислень, де дані обробляються локально на пристроях, зменшуючи затримку, зберігаючи пропускну здатність і захищаючи дані користувача на самому пристрої.

Проект ReALM також демонструє ширші цілі AI Apple, зосереджуючись не лише на виконанні команд, але й на глибшому розумінні та прогнозуванні потреб користувачів. ReALM являє собою крок до майбутніх інновацій, де пристрої зможуть надавати більш персоналізовану та прогнозовану підтримку на основі глибокого розуміння звичок і вподобань користувачів.

Bottom Line

Розвиток Apple від Siri до ReALM підкреслює постійний розвиток технології голосового помічника, зосереджуючись на покращеному розумінні контексту та взаємодії з користувачем. ReALM означає перехід до більш інтелектуальної, персоналізованої та конфіденційної голосової допомоги, що відповідає галузевій тенденції периферійних обчислень для покращеної обробки на пристрої та безпеки.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.