Штучний інтелект

Революціонізування штучного інтелекту за допомогою ReALM від Apple: Майбутнє інтелектуальних помічників

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

У постійно змінюваному ландшафті штучного інтелекту Apple тихо просунула новаторський підхід, який може змінити те, як ми взаємодіємо зі своїми iPhone. ReALM, або вирішення посилань як мовна модель, є моделлю штучного інтелекту, яка обіцяє принести новий рівень контекстної осведомленості та безперервної допомоги.

Оскільки світ технологій бурхливо обговорює OpenAI’s GPT-4 та інші великі мовні моделі (LLM), ReALM від Apple представляє зміну у думках – перехід від залежності лише від хмарних моделей штучного інтелекту до більш персоналізованого, апаратного підходу. Метою є створення інтелектуального помічника, який真正но розуміє вас, ваш світ та складну тканину ваших щоденних цифрових взаємодій.

У серці ReALM лежить здатність вирішувати посилання – ті двозначні займенники, як “це“, “вони” або “те“, які люди легко орієнтуються завдяки контекстним сигналам. Для помічників штучного інтелекту, однак, це довго було каменем спотикання, що призводило до розчаровуючих недорозумінь та роз’єднаного досвіду користувача.

Представіть собі сценарій, у якому ви просите Siri “знайти мені здоровий рецепт на основі того, що є у моїй холодильній камері, але без грибів – я їх ненавиджу”. З ReALM ваш iPhone не тільки зрозуміє посилання на інформацію на екрані (зміст вашої холодильної камери), але й запам’ятає ваші особисті вподобання (неприязнь до грибів) та ширший контекст пошуку рецепта, адаптованого до цих параметрів.

Цей рівень контекстної осведомленості є квантова стрибок від підходу зіставлення ключових слів більшості поточних помічників штучного інтелекту. Навчаючи LLM безперебійно вирішувати посилання через три ключові домени – розмовний, на екрані та фонове – ReALM спрямована на створення справжнього інтелектуального цифрового компаньйона, який відчувається менш як роботизований голосовий помічник і більше як розширення ваших власних думкових процесів.

Розмовний Домен: Пам’ятання того, що було раніше

Розмовний штучний інтелект, ReALM вирішує давнє виклик: підтримання узгодженості та пам’яті через多фі розмови. З її здатністю вирішувати посилання в рамках тривалої розмови, ReALM могла би нарешті виконати обіцянку природної, безперервної взаємодії з вашим цифровим помічником.

Представіть собі запит до Siri “нагадайте мені забронювати квитки на мою відпустку, коли я отримаю зарплату у п’ятницю”. З ReALM Siri не тільки зрозуміє контекст ваших планів відпустки (потенційно витягнутий з попередньої розмови або інформації на екрані), але й матиме осведомленість, щоб зв’язати “отримання зарплати” з вашим регулярним графіком зарплати.

Цей рівень розмовної інтелекту відчувається як справжній стрибок вперед, дозволяючи безперервні багаторазові діалоги без розчарування від постійного повторення контексту або повторення себе.

Домен на Екрані: Надання вашому помічнику очей

Можливо, найбільш новаторський аспект ReALM лежить у її здатності вирішувати посилання на сутності на екрані – критичний крок до створення справжнього безперешкодного, голосового досвіду користувача.

Дослідницька робота Apple обговорює новий метод кодування візуальної інформації з екрана вашого пристрою у формат, який LLM можуть обробляти. Будучи зрештою реконструкцією макету вашого екрана у текстовому представленні, ReALM може “бачити” та розуміти просторові відносини між різними елементами на екрані.

Представіть собі сценарій, у якому ви дивитеся на список ресторанів і просите Siri “направлення до того, що знаходиться на вулиці Мейн”. З ReALM ваш iPhone не тільки зрозуміє посилання на конкретне місце, але й зв’язає його з відповідною сутністю на екрані – ресторанним списком, що відповідає цьому опису.

Цей рівень візуального розуміння відкриває світ можливостей, від безперешкодної дії щодо посилань у додатках та веб-сайтах до інтеграції з майбутніми інтерфейсами доповненої реальності та навіть сприйняття та реакції на реальні об’єкти та середовища через камеру вашого пристрою.

Дослідницька робота щодо моделі ReALM від Apple говорить про деталі того, як система кодує сутності на екрані та вирішує посилання в різних контекстах. Ось спрощене пояснення алгоритмів та прикладів, наданих у роботі:

Кодування сутностей на екрані: Робота досліджує кілька стратегій кодування елементів на екрані у текстовому форматі, який може бути оброблений великою мовною моделлю (LLM). Одним з підходів є кластеризація навколишніх об’єктів на основі їх просторової близькості та генерація запитів, які включають ці кластеризовані об’єкти. Однак цей метод може привести до надміру довгих запитів при збільшенні кількості сутностей.

Остатній підхід, прийнятий дослідниками, полягає у тому, щоб розібрати екран у порядку зверху вниз, зліва направо, представляючи макет у текстовому форматі. Це досягається за допомогою Алгоритму 2, який сортує об’єкти на екрані за їх центральними координатами, визначає вертикальні рівні, групуючи об’єкти в межах певної межі, та конструює аналіз на екрані шляхом конкатенації цих рівнів з вкладеними об’єктами на одному рядку.

Вставляючи відповідні сутності (номери телефонів у цьому випадку) до текстового представлення, LLM може зрозуміти контекст на екрані та вирішити посилання відповідно.

Приклади вирішення посилань: Робота надає кілька прикладів, щоб проілюструвати можливості моделі ReALM у вирішенні посилань у різних контекстах:

a. Розмовні посилання: Для запиту типу “Siri, знайдіть мені здоровий рецепт на основі того, що є у моїй холодильній камері, але без грибів – я їх ненавиджу”, ReALM може зрозуміти контекст на екрані (зміст вашої холодильної камери), розмовний контекст (знаходження рецепта) та ваші вподобання (неприязнь до грибів).

b. Фонове посилання: У прикладі “Siri, проіграйте ту пісню, яка грала у супермаркеті раніше”, ReALM потенційно може захопити та ідентифікувати фрагменти фонової музики, щоб вирішити посилання на конкретну пісню.

c. Посилання на екрані: Для запиту типу “Siri, нагадайте мені забронювати квитки на відпустку, коли я отримаю зарплату у п’ятницю”, ReALM може поєднати інформацію з ваших розкладів (день зарплати), розмов або веб-сайтів (плани відпустки) та календаря, щоб зрозуміти та виконати запит.

Ці приклади демонструють здатність ReALM вирішувати посилання в розмовних, на екрані та фоновому контекстах, забезпечуючи більш природну та безперервну взаємодію з інтелектуальними помічниками.

Фонове посилання

Перейшовши за межі лише розмовного та на екрані контекстів, ReALM також досліджує здатність вирішувати посилання на фонове сутності – ті периферійні події та процеси, які часто залишаються непоміченими нашими поточними помічниками штучного інтелекту.

Представіть собі сценарій, у якому ви просите Siri “проіграйте ту пісню, яка грала у супермаркеті раніше”. З ReALM ваш iPhone потенційно міг би захопити та ідентифікувати фрагменти фонової музики, дозволяючи Siri безперешкодно включити та проіграти пісню, про яку ви думали.

Цей рівень фонової осведомленості відчувається як перший крок до справжньої універсальної, контекстно-осведомленої допомоги штучного інтелекту – цифрового компаньйона, який не тільки розуміє ваші слова, але й багату тканину ваших щоденних переживань.

Обіцянка апаратного штучного інтелекту: Конфіденційність та персоналізація

Хоча можливості ReALM є безумовно вражаючими, можливо, її найбільш значуща перевага лежить у довгостроковому зобов’язанні Apple щодо апаратного штучного інтелекту та конфіденційності користувача.

На відміну від хмарних моделей штучного інтелекту, які залежать від передачі даних користувача на віддалені сервери для обробки, ReALM розроблена для роботи цілком на вашому iPhone або інших пристроях Apple. Це не тільки вирішує питання щодо конфіденційності даних, але й відкриває нові можливості для допомоги штучного інтелекту, яка真正но розуміє та адаптується до вас як індивідуума.

Вчучися безпосередньо з ваших даних на пристрої – ваших розмов, закономірностей використання додатків та навіть фонових сенсорних входів – ReALM могла б потенційно створити гіперперсоналізованого цифрового помічника, адаптованого до ваших унікальних потреб, вподобань та щоденних контекстів.

Цей рівень персоналізації відчувається як зміна парадигми від підходу “один розмір для всіх” поточних помічників штучного інтелекту, які часто борються з адаптацією до індивідуальних особливостей та контекстів користувачів.

Модель ReALM-250M досягає вражаючих результатів:

- Розмовне розуміння: 97.8
- Синтетичне розуміння завдань: 99.8
- Виконання завдань на екрані: 90.6
- Опрацювання невідомих доменів: 97.2

Етичні розгляди

Очевидно, що з таким високим рівнем персоналізації та контекстної осведомленості виникає ряд етичних питань щодо конфіденційності, прозорості та потенційної здатності систем штучного інтелекту впливати або навіть маніпулювати поведінкою користувача.

Як ReALM глибше розуміє вашу щоденну життя – від ваших харчових звичок та закономірностей споживання медіа до ваших соціальних взаємодій та особистих вподобань – існує ризик того, що ця технологія буде використана способами, які порушують довіру користувача або перетинають етичні межі.

Дослідники Apple гостро усвідомлюють цього напруження, визнаючи у своїй роботі необхідність знайти тонкий баланс між забезпеченням真正ньо корисного, персоналізованого досвіду штучного інтелекту та повагою до конфіденційності та автономії користувача.

Ця проблема не є унікальною для Apple чи ReALM, звичайно – це розмова, з якою вся технологічна галузь повинна боротися, оскільки системи штучного інтелекту стають дедалі більш складними та інтегрованими у нашу щоденну життя.

До розумнішого, більш природнього досвіду штучного інтелекту

Як Apple продовжує розширювати межі апаратного штучного інтелекту з моделями типу ReALM, обіцянка真正ньо інтелектуального, контекстно-осведомленого цифрового помічника відчувається ближчою, ніж будь-коли раніше.

Представіть собі світ, у якому Siri (або будь-який майбутній штучний інтелект) відчувається менш як відокремлений голос з хмари та більше як розширення ваших власних думкових процесів – партнер, який не тільки розуміє ваші слова, але й багату тканину вашого цифрового життя, ваших щоденних рутин та унікальних вподобань та контекстів.

Від безперешкодної дії щодо посилань у додатках та веб-сайтах до передбачення ваших потреб на основі вашого місця розташування, діяльності та фонових сенсорних входів, ReALM представляє значущий крок до більш природного, безперервного досвіду штучного інтелекту, який стирає межі між нашим цифровим та фізичним світом.

Очевидно, що реалізації цієї візії буде потрібно не тільки технічна інновація – це також вимагатиме вдумливого, етичного підходу до розробки штучного інтелекту, який пріоритезує конфіденційність користувача, прозорість та автономію.

Як Apple продовжує удосконалювати та розширювати можливості ReALM, технологічний світ, безумовно, буде спостерігати з напруженим інтересом, бажаючи побачити, як ця новаторська модель штучного інтелекту формуватиме майбутнє інтелектуальних помічників та запровадить нову еру真正ньо персоналізованого, контекстно-осведомленого комп’ютерного досвіду.

Чи ReALM виправдає свою обіцянку щодо перевершення навіть могутнього GPT-4, залишається побачити. Але одне є певним: епоха помічників штучного інтелекту, які真正но розуміють нас – наші слова, наш світ та багату тканину нашого щоденного життя – вже розпочалася, і остання інновація Apple може бути на передовій цієї революції.

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.

Unite.AI