Зв'язатися з нами

Революція ШІ з ReALM від Apple: майбутнє інтелектуальних помічників

Штучний Інтелект

Революція ШІ з ReALM від Apple: майбутнє інтелектуальних помічників

mm
Нова модель Apple ReALM AI

У середовищі штучного інтелекту, що постійно розвивається, Apple мовчки впроваджує новаторський підхід, який міг би змінити спосіб взаємодії з нашими iPhone. ReALM, або Reference Resolution як мовне моделювання, це модель штучного інтелекту, яка обіцяє вивести новий рівень контекстуальної обізнаності та безперебійної допомоги.

У той час як світ технологій вирує з хвилюванням щодо GPT-4 OpenAI та інших великих мовних моделей (LLM), ReALM від Apple представляє зміну в мисленні – відхід від використання виключно хмарного ШІ до більш персоналізованого підходу на пристрої. Мета? Щоб створити інтелектуального помічника, який справді розуміє вас, ваш світ і заплутаний гобелен ваших щоденних цифрових взаємодій.

В основі ReALM лежить здатність розпізнавати посилання – такі неоднозначні займенники, як «it, ""вони, "Або"Що», якими люди легко орієнтуються завдяки контекстним підказкам. Однак для помічників штучного інтелекту це довгий час було каменем спотикання, що призводило до неприємних непорозумінь і неузгодженого досвіду користувача.

Уявіть собі сценарій, коли ви просите Сірі «знайти мені здоровий рецепт на основі того, що є в моєму холодильнику, але притримайте гриби – я їх ненавиджу». З ReALM ваш iPhone не тільки розумітиме посилання на екранну інформацію (вміст вашого холодильника), але й запам’ятовуватиме ваші особисті вподобання (нелюбов до грибів) і ширший контекст пошуку рецепту, адаптованого до цих параметрів.

Цей рівень контекстуальної обізнаності є кількісним стрибком у порівнянні з підходом зіставлення ключових слів у більшості сучасних помічників ШІ. Навчаючи магістрів права легко вирішувати посилання в трьох ключових областях – розмові, на екрані та у фоновому режимі – ReALM прагне створити по-справжньому інтелектуального цифрового компаньйона, який буде не схожий на роботизованого голосового помічника, а більше на розширення ваших власних розумових процесів.

Розмовна сфера: згадування того, що було раніше

Штучний інтелект для розмови, ReALM, вирішує давню проблему: підтримує узгодженість і пам’ять у кількох ходах діалогу. Завдяки своїй здатності вирішувати посилання під час поточної розмови, ReALM нарешті може виконати обіцянку природної, зворотньої взаємодії з вашим цифровим помічником.

Уявіть собі, що ви просите Siri «нагадати мені забронювати квитки на мою відпустку, коли мені заплатять у п’ятницю». За допомогою ReALM Siri не лише розумітиме контекст ваших планів на відпустку (потенційно отриманих із попередньої розмови чи інформації на екрані), але й матиме знання, щоб пов’язати «отримання грошей» із вашою звичайною рутиною дня виплати зарплати.

Цей рівень розмовного інтелекту виглядає як справжній стрибок вперед, уможливлюючи плавні багатоступеневі діалоги без розчарування від постійного повторного пояснення контексту чи повторення.

Домен на екрані: дивіться своєму помічнику

Однак, мабуть, найбільш революційний аспект ReALM полягає в його здатності розпізнавати посилання на екранні об’єкти – важливий крок до створення справді вільних рук із голосовим керуванням.

У дослідницькій статті Apple обговорюється нова техніка кодування візуальної інформації з екрана вашого пристрою у формат, який можуть обробляти LLM. По суті реконструюючи макет вашого екрана в текстовому представленні, ReALM може «бачити» і розуміти просторові відносини між різними елементами на екрані.

Розглянемо сценарій, коли ви дивитеся на список ресторанів і запитуєте у Сірі «напрямок до ресторану на Мейн-стріт». За допомогою ReALM ваш iPhone не лише сприйме посилання на конкретне місце, але й прив’яже його до відповідної сутності на екрані – списку ресторану, який відповідає цьому опису.

Цей рівень візуального розуміння відкриває цілий світ можливостей, від плавної роботи з посиланнями в програмах і на веб-сайтах до інтеграції з майбутніми інтерфейсами AR і навіть сприйняття реальних об’єктів і середовища та реагування на них через камеру вашого пристрою.

Дослідницька стаття про модель Apple ReALM розповідає про складні деталі того, як система кодує об’єкти на екрані та розпізнає посилання в різних контекстах. Ось спрощене пояснення алгоритмів і прикладів, наданих у статті:

  1. Кодування екранних об’єктів: у статті розглядаються кілька стратегій кодування екранних елементів у текстовому форматі, який може бути оброблений великою мовною моделлю (LLM). Один із підходів передбачає кластеризацію навколишніх об’єктів на основі їх просторової близькості та створення підказок, які включають ці кластеризовані об’єкти. Однак цей метод може призвести до надто довгих підказок із збільшенням кількості об’єктів.

Остаточний підхід, прийнятий дослідниками, полягає в аналізі екрана в порядку зверху вниз, зліва направо, представляючи макет у текстовому форматі. Це досягається за допомогою алгоритму 2, який сортує об’єкти на екрані на основі їх центральних координат, визначає вертикальні рівні, групуючи об’єкти в межах певного поля, і створює аналіз на екрані, об’єднуючи ці рівні табуляціями, що розділяють об’єкти в одному рядку. .

Додавши відповідні сутності (у цьому випадку номери телефонів) у текстове представлення, LLM може зрозуміти контекст на екрані та відповідним чином розв’язати посилання.

  1. Приклади вирішення посилань: у документі наведено кілька прикладів, щоб проілюструвати можливості моделі ReALM для вирішення посилань у різних контекстах:

a. Розмовні посилання: для запиту на кшталт «Siri, знайдіть мені здоровий рецепт на основі того, що є в моєму холодильнику, але потримайте гриби – я їх ненавиджу», ReALM може зрозуміти контекст на екрані (вміст холодильника), контекст розмови (пошук рецепта), і вподобання користувача (нелюбов до грибів).

b. Фонові посилання: у прикладі «Siri, відтвори ту пісню, яка раніше звучала в супермаркеті», ReALM потенційно може захоплювати та ідентифікувати фрагменти навколишнього звуку, щоб розпізнати посилання на конкретну пісню.

в. Посилання на екрані: для запиту на кшталт «Siri, нагадай мені забронювати квитки на відпустку, коли я отримаю зарплату в п’ятницю», ReALM може поєднувати інформацію з процедур користувача (день виплати зарплати), розмов на екрані або веб-сайтів (плани відпустки ), а також календар, щоб зрозуміти запит і виконати його.

Ці приклади демонструють здатність ReALM розпізнавати посилання в контекстах розмови, на екрані та у фоновому режимі, забезпечуючи більш природну та плавну взаємодію з інтелектуальними помічниками.

Фоновий домен

Виходячи за рамки просто розмовних і екранних контекстів, ReALM також досліджує здатність розпізнавати посилання на фонові сутності – ті периферійні події та процеси, які часто залишаються непоміченими нашими поточними помічниками ШІ.

Уявіть собі сценарій, коли ви просите Siri «відтворити ту пісню, яка раніше звучала в супермаркеті». За допомогою ReALM ваш iPhone потенційно може захоплювати та ідентифікувати фрагменти навколишнього аудіо, дозволяючи Siri безперешкодно підняти та відтворити трек, який ви мали на увазі.

Цей рівень фонової обізнаності здається першим кроком до справді повсюдної контекстно-залежної допомоги штучного інтелекту – цифрового компаньйона, який не лише розуміє ваші слова, але й багатий гобелен вашого щоденного досвіду.

Обіцянка ШІ на пристрої: конфіденційність і персоналізація

Хоча можливості ReALM, безсумнівно, вражають, можливо, його найважливіша перевага полягає в давній прихильності Apple ШІ на пристрої та конфіденційності користувачів.

На відміну від хмарних моделей штучного інтелекту, які покладаються на надсилання даних користувача на віддалені сервери для обробки, ReALM розроблено для роботи повністю на вашому iPhone або інших пристроях Apple. Це не тільки вирішує питання щодо конфіденційності даних, але й відкриває нові можливості для допомоги штучного інтелекту, яка дійсно розуміє та адаптується до вас як особистості.

Навчаючись безпосередньо з ваших даних на пристрої – ваших розмов, шаблонів використання додатків і навіть навколишніх сенсорних вводів – ReALM потенційно може створити гіперперсоналізованого цифрового помічника, адаптованого до ваших унікальних потреб, уподобань і повсякденних справ.

Цей рівень персоналізації виглядає як зміна парадигми від універсального підходу поточних помічників штучного інтелекту, яким часто важко адаптуватися до особливостей і контексту окремих користувачів.

Модель ReALM-250M досягає вражаючих результатів:

    • Розуміння розмови: 97.8
    • Синтетичне завдання Розуміння: 99.8
    • Продуктивність завдань на екрані: 90.6
    • Обробка невидимого домену: 97.2

Етичні міркування

Звичайно, з таким високим ступенем персоналізації та контекстуальної обізнаності виникає безліч етичних міркувань щодо конфіденційності, прозорості та потенціалу систем штучного інтелекту впливати або навіть маніпулювати поведінкою користувачів.

Оскільки ReALM отримує глибше розуміння нашого повсякденного життя – від наших харчових звичок і моделей споживання медіа до наших соціальних взаємодій і особистих уподобань – існує ризик використання цієї технології у спосіб, який порушує довіру користувачів або перетинає етичні межі.

Дослідники Apple чітко усвідомлюють цю напругу, визнаючи у своїй статті необхідність досягнення ретельного балансу між наданням справді корисного, персоналізованого досвіду ШІ та повагою до конфіденційності та свободи дій користувачів.

Звісно, ​​ця проблема не є унікальною для Apple чи ReALM – це розмова, з якою має боротися вся індустрія технологій, оскільки системи штучного інтелекту стають дедалі складнішими та інтегрованими в наше повсякденне життя.

На шляху до розумнішого та більш природного ШІ

Оскільки Apple продовжує розширювати межі штучного інтелекту на пристроях за допомогою таких моделей, як ReALM, спокусливі обіцянки по-справжньому інтелектуального, контекстно-залежного цифрового помічника здаються ближчими, ніж будь-коли раніше.

Уявіть собі світ, де Siri (або як цей помічник зі штучним інтелектом у майбутньому буде називатися) не буде нагадувати безтілесний голос із хмари, а більше нагадуватиме продовження ваших власних розумових процесів – партнера, який не лише розуміє ваші слова, але й багатий гобелен вашого цифрового життя, ваших повсякденних справ, ваших унікальних уподобань і контекстів.

Від плавної роботи з посиланнями в програмах і на веб-сайтах до передбачення ваших потреб на основі вашого місцезнаходження, активності та сенсорних вводів навколишнього середовища, ReALM є значним кроком до більш природного, бездоганного досвіду ШІ, який стирає межі між нашим цифровим і фізичним світами.

Звичайно, реалізація цього бачення вимагатиме не лише технічних інновацій – це також вимагатиме продуманого, етичного підходу до розробки ШІ, який надає пріоритет конфіденційності користувачів, прозорості та агентству.

Оскільки Apple продовжує вдосконалювати та розширювати можливості ReALM, світ технологій, безсумнівно, спостерігатиме, затамувавши подих, нетерпляче побачити, як ця новаторська модель штучного інтелекту формує майбутнє інтелектуальних помічників і відкриває нову еру справді персоналізованих, контекстно-залежних обчислень. .

Чи виправдає ReALM свою обіцянку перевершити навіть потужний GPT-4, ще належить побачити. Але одне можна сказати напевно: ера помічників зі штучним інтелектом, які справді розуміють нас — наші слова, наші світи та багатий гобелен нашого повсякденного життя, — уже настала, і остання інновація Apple цілком може бути в авангарді цієї революції.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.