Sztuczna inteligencja

Rewolucjonizacja AI za pomocą ReALM Apple: Przyszłość inteligentnych asystentów

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

W ciągle ewoluującym krajobrazie sztucznej inteligencji Apple cicho prowadzi przełomowe podejście, które może zmienić sposób, w jaki wchodzimy w interakcje z naszymi iPhone’ami. ReALM, czyli Reference Resolution as Language Modeling, to model AI, który obiecuje przynieść nowy poziom świadomości kontekstowej i bezproblemowej asysty.

Podczas gdy świat techniki buzzy z ekscytacją nad OpenAI’s GPT-4 i innymi dużymi modelami językowymi (LLM), ReALM Apple reprezentuje zmianę myślenia – odejście od polegania wyłącznie na chmurowym AI do bardziej personalizowanego, urządzeniowego podejścia. Celem jest stworzenie inteligentnego asystenta, który naprawdę rozumie ciebie, twój świat i skomplikowaną tkaninę twoich codziennych interakcji cyfrowych.

W sercu ReALM leży zdolność do rozwiązywania odniesień – tych niejednoznacznych zaimek, takich jak “to“, “oni” lub “to“, które ludzie nawigują z łatwością dzięki kontekstowym wskazówkom. Dla asystentów AI jednak od dawna jest to przeszkoda, prowadząca do frustrujących nieporozumień i rozczarowującego doświadczenia użytkownika.

Wyobraź sobie sytuację, w której prosisz Siri o “znalezienie zdrowej receptury na podstawie tego, co jest w twojej lodówce, ale bez grzybów – nie lubisz ich”. Z ReALM, twój iPhone nie tylko zrozumie odniesienia do informacji na ekranie (zawartości twojej lodówki), ale także zapamięta twoje osobiste preferencje (niechęć do grzybów) i szerszy kontekst znalezienia receptury dostosowanej do tych parametrów.

Ten poziom świadomości kontekstowej jest skokiem kwantowym od podejścia dopasowania słów kluczowych większości obecnych asystentów AI. Poprzez szkolenie LLM do bezproblemowego rozwiązywania odniesień w trzech kluczowych dziedzinach – konwersacyjnej, na ekranie i tle – ReALM ma na celu stworzenie prawdziwie inteligentnego cyfrowego towarzysza, który czuje się mniej jak głos asystenta i bardziej jak rozszerzenie twoich własnych procesów myślowych.

Domena konwersacyjna: Pamiętanie o tym, co było wcześniej

AI konwersacyjny, ReALM rozwiązuje długotrwałe wyzwanie: utrzymanie spójności i pamięci w wielu turach dialogu. Z jego zdolnością do rozwiązywania odniesień w trakcie trwającej konwersacji, ReALM może wreszcie spełnić obietnicę naturalnej, dwukierunkowej interakcji z twoim cyfrowym asystentem.

Wyobraź sobie, że prosisz Siri o “przypomnienie, aby zarezerwować bilety na twoją wakację, kiedy dostaniesz pieniądze w piątek”. Z ReALM, Siri nie tylko zrozumie kontekst twoich planów wakacyjnych (potencjalnie poznanego z poprzedniej konwersacji lub informacji na ekranie), ale także będzie miała świadomość, aby połączyć “dostanie pieniędzy” z twoim regularnym harmonogramem wypłat.

Ten poziom inteligencji konwersacyjnej wydaje się prawdziwym skokiem do przodu, umożliwiającym bezproblemowe wieloturów dialogów bez frustracji ciągłego wyjaśniania kontekstu lub powtarzania się.

Domena na ekranie: Dając asystentowi oczy

Być może najbardziej przełomowy aspekt ReALM leży w jego zdolności do rozwiązywania odniesień do jednostek na ekranie – kluczowy krok w kierunku stworzenia prawdziwie bezręcznego, sterowanego głosem użytkowania.

Badanie Apple omawia nową technikę kodowania informacji wizualnych z ekranu urządzenia w format, który LLM może przetworzyć. Poprzez odtworzenie układu twojego ekranu w reprezentacji opartej na tekście, ReALM może “zobaczyć” i zrozumieć relacje przestrzenne między różnymi elementami na ekranie.

Rozważ sytuację, w której patrzysz na listę restauracji i prosisz Siri o “wskazówki do tej na Main Street”. Z ReALM, twój iPhone nie tylko zrozumie odniesienie do określonej lokalizacji, ale także zwiąże je z odpowiednią jednostką na ekranie – wpisem restauracji pasującym do tego opisu.

Ten poziom zrozumienia wizualnego otwiera świat możliwości, od bezproblemowego działania na odniesienia w aplikacjach i na stronach internetowych do integracji z przyszłymi interfejsami AR i nawet postrzegania i reagowania na rzeczywiste obiekty i środowiska za pomocą kamery urządzenia.

Artykuł badawczy na temat modelu ReALM Apple omawia szczegółowe informacje o tym, jak system koduje jednostki na ekranie i rozwiązuje odniesienia w różnych kontekstach. Oto uproszczona wyjaśnienie algorytmów i przykładów przedstawionych w artykule:

Kodowanie jednostek na ekranie: Artykuł eksploruje kilka strategii kodowania elementów na ekranie w formacie tekstowym, który może być przetworzony przez Duży Model Językowy (LLM). Jednym z podejść jest grupowanie otaczających obiektów na podstawie ich bliskości przestrzennej i generowanie podpowiedzi, które obejmują te grupowane obiekty. Jednakże, ta metoda może prowadzić do nadmiernie długich podpowiedzi, gdy liczba jednostek wzrasta.

Ostateczne podejście przyjęte przez badaczy polega na analizie ekranu w kolejności od góry do dołu, od lewej do prawej, reprezentując układ w formacie tekstowym. To jest osiągane za pomocą Algorytmu 2, który sortuje obiekty na ekranie na podstawie ich współrzędnych środka, określa poziomy pionowe, grupując obiekty w określonym marginesie, i konstruuje analizę ekranu, łącząc te poziomy z zakładkami oddzielającymi obiekty na tym samym poziomie.

Poprzez wstrzyknięcie odpowiednich jednostek (numerów telefonu w tym przypadku) do reprezentacji tekstowej, LLM może zrozumieć kontekst na ekranie i rozwiązać odniesienia odpowiednio.

Przykłady rozwiązywania odniesień: Artykuł przedstawia kilka przykładów, aby zilustrować możliwości modelu ReALM w rozwiązywaniu odniesień w różnych kontekstach:

a. Odwołania konwersacyjne: Dla prośby “Siri, znajdź mi zdrową recepturę na podstawie tego, co jest w mojej lodówce, ale bez grzybów – nie lubię ich”, ReALM może zrozumieć kontekst na ekranie (zawartość lodówki), kontekst konwersacyjny (znalezienie receptury) i twoje preferencje (niechęć do grzybów).

b. Odwołania tła: W przykładzie “Siri, odtwórz tę piosenkę, która grała w supermarketach wcześniej”, ReALM może potencjalnie przechwytywać i identyfikować fragmenty audio, aby rozwiązać odniesienie do określonej piosenki.

c. Odwołania na ekranie: Dla prośby “Siri, przypomnij mi, aby zarezerwować bilety na wakację, kiedy dostanę pensję w piątek”, ReALM może połączyć informacje z twoich rutyn (dzień wypłaty), konwersacji na ekranie lub stron internetowych (planów wakacyjnych) i kalendarza, aby zrozumieć i działać na prośbę.

Te przykłady demonstrują zdolność ReALM do rozwiązywania odniesień w kontekstach konwersacyjnych, na ekranie i tle, umożliwiając bardziej naturalną i bezproblemową interakcję z inteligentnymi asystentami.

Domena tła

Przechodząc poza konteksty konwersacyjne i na ekranie, ReALM również bada zdolność do rozwiązywania odniesień do jednostek tła – tych peryferyjnych zdarzeń i procesów, które często pozostają niezauważone przez nasze obecne asystenty AI.

Wyobraź sobie sytuację, w której prosisz Siri o “odtworzenie tej piosenki, która grała w supermarketach wcześniej”. Z ReALM, twój iPhone mógłby potencjalnie przechwytywać i identyfikować fragmenty audio, pozwalając Siri na bezproblemowe odtworzenie utworu, o którym myślałeś.

Ten poziom świadomości tła wydaje się pierwszym krokiem w kierunku prawdziwie wszechobecnej, kontekstowo świadomej AI – cyfrowego towarzysza, który nie tylko rozumie twoje słowa, ale także bogatą tkaninę twoich codziennych doświadczeń.

Obietnica AI na urządzeniu: Prywatność i personalizacja

Podczas gdy możliwości ReALM są niewątpliwie imponujące, być może jego największa zaleta leży w długotrwałym zaangażowaniu Apple w AI na urządzeniu i prywatność użytkownika.

W przeciwieństwie do modeli AI opartych na chmurze, które polegają na wysyłaniu danych użytkownika do serwerów zdalnych do przetwarzania, ReALM jest zaprojektowany do działania całkowicie na twoim iPhone lub innych urządzeniach Apple. To nie tylko rozwiązuje obawy dotyczące prywatności danych, ale także otwiera nowe możliwości dla AI, która naprawdę rozumie i dostosowuje się do ciebie jako jednostki.

Poprzez uczenie się bezpośrednio z twoich danych na urządzeniu – twoich rozmów, wzorców użycia aplikacji i nawet sensorycznych danych otoczenia – ReALM mógłby potencjalnie stworzyć hiperpersonalizowanego cyfrowego asystenta dostosowanego do twoich unikalnych potrzeb, preferencji i codziennych rutyn.

Ten poziom personalizacji wydaje się zmianą paradygmatu w stosunku do podejścia “jedno rozmiar pasuje do wszystkich” obecnych asystentów AI, które często mają trudności z dostosowaniem się do indywidualnych użytkowników, ich idiiosynkrazji i kontekstów.

Model ReALM-250M osiąga imponujące wyniki:

- Zrozumienie konwersacyjne: 97,8
- Zrozumienie zadań syntetycznych: 99,8
- Wydajność zadań na ekranie: 90,6
- Obsługa niewidocznych domen: 97,2

Zagadnienia etyczne

Oczywiście, z takim wysokim poziomem personalizacji i świadomości kontekstowej przychodzi szereg zagadnień etycznych dotyczących prywatności, przejrzystości i potencjalnego wpływu systemów AI na zachowanie użytkownika lub nawet manipulację nim.

Podczas gdy ReALM zdobywa głębsze zrozumienie twojego codziennego życia – od twoich nawyków żywieniowych i wzorców konsumpcji mediów po twoje interakcje społeczne i osobiste preferencje – istnieje ryzyko, że ta technologia może być używana w sposób, który narusza zaufanie użytkownika lub przekracza granice etyczne.

Badacze Apple są świadomi tego napięcia, uznając w swoim artykule potrzebę uważnego balansowania między dostarczaniem naprawdę pomocnego, personalizowanego doświadczenia AI a poszanowaniem prywatności i autonomii użytkownika.

To wyzwanie nie jest unikalne dla Apple ani ReALM – jest to rozmowa, z którą cały przemysł technologiczny musi się zmierzyć, gdy systemy AI stają się coraz bardziej zaawansowane i zintegrowane z naszym codziennym życiem.

Ku bardziej inteligentnemu, naturalnemu doświadczeniu AI

Podczas gdy Apple kontynuuje poszerzanie granic AI na urządzeniu z modelami takimi jak ReALM, kusząca obietnica prawdziwie inteligentnego, kontekstowo świadomego cyfrowego asystenta wydaje się bliższa niż kiedykolwiek wcześniej.

Wyobraź sobie świat, w którym Siri (lub jakikolwiek ten asystent AI może być nazwany w przyszłości) czuje się mniej jak oddalony głos z chmury i bardziej jak rozszerzenie twoich własnych procesów myślowych – partner, który nie tylko rozumie twoje słowa, ale także bogatą tkaninę twojego cyfrowego życia, twoich codziennych rutyn i twoich unikalnych preferencji i kontekstów.

Od bezproblemowego działania na odniesienia w aplikacjach i na stronach internetowych do przewidywania twoich potrzeb na podstawie twojej lokalizacji, aktywności i sensorycznych danych otoczenia, ReALM reprezentuje znaczący krok w kierunku bardziej naturalnego, bezproblemowego doświadczenia AI, które zaciera granice między naszymi cyfrowymi i fizycznymi światami.

Oczywiście, realizacja tej wizji wymaga więcej niż tylko innowacji technicznej – wymaga również przemyślanego, etycznego podejścia do rozwoju AI, które priorytetowo traktuje prywatność użytkownika, przejrzystość i autonomię.

Podczas gdy Apple kontynuuje udoskonalanie i rozszerzanie możliwości ReALM, świat techniki będzie z pewnością obserwował z zainteresowaniem, aby zobaczyć, jak ten przełomowy model AI kształtuje przyszłość inteligentnych asystentów i wprowadza nową erę prawdziwie personalizowanego, kontekstowo świadomego komputingu.

Czy ReALM spełni swoją obietnicę i przewyższy nawet potężnego GPT-4, pozostaje jeszcze nieznane. Jedno jest pewne: era asystentów AI, które naprawdę rozumieją nas – nasze słowa, nasze światy i bogatą tkaninę naszego codziennego życia – jest w pełnym toku, a najnowsza innowacja Apple może być na czele tej rewolucji.

Aayush Mittal

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.

Unite.AI