Kontakt z nami

Artificial Intelligence

Od Siri do ReALM: podróż Apple do inteligentniejszych asystentów głosowych

mm

Od premiery Siri w 2011 roku firma Apple niezmiennie przoduje w zakresie innowacji w zakresie asystentów głosowych, dostosowując się do potrzeb użytkowników na całym świecie. Wprowadzenie ReALM stanowi znaczący punkt w tej podróży, oferując wgląd w ewoluującą rolę asystentów głosowych w naszej interakcji z urządzeniami. W tym artykule zbadano wpływ ReALM na Siri i potencjalne kierunki dla przyszłych asystentów głosowych.

Powstanie asystentów głosowych: geneza Siri

Podróż rozpoczęła się, gdy Apple zintegrował ze swoimi urządzeniami Siri, wyrafinowany system sztucznej inteligencji, zmieniając sposób, w jaki korzystamy z naszej technologii. Pochodzi z technologii opracowanej przez SRI InternationalSiri stała się złotym standardem dla asystentów aktywowanych głosem. Użytkownicy mogą wykonywać zadania, takie jak wyszukiwanie w Internecie i planowanie, za pomocą prostych poleceń głosowych, przesuwając granice interfejsów konwersacyjnych i rozpoczynając wyścig konkurencyjny na rynku asystentów głosowych.

Siri 2.0: nowa era asystentów głosowych

Apple przygotowuje się do wydania iOS 18 na Worldwide Developers Conference (WWDC) w czerwcu 2024 r. w społeczności technologicznej rośnie oczekiwanie na znaczącą ewolucję Siri. Ten nowy etap, tzw Siri 2.0, obiecuje wysunąć na pierwszy plan generatywne postępy w zakresie sztucznej inteligencji, potencjalnie przekształcając Siri w jeszcze bardziej wyrafinowanego wirtualnego asystenta. Chociaż dokładne ulepszenia pozostają poufne, w świecie technologii wrzało od perspektywy osiągnięcia przez Siri nowych wyżyn w zakresie inteligencji konwersacyjnej i spersonalizowanej interakcji z użytkownikiem, wykorzystując wyrafinowane modele nauki języków stosowane w technologiach takich jak ChatGPT. W tym kontekście wprowadzenie ReALM, kompaktowego modelu językowego, sugeruje możliwe ulepszenia, które Siri 2.0 może wprowadzić dla swoich użytkowników. W poniższych sekcjach omówiona zostanie rola ReALM i jego potencjalny wpływ jako ważny krok w ciągłym rozwoju Siri.

Odsłonięcie ReALM

ReALM, czyli Reference Solution As Language Modeling, to wyspecjalizowany model językowy, potrafiący rozszyfrować kontekstowe i niejednoznaczne odniesienia podczas rozmów, takie jak „ten” lub „to”. Wyróżnia się możliwością przetwarzania odniesień konwersacyjnych i wizualnych, przekształcając je do formatu tekstowego. Ta funkcja umożliwia ReALM płynną interpretację układów i elementów ekranu oraz interakcję z nimi w ramach dialogu, co jest cechą krytyczną dla dokładnej obsługi zapytań w kontekstach zależnych wizualnie.

Architektura ReALM obejmuje zarówno mniejsze wersje, takie jak ReALM-80M, jak i większe, takie jak ReALM-3B, zoptymalizowane pod kątem wydajności obliczeniowej w celu integracji z urządzeniami mobilnymi. Ta wydajność pozwala na stałą wydajność przy zmniejszonym zużyciu energii i mniejszym obciążeniu zasobów obliczeniowych, co jest ważne dla wydłużenia żywotności baterii i zapewnienia szybkiego czasu reakcji na różnych urządzeniach.

Co więcej, konstrukcja ReALM umożliwia aktualizacje modułowe, ułatwiając bezproblemową integrację najnowszych osiągnięć w rozdzielczości referencyjnej. To modułowe podejście nie tylko zwiększa możliwości adaptacji i elastyczność modelu, ale także zapewnia jego długoterminową żywotność i skuteczność, umożliwiając mu spełnianie zmieniających się potrzeb użytkowników i standardów technologicznych w szerokim spektrum urządzeń.

ReALM a modele językowe

Podczas gdy tradycyjne modele językowe, takie jak GPT-3.5 przetwarza głównie tekst, ReALM działa multimodalnie, podobnie jak modele takie jak Gemini, pracując zarówno z tekstem, jak i wizualizacjami. W przeciwieństwie do szerszych funkcjonalności GPT-3.5 i Gemini, które obsługują zadania takie jak generowanie tekstu, jego zrozumienie i tworzenie obrazu, ReALM jest szczególnie ukierunkowany na rozszyfrowanie kontekstów konwersacyjnych i wizualnych. Jednak w przeciwieństwie do modeli multimodalnych, takich jak Gemini, które bezpośrednio przetwarzają dane wizualne i tekstowe, ReALM przekłada zawartość wizualną ekranów na tekst, elementy adnotacji i ich szczegóły przestrzenne. Ta konwersja pozwala ReALM interpretować zawartość ekranu w sposób tekstowy, ułatwiając bardziej precyzyjną identyfikację i zrozumienie odniesień na ekranie.

Jak ReALM może zmienić Siri?

ReALM może znacząco zwiększyć możliwości Siri, przekształcając ją w bardziej intuicyjnego i świadomego kontekstu asystenta. Oto, jaki może to mieć wpływ:

  • Lepsze zrozumienie kontekstu: ReALM specjalizuje się w rozszyfrowywaniu niejednoznacznych odniesień w rozmowach, co potencjalnie znacznie poprawia zdolność Siri do rozumienia zapytań zależnych od kontekstu. Pozwoliłoby to użytkownikom na bardziej naturalną interakcję z Siri, ponieważ mogłaby ona uchwycić odniesienia takie jak „odtwórz tę piosenkę ponownie” lub „zadzwoń do niej” bez dodatkowych szczegółów.
  • Ulepszona interakcja na ekranie: Dzięki biegłości w interpretowaniu układów ekranu i elementów dialogów ReALM może umożliwić Siri płynniejszą integrację z treścią wizualną urządzenia. Siri może następnie wykonywać polecenia związane z elementami wyświetlanymi na ekranie, takie jak „otwórz aplikację obok Poczty” lub „przewiń tę stronę w dół”, rozszerzając jej użyteczność w różnych zadaniach.
  • Personalizacja: Ucząc się na podstawie poprzednich interakcji, ReALM może ulepszyć zdolność Siri do oferowania spersonalizowanych i adaptacyjnych odpowiedzi. Z biegiem czasu Siri może przewidywać potrzeby i preferencje użytkownika, sugerując lub inicjując działania w oparciu o przeszłe zachowania i zrozumienie kontekstu, podobnie jak doświadczony osobisty asystent.
  • Lepsza dostępność: Możliwości ReALM w zakresie zrozumienia kontekstu i odniesienia mogą znacząco zwiększyć dostępność, czyniąc technologię bardziej włączającą. Siri, obsługiwana przez ReALM, potrafi dokładnie interpretować niejasne lub częściowe polecenia, ułatwiając łatwiejsze i bardziej naturalne korzystanie z urządzenia osobom z wadami fizycznymi lub wzrokowymi.

ReALM i strategia AI Apple

Premiera ReALM odzwierciedla kluczowy aspekt strategii Apple w zakresie sztucznej inteligencji, kładąc nacisk na inteligencję na urządzeniu. Rozwój ten wpisuje się w szerszy trend branżowy dotyczący przetwarzania brzegowego, w którym dane są przetwarzane lokalnie na urządzeniach, zmniejszając opóźnienia, oszczędzając przepustowość i zabezpieczając dane użytkownika na samym urządzeniu.

Projekt ReALM ukazuje także szersze cele Apple w zakresie sztucznej inteligencji, koncentrując się nie tylko na wykonywaniu poleceń, ale także na głębszym zrozumieniu i przewidywaniu potrzeb użytkowników. ReALM stanowi krok w kierunku przyszłych innowacji, w których urządzenia mogą zapewniać bardziej spersonalizowane i przewidywalne wsparcie, oparte na dogłębnej analizie nawyków i preferencji użytkowników.

Bottom Line

Rozwój Apple od Siri do ReALM podkreśla ciągłą ewolucję technologii asystentów głosowych, skupiającą się na lepszym zrozumieniu kontekstu i interakcji z użytkownikiem. ReALM oznacza zwrot w kierunku bardziej inteligentnej, spersonalizowanej i dbającej o prywatność pomocy głosowej, zgodnej z trendem branżowym dotyczącym przetwarzania brzegowego w celu lepszego przetwarzania i bezpieczeństwa na urządzeniu.

Dr Tehseen Zia jest profesorem nadzwyczajnym na Uniwersytecie COMSATS w Islamabadzie oraz posiada tytuł doktora w dziedzinie sztucznej inteligencji uzyskany na Politechnice Wiedeńskiej w Austrii. Specjalizuje się w sztucznej inteligencji, uczeniu maszynowym, nauce danych i wizji komputerowej, wniósł znaczący wkład w postaci publikacji w renomowanych czasopismach naukowych. Dr Tehseen kierował także różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.