Connect with us

Od Siri po ReALM: Appleova cesta ke chytřejším hlasovým asistentům

Umělá inteligence

Od Siri po ReALM: Appleova cesta ke chytřejším hlasovým asistentům

mm

Od uvedení Siri v roce 2011 je Apple neustále na špici inovací hlasových asistentů, přizpůsobujících se globálním potřebám uživatelů. Uvedení ReALM představuje významný bod na této cestě, nabízející pohled na vývoj roli hlasových asistentů v naší interakci se zařízeními. Tento článek zkoumá účinky ReALM na Siri a potenciální směry pro budoucí hlasové asistenty.

Vzestup hlasových asistentů: Genesis Siri

Cesta začala, když Apple integroval Siri, sofistikovaný systém umělé inteligence, do svých zařízení, transformujících, jak interagujeme s naší technologií. Původem z technologie vyvinuté SRI International, se Siri stal zlatým standardem pro hlasově aktivované asistenty. Uživatelé mohli provádět úkoly, jako jsou internetové vyhledávání a plánování, prostřednictvím jednoduchých hlasových příkazů, rozšiřujících hranice konverzačních rozhraní a zapalujících soutěžní závod v trhu hlasových asistentů.

Siri 2.0: Nová éra hlasových asistentů

Jak se Apple chystá na uvedení iOS 18 na Worldwide Developers Conference (WWDC) v červnu 2024, roste očekávání v technologické komunitě, co se očekává jako významná evoluce Siri. Tato nová fáze, označovaná jako Siri 2.0, slibuje přinést pokroky v generativní AI na přední místo, potenciálně transformujících Siri do ještě sofistikovanějšího virtuálního asistenta. Zatímco přesné vylepšení zůstávají důvěrné, technologický svět je plný perspektivy, že Siri dosáhne nových výšin v konverzační inteligenci a personalizované interakci s uživatelem, využívajících sofistikovaných jazykových učících se modelů, jako je technologie ChatGPT. V tomto kontextu uvedení ReALM, kompaktního jazykového modelu, naznačuje možné vylepšení, které Siri 2.0 může přinést svým uživatelům. Následující sekce budou diskutovat o roli ReALM a jeho potenciálním vlivu jako důležitém kroku vngoing pokroku Siri.

Odhalení ReALM

ReALM, který stojí za Reference Resolution As Language Modeling, je specializovaný jazykový model, který je schopen rozluštit kontextové a víceznačné odkazy během konverzací, jako je “ten jeden” nebo “tento”. Vyniká svou schopností zpracovat konverzační a vizuální odkazy a transformovat je do textového formátu. Tato schopnost umožňuje ReALM interpretovat a interagovat se screenovými rozloženími a prvky bezproblémově v rámci dialogu, kritickou funkcí pro přesné zpracování dotazů ve vizuálně závislých kontextech.

Architektura ReALM se pohybuje od menších verzí, jako je ReALM-80M, až po větší, jako ReALM-3B, jsou optimalizovány pro kompaktní integraci do mobilních zařízení. Tato efektivita umožňuje konzistentní výkon s redukovaným spotřebou energie a nižším zatížením procesorových zdrojů, důležité pro prodloužení životnosti baterie a poskytování rychlých odezev na různých zařízeních.

Kromě toho design ReALM umožňuje modulární aktualizace, usnadňující bezproblémovou integraci nejnovějších pokroků v rozlišení odkazů. Tento modulární přístup nejen zvyšuje adaptabilitu a flexibilitu modelu, ale také zajišťuje jeho dlouhodobou životaschopnost a účinnost, umožňující mu splňovat měnící se potřeby uživatelů a technologické standardy napříč širokým spektrem zařízení.

ReALM vs. Jazykové modely

Zatímco tradiční jazykové modely, jako GPT-3.5,主要ně zpracovávají text, ReALM využívá multimodální cestu, podobnou modelům, jako Gemini, pracujícím s textem i vizuálními prvky. Na rozdíl od širších funkcí GPT-3.5 a Gemini, které zpracovávají úkoly, jako je generování textu, porozumění a tvorba obrázků, ReALM je zaměřen zejména na rozluštit konverzační a vizuální kontexty. Nicméně, na rozdíl od multimodálních modelů, jako Gemini, které přímo zpracovávají vizuální a textová data, ReALM převádí vizuální obsah obrazovek do textu, anotujících entit a jejich prostorových detailů. Tento převod umožňuje ReALM interpretovat obsah obrazovky v textovém formátu, usnadňující přesnější identifikaci a pochopení odkazů na obrazovce.

Jak ReALM může transformovat Siri?

ReALM může výrazně vylepšit schopnosti Siri, transformujících ji do více intuitivního a kontextově vědomého asistenta. Zde je, jak by to mohlo ovlivnit:

  • Lepší kontextové pochopení: ReALM se specializuje na rozluštit víceznačné odkazy v konverzacích, potenciálně výrazně zlepšujících schopnost Siri pochopit kontextově závislé dotazy. To by umožnilo uživatelům interagovat se Siri více přirozeně, jelikož by mohla pochopit odkazy, jako “přehrajte tu písničku znovu” nebo “zavolejte jí” bez dalších detailů.
  • Vylepšená interakce se screenem: S jeho schopností interpretovat screenová rozložení a prvky v rámci dialogů, ReALM by mohl umožnit Siri integrovat se více bezproblémově s vizuálním obsahem zařízení. Siri by pak mohla vykonávat příkazy související s položkami na obrazovce, jako “otevřít aplikaci vedle Pošty” nebo “přesunout se dolů na této stránce”, rozšiřujících její užitnou hodnotu v různých úkolech.
  • Personalizace: ReALM by mohl zlepšit schopnost Siri nabízet personalizované a adaptivní odpovědi. Časem by Siri mohla předpovídat potřeby a preference uživatelů, navrhujících nebo iniciujících akce na základě předchozích interakcí a kontextového pochopení, podobně jako znalý osobní asistent.
  • Vylepšená přístupnost: Schopnosti ReALM pro kontextové a referenční pochopení by mohly výrazně prospět přístupnosti, činíc technologii více inkluzivní. Siri, poháněná ReALM, by mohla interpretovat neurčité nebo částečné příkazy přesně, usnadňujících snadnější a přirozenější použití zařízení pro lidi s fyzickými nebo zrakovými postiženími.

ReALM a Appleova AI strategie

Uvedení ReALM odráží klíčový aspekt Appleovy AI strategie, zaměřující se na inteligenci na zařízení. Tento vývoj se shoduje s širším průmyslovým trendem edge computingu, kde jsou data zpracovávána místně na zařízeních, snižujících latenci, konzervujících šířku pásma a zajišťujících bezpečnost uživatelských dat na zařízení samotném.

Projekt ReALM také demonstruje Appleovy širší AI cíle, zaměřené nejen na provedení příkazů, ale také na hlubší pochopení a předpověď potřeb uživatelů. ReALM představuje krok směrem k budoucím inovacím, kde zařízení mohou poskytovat více personalizovanou a prediktivní podporu, informovanou hlubokým pochopením uživatelských zvyklostí a preferencí.

Závěrečné shrnutí

Appleova cesta od Siri po ReALM zdůrazňuje pokračující vývoj v technologii hlasových asistentů, zaměřujících se na vylepšené kontextové pochopení a interakci s uživatelem. ReALM signalizuje posun směrem k více inteligentní, personalizované a vědomé ochraně soukromí hlasové asistence, shodující se s průmyslovým trendem edge computingu pro vylepšené zpracování na zařízení a bezpečnost.

Dr. Tehseen Zia je docent s trvalým úvazkem na COMSATS University Islamabad, držitel titulu PhD v oblasti AI z Vienna University of Technology, Rakousko. Specializuje se na umělou inteligenci, strojové učení, datové vědy a počítačové vidění, a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní výzkumník a působil jako konzultant pro umělou inteligenci.