Umělá inteligence
Od Siri k ReALM: Cesta společnosti Apple k chytřejším hlasovým asistentům

Od uvedení Siri v roce 2011 je Apple trvale v popředí inovací hlasových asistentů a přizpůsobuje se globálním potřebám uživatelů. Představení ReALM představuje významný bod na této cestě a nabízí pohled na vyvíjející se roli hlasových asistentů v naší interakci se zařízeními. Tento článek zkoumá účinky ReALM na Siri a potenciální směry pro budoucí hlasové asistenty.
Vzestup hlasových asistentů: Siri's Genesis
Cesta začala, když Apple integroval Siri, sofistikovaný systém umělé inteligence, do svých zařízení, čímž se změnil způsob, jakým interagujeme s naší technologií. Pochází z technologie vyvinuté společností SRI International, Siri se stala zlatým standardem pro hlasově aktivované asistenty. Uživatelé by mohli provádět úkoly, jako je vyhledávání na internetu a plánování prostřednictvím jednoduchých hlasových příkazů, posouvat hranice konverzačních rozhraní a podnítit konkurenční závod na trhu hlasových asistentů.
Siri 2.0: Nová éra hlasových asistentů
Jak se Apple připravuje na vydání iOS 18 na Konference celosvětových vývojářů (WWDC) v červnu 2024 se v technické komunitě buduje očekávání toho, co se očekává jako významný vývoj Siri. Tato nová fáze, označovaná jako Série 2.0, slibuje přinést do popředí generativní vylepšení AI a potenciálně proměnit Siri v ještě sofistikovanější virtuální asistentku. I když přesná vylepšení zůstávají důvěrná, technologický svět je vzrušený vyhlídkou, že Siri dosáhne nových výšin v konverzační inteligenci a personalizované interakci s uživatelem, využívající druh sofistikovaných modelů výuky jazyků, které lze vidět v technologiích jako ChatGPT. V této souvislosti zavedení ReALM, kompaktního jazykového modelu, naznačuje možná vylepšení, která by Siri 2.0 mohla svým uživatelům přinést. Následující části budou diskutovat o roli ReALM a jeho potenciálním vlivu jako důležitém kroku v pokračujícím pokroku Siri.
Odhalení ReALM
ReALM, což je zkratka pro referenční rozlišení jako jazykové modelování, je specializovaný jazykový model zběhlý v dešifrování kontextových a nejednoznačných odkazů během konverzací, jako je „ten“ nebo „toto“. Vyniká svou schopností zpracovávat konverzační a vizuální odkazy a převádět je do textového formátu. Tato schopnost umožňuje ReALM bezproblémově interpretovat rozvržení obrazovky a prvky a pracovat s nimi v rámci dialogu, což je kritická funkce pro přesné zpracování dotazů ve vizuálně závislých kontextech.
Architektura ReALM sahá od menších verzí, jako je ReALM-80M, po větší verze, jako je ReALM-3B, jsou optimalizovány tak, aby byly výpočetně efektivní pro integraci do mobilních zařízení. Tato účinnost umožňuje konzistentní výkon se sníženou spotřebou energie a menším zatížením procesních zdrojů, což je důležité pro prodloužení životnosti baterie a poskytování rychlé odezvy na různých zařízeních.
Konstrukce ReALM navíc umožňuje modulární aktualizace, což usnadňuje bezproblémovou integraci nejnovějších vylepšení v referenčním rozlišení. Tento modulární přístup nejen zvyšuje přizpůsobivost a flexibilitu modelu, ale také zajišťuje jeho dlouhodobou životaschopnost a efektivitu, což mu umožňuje plnit vyvíjející se potřeby uživatelů a technologické standardy napříč širokým spektrem zařízení.
ReALM vs. jazykové modely
Zatímco tradiční jazykové modely mají rády GPT-3.5 hlavně zpracovává text, ReALM se ubírá multimodální cestou, podobně jako modely jako Gemini, a to tím, že pracuje jak s textem, tak s vizuálními prvky. Na rozdíl od širších funkcí GPT-3.5 a Blíženci, které zvládají úkoly jako generování textu, porozumění a vytváření obrázků, se ReALM zaměřuje zejména na dešifrování konverzačních a vizuálních kontextů. Na rozdíl od multimodálních modelů jako Gemini, které přímo zpracovávají vizuální a textová data, však ReALM převádí vizuální obsah obrazovek do textu, anotuje entity a jejich prostorové detaily. Tato konverze umožňuje ReALM interpretovat obsah obrazovky textovým způsobem, což usnadňuje přesnější identifikaci a pochopení odkazů na obrazovce.
Jak může ReALM proměnit Siri?
ReALM by mohl výrazně vylepšit možnosti Siri a přeměnit ji na intuitivnějšího a kontextově orientovaného asistenta. Zde je návod, jak to může ovlivnit:
- Lepší kontextové porozumění: ReALM se specializuje na dešifrování nejednoznačných odkazů v konverzacích, což potenciálně výrazně zlepšuje schopnost Siri porozumět kontextově závislým dotazům. To by uživatelům umožnilo komunikovat se Siri přirozeněji, protože by to mohlo pochopit odkazy jako „přehrajte tu píseň znovu“ nebo „zavolejte jí“ bez dalších podrobností.
- Vylepšená interakce s obrazovkou: Díky své odbornosti v interpretaci rozvržení obrazovky a prvků v rámci dialogů může ReALM umožnit Siri plynulejší integraci s vizuálním obsahem zařízení. Siri by pak mohla spouštět příkazy související s položkami na obrazovce, jako je „otevřít aplikaci vedle Mail“ nebo „posouvat na této stránce dolů“, čímž rozšíří svou užitečnost v různých úkolech.
- Personalizace: Tím, že se ReALM poučí z předchozích interakcí, mohl zlepšit schopnost Siri nabízet personalizované a adaptivní reakce. Časem může Siri předvídat potřeby a preference uživatelů, navrhovat nebo iniciovat akce na základě chování v minulosti a porozumění kontextu, podobně jako znalý osobní asistent.
- Vylepšená přístupnost: Možnosti kontextového a referenčního porozumění ReALM by mohly významně přispět k dostupnosti a učinit technologii inkluzivnější. Siri, poháněná technologií ReALM, dokázala přesně interpretovat nejasné nebo částečné příkazy a usnadnit tak snazší a přirozenější používání zařízení pro lidi s fyzickým nebo zrakovým postižením.
ReALM a strategie AI společnosti Apple
Uvedení ReALM na trh odráží klíčový aspekt strategie AI společnosti Apple s důrazem na inteligenci na zařízení. Tento vývoj je v souladu s širším průmyslovým trendem edge computingu, kde se data zpracovávají lokálně na zařízeních, čímž se snižuje latence, šetří se šířka pásma a jsou zajištěna uživatelská data na samotném zařízení.
Projekt ReALM také představuje širší cíle společnosti Apple v oblasti umělé inteligence, které se zaměřují nejen na provádění příkazů, ale také na hlubší porozumění a predikci uživatelských potřeb. ReALM představuje krok směrem k budoucím inovacím, kde by zařízení mohla poskytovat personalizovanější a prediktivní podporu na základě důkladného pochopení uživatelských zvyků a preferencí.
Bottom Line
Vývoj společnosti Apple od Siri k ReALM zdůrazňuje pokračující vývoj v technologii hlasových asistentů se zaměřením na lepší porozumění kontextu a interakci s uživatelem. ReALM znamená posun k inteligentnější, personalizované hlasové asistenci s ohledem na soukromí, která je v souladu s průmyslovým trendem edge computingu pro vylepšené zpracování a zabezpečení na zařízení.