Umělá inteligence

Revoluce v oblasti AI s Apple’s ReALM: Budoucnost inteligentních asistentů

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

V neustále se vyvíjejícím prostředí umělé inteligence se Apple tiše stal průkopníkem průlomového přístupu, který by mohl předefinovat, jak interagujeme s našimi iPhony. ReALM, nebo Reference Resolution as Language Modeling, je AI model, který slibuje přinést novou úroveň kontextuální povědomí a bezproblémovou asistenci.

Zatímco tech svět žije nadšením z OpenAI’s GPT-4 a dalších velkých jazykových modelů (LLM), Apple’s ReALM představuje posun v myšlení – přechod od závislosti pouze na cloud-based AI k více personalizovanému, on-device přístupu. Cílem je vytvořit inteligentního asistenta, který skutečně rozumí vám, vašemu světu a složitým vazbám vašich denních digitálních interakcí.

V srdci ReALM leží schopnost řešit odkazy – ty ambivalentní zájmena jako “to,” “oni,” nebo “to” které lidé navigují s lehkostí díky kontextovým signálům. Pro AI asistenty, však, to bylo dlouho překážkou, vedoucí k frustrujícím nedorozuměním a rozdělené uživatelské zkušenosti.

Představte si scénář, ve kterém požádáte Siri, aby “nalezla zdravý recept na základě toho, co je ve vašem lednici, ale bez hub – ty nemám rád.” S ReALM, váš iPhone by nejen pochopil odkazy na informace na obrazovce (obsah vašeho lednice), ale také si vzpomenul na vaše osobní preference (nepřátelství k hubám) a širší kontext nalezení receptu přizpůsobeného těmto parametrům.

Tato úroveň kontextuální povědomí je kvantový skok od keyword-matching přístupu většiny současných AI asistentů. Školením LLM, aby bezproblémově řešily odkazy napříč třemi klíčovými doménami – konverzační, on-screen a pozadí – ReALM cílí na vytvoření skutečně inteligentního digitálního společníka, který se cítí méně jako robotický hlasový asistent a více jako prodloužení vašich vlastních myšlenkových procesů.

Konverzační doména: Paměť na to, co přišlo předtím

Konverzační AI, ReALM řeší dlouholetou výzvu: udržování koherence a paměti napříč několika otázkami a odpověďmi. S jeho schopností řešit odkazy v rámci probíhající konverzace, ReALM by mohl konečně splnit slib přirozené, zpáteční interakce s vaším digitálním asistentem.

Představte si, že požádáte Siri, aby “vzpomněla si, že máte rezervovat lístky na vaši dovolenou, když dostanete plat na pátek.” S ReALM, Siri by nejen pochopil kontext vašich dovolenkových plánů (potenciálně získaných z předchozí konverzace nebo informací na obrazovce), ale také měl povědomí spojit “dostání se plat” s vaším pravidelným platovým rutinem.

Tato úroveň konverzační inteligence se cítí jako skutečný skok vpřed, umožňující bezproblémové multi-otázka dialogy bez frustrace z neustálého vysvětlování kontextu nebo opakovaného sebe.

On-Screen doména: Dávání vašemu asistentovi očí

Možná nejzásadnější aspekt ReALM, však, spočívá v jeho schopnosti řešit odkazy na entity na obrazovce – zásadní krok směrem k vytvoření skutečně hands-free, voice-driven uživatelské zkušenosti.

Apple’s výzkumný článek diskutuje o novém technickém přístupu pro kódování vizuálních informací z vašeho zařízení na obrazovce do formátu, který LLM může zpracovat. Tímto způsobem, ReALM může “vidět” a pochopit prostorové vztahy mezi různými entitami na obrazovce.

Představte si scénář, ve kterém se díváte na seznam restaurací a požádáte Siri o “směr k té na Main Street.” S ReALM, váš iPhone by nejen pochopil odkaz na konkrétní umístění, ale také spojil jej s relevantní entitou na obrazovce – restaurační zápis odpovídající tomuto popisu.

Tato úroveň vizuálního porozumění otevírá svět možností, od bezproblémového jednání s odkazy v aplikacích a webových stránkách až po integraci s budoucími AR rozhraními a dokonce i vnímání a reagování na reálné objekty a prostředí prostřednictvím vašeho zařízení kamery.

Výzkumný článek o Apple’s ReALM modelu hovoří o složitých detailech, jak systém kóduje entity na obrazovce a řeší odkazy napříč různými kontexty. Zde je zjednodušené vysvětlení algoritmů a příkladů poskytnutých v článku:

Kódování entit na obrazovce: Článek zkoumá několik strategií pro kódování entit na obrazovce v textovém formátu, který může být zpracován Large Language Model (LLM). Jeden přístup zahrnuje shlukování okolních objektů na základě jejich prostorové blízkosti a generování příkazů, které zahrnují tyto shlukované objekty. Tento přístup však může vést k příliš dlouhým příkazům, jakmile se počet entit zvýší.

Konečný přístup přijatý výzkumníky spočívá v analýze obrazovky shora dolů, zleva doprava, reprezentaci rozložení v textovém formátu. To je dosaženo pomocí Algoritmu 2, který seřadí objekty na obrazovce podle jejich středových souřadnic, určí vertikální úrovně seskupením objektů v rámci určité marže a konstruuje analýzu obrazovky spojením těchto úrovní s tabulátory oddělujícími objekty na stejné řádce.

Vložením relevantních entit (telefonních čísel v tomto případě) do textové reprezentace, LLM může pochopit kontext obrazovky a řešit odkazy odpovídajícím způsobem.

Příklady řešení odkazů: Článek poskytuje několik příkladů, aby ilustroval schopnosti ReALM modelu při řešení odkazů napříč různými kontexty:

a. Konverzační odkazy: Pro požadavek jako “Siri, najdi mi zdravý recept na základě toho, co je ve vašem lednici, ale bez hub – ty nemám rád,” ReALM může pochopit kontext obrazovky (obsah lednice), konverzační kontext (nalezení receptu) a uživatelské preference (nepřátelství k hubám).

b. Pozadí odkazy: V příkladu “Siri, přehrajte tu píseň, která hrála v supermarketu dříve,” ReALM může potenciálně zachytit a identifikovat ambientní audio snímky, aby řešil odkaz na konkrétní píseň.

c. On-Screen odkazy: Pro požadavek jako “Siri, připomněte mi, abych rezervoval lístky na dovolenou, když dostanu plat na pátek,” ReALM může kombinovat informace z uživatelských rutin (plat), konverzací nebo webových stránek (dovolenkové plány) a kalendáře, aby pochopil a jednal podle požadavku.

Tyto příklady demonstrují ReALM’s schopnost řešit odkazy napříč konverzačními, on-screen a pozadími kontexty, umožňující více přirozenou a bezproblémovou interakci s inteligentními asistenty.

Pozadí domény

Přesahující pouze konverzační a on-screen kontexty, ReALM také zkoumá schopnost řešit odkazy na pozadí entity – ty periferní události a procesy, které často unikají našim současným AI asistentům.

Představte si scénář, ve kterém požádáte Siri, aby “přehrála tu píseň, která hrála v supermarketu dříve.” S ReALM, váš iPhone by potenciálně mohl zachytit a identifikovat ambientní audio snímky, aby Siri mohla bezproblémově spustit a přehrát stopu, o kterou jste uvažovali.

Tato úroveň pozadí povědomí se cítí jako první krok směrem k skutečně všudypřítomnému, kontextuálně vědomému AI asistenci – digitálnímu společníkovi, který nejen rozumí vašim slovům, ale také bohaté tapisérii vašich denních zkušeností.

Slib on-device AI: Privátnost a personalizace

Zatímco schopnosti ReALM jsou nepochybně působivé, možná jeho nejvýznamnější výhodou je Apple’s dlouhodobý závazek k on-device AI a uživatelské privátnosti.

Na rozdíl od cloud-based AI modelů, které spoléhají na odesílání uživatelských dat na vzdálené servery pro zpracování, ReALM je navržen tak, aby fungoval zcela na vašem iPhone nebo jiných Apple zařízeních. To nejen řeší obavy kolem datové privátnosti, ale také otevírá nové možnosti pro AI asistenci, která skutečně rozumí a přizpůsobuje se vám jako jednotlivci.

Učením se přímo z vašich on-device dat – vašich konverzací, vzorců použití aplikací a dokonce i ambientních senzorických vstupů – ReALM by mohl potenciálně vytvořit hyper-personalizovaný digitální asistent přizpůsobený vašim jedinečným potřebám, preferencím a denním rutinám.

Tato úroveň personalizace se cítí jako paradigmatický posun od jednoho-size-fits-all přístupu současných AI asistentů, kteří často zápasí s přizpůsobením se individualitám uživatelů, kontextům a idiosynkrazím.

ReALM-250M model dosahuje působivých výsledků:

- Konverzační porozumění: 97.8
- Syntetické úkoly porozumění: 99.8
- On-Screen úkol výkon: 90.6
- Nepředvídané domény zpracování: 97.2

Etické úvahy

Samozřejmě, s takovou úrovní personalizace a kontextuální povědomí přichází řada etických úvah kolem privátnosti, transparentnosti a potenciálu pro AI systémy, aby ovlivňovaly nebo dokonce manipulovaly uživatelské chování.

Jak ReALM získá hlubší porozumění vašemu dennímu životu – od vašich stravovacích návyků a médií až po vaše sociální interakce a osobní preference – existuje riziko, že tato technologie bude použita způsoby, které porušují uživatelskou důvěru nebo překračují etické hranice.

Apple’s výzkumníci jsou si této napětí dobře vědomi, uznávají v článku potřebu najít pečlivou rovnováhu mezi poskytováním skutečně užitečné, personalizované AI zkušenosti a respektem k uživatelské privátnosti a agentuře.

Tato výzva není jedinečná pro Apple nebo ReALM, samozřejmě – je to konverzace, se kterou se musí celá tech průmysl vypořádat, jak AI systémy se stávají stále sofistikovanějšími a integrovanějšími do našich denních životů.

Směrem k chytřejší, více přirozené AI zkušenosti

Jak Apple pokračuje v posouvání hranic on-device AI s modely jako ReALM, slib skutečně inteligentního, kontextuálně vědomého digitálního asistenta se cítí blíže než kdykoli předtím.

Představte si svět, ve kterém Siri (nebo jakýkoli jiný AI asistent v budoucnosti) se cítí méně jako odtržený hlas z cloudu a více jako prodloužení vašich vlastních myšlenkových procesů – partner, který nejen rozumí vašim slovům, ale také bohaté tapisérii vašeho digitálního života, vašim denním rutinám a vašim jedinečným preferencím a kontextům.

Od bezproblémového jednání s odkazy v aplikacích a webových stránkách až po předvídání vašich potřeb na základě vaší polohy, aktivity a ambientních senzorických vstupů, ReALM představuje významný krok směrem k více přirozené, bezproblémové AI zkušenosti, která rozostřuje hranice mezi našimi digitálními a fyzickými světy.

Samozřejmě, realizace této vize bude vyžadovat více než jen technickou inovaci – bude také vyžadovat uvážlivý, etický přístup k AI vývoji, který priorizuje uživatelskou privátnost, transparentnost a agenturu.

Jak Apple pokračuje v rafinování a rozšiřování schopností ReALM, tech svět bude jistě sledovat s napětím, zda uvidí, jak tento průlomový AI model formuje budoucnost inteligentních asistentů a uvádí novou éru skutečně personalizovaného, kontextuálně vědomého počítačového zpracování.

Zda ReALM splní svůj slib překonání dokonce i mocného GPT-4, zůstává být viděno. Ale jedna věc je jistá: věk AI asistentů, kteří skutečně rozumí nám – našim slovům, našim světům a bohaté tapisérii našich denních životů – je plně rozvinut, a Apple’s poslední inovace může být na čele této revoluce.

Aayush Mittal

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.

Unite.AI