Artificiell intelligens

Revolutionerande AI med Apples ReALM: Framtiden för intelligenta assistenter

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I den ständigt föränderliga landskapet av artificiell intelligens har Apple tyst pioneerat en banbrytande approach som kan omdefiniera hur vi interagerar med våra Iphones. ReALM, eller Reference Resolution som Language Modeling, är en AI-modell som lovar att bringa en ny nivå av kontextuell medvetenhet och sömlös assistans.

Medan tech-världen surrar av upphetsning över OpenAI’s GPT-4 och andra stora språkmodeller (LLM), representerar Apples ReALM en skift i tänkande – en rörelse bort från att enbart förlita sig på molnbaserad AI till en mer personlig, på-enhet-approach. Målet? Att skapa en intelligent assistent som verkligen förstår dig, din värld och den intrikata väven av dina dagliga digitala interaktioner.

I hjärtat av ReALM ligger förmågan att lösa referenser – de tvetydiga pronomen som “det“, “de” eller “den” som människor navigerar med lätthet tack vare kontextuella ledtrådar. För AI-assistenter, dock, har detta länge varit ett hinder, vilket har lett till frustrerande missförstånd och en ojämn användarupplevelse.

Föreställ dig en scenario där du ber Siri att “hitta en hälsosam recept baserat på vad som finns i min kyl, men håll mushrooms – jag hatar dem.” Med ReALM, skulle din iPhone inte bara förstå referenserna till på-skärm-informationen (innehållet i din kyl) utan också komma ihåg dina personliga preferenser (ogillar svamp) och den bredare kontexten av att hitta ett recept anpassat till dessa parametrar.

Denna nivå av kontextuell medvetenhet är ett kvantsprång från den keyword-matchningsapproach som de flesta nuvarande AI-assistenter använder. Genom att träna LLM att sömlöst lösa referenser över tre nyckeldomäner – konversationell, på-skärm och bakgrund – syftar ReALM till att skapa en verkligen intelligent digital kompanjon som känns mindre som en robotisk röstassistent och mer som en utvidgning av dina egna tankeprocesser.

Den konversationella domänen: Komma ihåg vad som kom före

Konversationell AI, ReALM tacklar en långvarig utmaning: att upprätthålla sammanhang och minne över flera omgångar av dialog. Med dess förmåga att lösa referenser inom en pågående konversation, kunde ReALM slutligen infria löftet om en naturlig, växelvis interaktion med din digitala assistent.

Föreställ dig att du ber Siri att “påminna mig att boka biljetter för min semester när jag får lön på fredag.” Med ReALM, skulle Siri inte bara förstå kontexten av dina semesterrplaner (potentiellt insamlad från en tidigare konversation eller på-skärm-information) utan också ha medvetenheten att koppla “får lön” till din regelbundna lönerutin.

Denna nivå av konversationell intelligens känns som ett verkligt språng framåt, möjliggörande sömlösa multi-omgångsdialoger utan frustrationen av att ständigt förklara kontext eller upprepa dig själv.

Den på-skärm-domänen: Ge din assistent ögon

Kanske den mest banbrytande aspekten av ReALM, dock, ligger i dess förmåga att lösa referenser till på-skärm-entiteter – ett avgörande steg mot att skapa en verkligen handsfree, röststyrd användarupplevelse.

Apples forskningspapper diskuterar en ny teknik för att koda visuell information från din enhets skärm till ett format som LLM kan bearbeta. Genom att i princip rekonstruera layouten av din skärm i en textbaserad representation, kan ReALM “se” och förstå de rumsliga relationerna mellan olika på-skärm-element.

Föreställ dig en scenario där du tittar på en lista med restauranger och ber Siri om “riktningar till den på Main Street.” Med ReALM, skulle din iPhone inte bara förstå referensen till en specifik plats utan också koppla den till den relevanta på-skärm-entiteten – restauranglistningen som matchar den beskrivningen.

Denna nivå av visuell förståelse öppnar upp en värld av möjligheter, från att sömlöst agera på referenser inom appar och webbplatser till att integrera med framtida AR-gränssnitt och till och med uppfatta och svara på verkliga världens objekt och miljöer genom din enhets kamera.

Forskningspappret om Apples ReALM-modell talar till de intrikata detaljerna om hur systemet kodar på-skärm-entiteter och löser referenser över olika sammanhang. Här är en förenklad förklaring av algoritmerna och exemplen som ges i pappret:

Kodning av på-skärm-entiteter: Pappret utforskar flera strategier för att koda på-skärm-element i en textbaserad format som kan bearbetas av en Large Language Model (LLM). En approach innebär att klustra omgivande objekt baserat på deras rumsliga närhet och generera prompts som inkluderar dessa klustrade objekt. Men denna metod kan leda till onödigt långa prompts när antalet entiteter ökar.

Den slutliga approachen som antogs av forskarna är att parsea skärmen i en top-to-bottom, left-to-right-ordning, representera layouten i en textbaserad format. Detta uppnås genom Algoritm 2, som sorterar på-skärm-objekten baserat på deras centrumkoordinater, bestämmer vertikala nivåer genom att gruppera objekt inom en viss marginal och konstruerar på-skärm-parse genom att konkatenera dessa nivåer med flikar som separerar objekt på samma rad.

Genom att injicera de relevanta entiteterna (telefonnummer i detta fall) i den textbaserade representationen, kan LLM förstå på-skärm-sammanhanget och lösa referenser enligt.

Exempel på referenslösning: Pappret tillhandahåller flera exempel för att illustrera ReALM-modellens förmåga att lösa referenser över olika sammanhang:

a. Konversationella referenser: För en begäran som “Siri, hitta en hälsosam recept baserat på vad som finns i min kyl, men håll mushrooms – jag hatar dem”, kan ReALM förstå på-skärm-sammanhanget (innehållet i din kyl), konversationskontexten (att hitta ett recept) och användarens preferenser (ogillar svamp).

b. Bakgrundsreferenser: I exemplet “Siri, spela den låt som spelades på stormarknaden tidigare”, kan ReALM potentiellt fånga och identifiera ambienta ljudklipp för att lösa referensen till den specifika låten.

c. På-skärm-referenser: För en begäran som “Siri, påminna mig att boka biljetter för semestern när jag får lön på fredag”, kan ReALM kombinera information från användarens rutiner (lönedag), på-skärm-konversationer eller webbplatser (semesterrplaner) och kalendern för att förstå och agera på begäran.

Dessa exempel demonstrerar ReALMs förmåga att lösa referenser över konversationella, på-skärm och bakgrunds-sammanhang, möjliggörande en mer naturlig och sömlös interaktion med intelligenta assistenter.

Bakgrundsdomänen

Utöver den konversationella och på-skärm-kontexten, utforskar ReALM också förmågan att lösa referenser till bakgrunds-entiteter – de perifera händelser och processer som ofta går obemärkta förbi våra nuvarande AI-assistenter.

Föreställ dig en scenario där du ber Siri att “spela den låt som spelades på stormarknaden tidigare.” Med ReALM, kunde din iPhone potentiellt fånga och identifiera ambienta ljudklipp, vilket tillåter Siri att sömlöst hämta och spela den låt du hade i åtanke.

Denna nivå av bakgrundsmedvetenhet känns som det första steget mot en verkligen allomfattande, kontext-medveten AI-assistans – en digital kompanjon som inte bara förstår dina ord, utan också den rika väven av dina dagliga upplevelser.

Löftet om på-enhet-AI: Sekretess och personanpassning

Medan ReALMs förmågor är utan tvekan imponerande, ligger dess mest signifikanta fördel kanske i Apples långvariga åtagande till på-enhet-AI och användarsekretess.

Till skillnad från molnbaserade AI-modeller som förlitar sig på att skicka användardata till avlägsna servrar för bearbetning, är ReALM utformad för att fungera helt på din iPhone eller andra Apple-enheter. Detta adresserar inte bara problem kring datasekretess, utan öppnar också upp nya möjligheter för AI-assistans som verkligen förstår och anpassar sig till dig som individ.

Genom att lära direkt från din på-enhet-data – dina konversationer, appanvändningsmönster och till och med ambienta sensoriska inmatningar – kunde ReALM potentiellt skapa en hyper-personanpassad digital assistent anpassad till dina unika behov, preferenser och dagliga rutiner.

Denna nivå av personanpassning känns som en paradigmförändring från den en-storlek-passar-alla-approach som nuvarande AI-assistenter ofta kämpar med för att anpassa sig till individuella användares egenheter och sammanhang.

ReALM-250M-modellen uppnår imponerande resultat:

- Konversationell förståelse: 97.8
- Syntetisk uppgiftsförståelse: 99.8
- På-skärm-uppgiftsprestation: 90.6
- Osett domänhantering: 97.2

Etiska överväganden

Självklart, med en sådan hög grad av personanpassning och kontextuell medvetenhet, kommer en mängd etiska överväganden kring sekretess, transparens och den potentiella risken för att AI-system kan påverka eller till och med manipulera användarbetende.

Medan ReALM får en djupare förståelse för våra dagliga liv – från våra ätbeteenden och mediekonsumtionsmönster till våra sociala interaktioner och personliga preferenser – finns det en risk för att denna teknik används på sätt som kränker användartillit eller korsar etiska gränser.

Apples forskare är väl medvetna om denna spänning, erkänner i sin artikel behovet av att hitta en balans mellan att leverera en verkligt hjälpsam, personanpassad AI-upplevelse och respektera användarsekretess och handlingsfrihet.

Denna utmaning är inte unik för Apple eller ReALM, förstås – det är en diskussion som hela tech-industrin måste hantera när AI-system blir alltmer sofistikerade och integrerade i våra dagliga liv.

Mot en smartare, mer naturlig AI-upplevelse

Medan Apple fortsätter att driva gränserna för på-enhet-AI med modeller som ReALM, känns löftet om en verkligen intelligent, kontext-medveten digital assistent närmare än någonsin tidigare.

Föreställ dig en värld där Siri (eller vad denna AI-assistent kan kallas i framtiden) känns mindre som en avkroppad röst från molnet och mer som en utvidgning av dina egna tankeprocesser – en partner som inte bara förstår dina ord, utan också den rika väven av ditt digitala liv, dina dagliga rutiner och dina unika preferenser och sammanhang.

Från att sömlöst agera på referenser inom appar och webbplatser till att förutse dina behov baserat på din plats, aktivitet och ambienta sensoriska inmatningar, representerar ReALM ett signifikant steg mot en mer naturlig, sömlös AI-upplevelse som suddar ut gränserna mellan vår digitala och fysiska värld.

Förstås, att förverkliga denna vision kommer att kräva mer än bara teknisk innovation – det kommer också att kräva en genomtänkt, etisk approach till AI-utveckling som prioriterar användarsekretess, transparens och handlingsfrihet.

Medan Apple fortsätter att finslipa och expandera ReALMs förmågor, kommer tech-världen utan tvekan att se på med andlöst intresse, ivriga att se hur denna banbrytande AI-modell formar framtiden för intelligenta assistenter och inleder en ny era av verkligt personanpassad, kontext-medveten datoranvändning.

Om ReALM lever upp till sitt löfte att överträffa till och med den mäktiga GPT-4 återstår att se. Men en sak är säker: åldern för AI-assistenter som verkligen förstår oss – våra ord, våra världar och den rika väven av våra dagliga liv – är väl på gång, och Apples senaste innovation kan mycket väl vara i framkanten av denna revolution.

Aayush Mittal

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.

Unite.AI