Kunstig intelligens

Revolutionering af AI med Apples ReALM: Fremtiden for intelligente assistenter

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I det konstant udviklende landskab af kunstig intelligens har Apple stille beene udviklet en banebrydende tilgang, der kan omdefinere, hvordan vi interagerer med vores iPhones. ReALM, eller Reference Resolution som Language Modeling, er en AI-model, der lover at bringe et nyt niveau af kontekstuel bevidsthed og gnidningsløs assistance.

Mens tech-verdenen buzzzer med begejstring over OpenAI’s GPT-4 og andre store sprogmodeller (LLM), repræsenterer Apples ReALM en skift i tænkning – et skridt væk fra at afhænge udelukkende af cloud-baseret AI til en mere personlig, på-enhed-tilgang. Målet? At skabe en intelligent assistent, der virkelig forstår dig, din verden og den intrikate væv af dine daglige digitale interaktioner.

I hjertet af ReALM ligger evnen til at løse referencer – disseambiguous pronominer som “det“, “de” eller “den“, som mennesker navigerer med lethed takket være kontekstuelle signaler. For AI-assistenter har dette dog længe været en forhindring, der har ført til frustrerende misforståelser og en ujævn brugeroplevelse.

Forestil dig en situation, hvor du beder Siri om at “find mig en sund opskrift baseret på, hvad der er i mit køleskab, men hold mushrooms – jeg hader dem.” Med ReALM ville din iPhone ikke kun forstå referencerne til på-skærmen-information (indholdet af dit køleskab) men også huske dine personlige præferencer (had til mushrooms) og den bredere kontekst af at finde en opskrift tilpasset disse parametre.

Dette niveau af kontekstuel bevidsthed er et kvantum-spring fra den nøgleord-matching-tilgang af de fleste nuværende AI-assistenter. Ved at træne LLM til at løse referencer på tværs af tre nøgle-domæner – konversation, på-skærmen og baggrund – sigter ReALM mod at skabe en sandt intelligent digital makker, der føles mindre som en robotisk stemme-assistent og mere som en udvidelse af dine egne tankeprocesser.

Det konversationelle domæne: Huske, hvad der kom før

Konversationel AI, ReALM tackler en længe stående udfordring: at opretholde koherens og hukommelse på tværs af multiple vendinger af dialog. Med dens evne til at løse referencer inden for en pågående konversation, kunne ReALM endelig indfri løftet om en naturlig, tilbage-og-frem-interaktion med din digitale assistent.

Forestil dig, at du beder Siri om at “mind mig om at booke billetter til min ferie, når jeg får løn på fredag.” Med ReALM ville Siri ikke kun forstå konteksten af dine ferieplaner (potentielvis hentet fra en tidligere konversation eller på-skærmen-information) men også have bevidstheden om at forbinde “få løn” til din regelmæssige løn-rutine.

Dette niveau af konversationel intelligens føles som et sandt spring fremad, der muliggør gnidningsløse multi-vending-dialoger uden frustrationen over konstant at skulle forklare kontekst eller gentage dig selv.

Det på-skærmen domæne: At give din assistent øjne

Måske det mest banebrydende aspekt af ReALM ligger dog i dens evne til at løse referencer til på-skærmen-entiteter – et afgørende skridt mod at skabe en sandt håndfri, stemme-dreven brugeroplevelse.

Apples forskningspapir diskuterer en ny teknik til at kodificere visuel information fra din enheds skærm i et format, der kan behandles af LLM. Ved at rekonstruere layoutet af din skærm i en tekst-baseret repræsentation, kan ReALM “se” og forstå de rumlige relationer mellem forskellige på-skærmen-elementer.

Forestil dig en situation, hvor du kigger på en liste over restauranter og beder Siri om “vejledning til den på Main Street.” Med ReALM ville din iPhone ikke kun forstå referencen til en bestemt lokalitet men også binde den til den relevante på-skærmen-entitet – restauranten, der matcher denne beskrivelse.

Dette niveau af visuel forståelse åbner op for en verden af muligheder, fra at kunne agere på referencer inden for apps og websites til at integrere med fremtidige AR-grænseflader og endda opfatte og reagere på virkelige objekter og omgivelser gennem din enheds kamera.

Forskningspapiret om Apples ReALM-model taler til de intrikate detaljer om, hvordan systemet kodificerer på-skærmen-entiteter og løser referencer på tværs af forskellige kontekster. Her er en simplificeret forklaring af algoritmerne og eksemplerne i papiret:

Kodificering af på-skærmen-entiteter: Papiret udforsker flere strategier til at kodificere på-skærmen-elementer i et tekst-format, der kan behandles af en Large Language Model (LLM). En tilgang indebærer at gruppere omgivende objekter baseret på deres rumlige nærhed og generere prompts, der inkluderer disse grupperede objekter. Men denne metode kan føre til excessivt lange prompts, når antallet af entiteter øges.

Den endelige tilgang, som forskerne har valgt, er at parse skærmen i en top-til-bund, venstre-til-højre-rækkefølge, repræsenterer layoutet i en tekst-baseret format. Dette opnås gennem Algoritme 2, som sorterer på-skærmen-objekter baseret på deres center-koordinater, bestemmer vertikale niveauer ved at gruppere objekter inden for en bestemt margin og konstruerer på-skærmen-parse ved at konkatenerer disse niveauer med tabs, der adskiller objekter på samme linje.

Ved at injicere de relevante entiteter (telefonnumre i dette tilfælde) i den tekst-baserede repræsentation kan LLM forstå på-skærmen-konteksten og løse referencer derefter.

Eksempler på reference-løsning: Papiret giver flere eksempler for at illustrere ReALM-modellens evne til at løse referencer på tværs af forskellige kontekster:

a. Konversationelle referencer: For en anmodning som “Siri, find mig en sund opskrift baseret på, hvad der er i mit køleskab, men hold mushrooms – jeg hader dem,” kan ReALM forstå på-skærmen-konteksten (indholdet af køleskabet), den konversationelle kontekst (at finde en opskrift) og brugerens præferencer (had til mushrooms).

b. Baggrund-referencer: I eksemplet “Siri, afspil den sang, der blev afspillet i supermarkedet tidligere,” kan ReALM potentielt fange og identificere ambient lyd-klip til at løse referencen til den specifikke sang.

c. På-skærmen-referencer: For en anmodning som “Siri, mind mig om at booke billetter til ferien, når jeg får løn på fredag,” kan ReALM kombinere information fra brugerens rutiner (løn), på-skærmen-konversationer eller websites (ferieplaner) og kalenderen for at forstå og agere på anmodningen.

Disse eksempler demonstrerer ReALM’s evne til at løse referencer på tværs af konversationelle, på-skærmen og baggrundskontekster, hvilket muliggør en mere naturlig og gnidningsløs interaktion med intelligente assistenter.

Det baggrund-domæne

Ved at gå ud over blot konversationelle og på-skærmen-kontekster udforsker ReALM også evnen til at løse referencer til baggrund-entiteter – disse perifere begivenheder og processer, der ofte går ubemærket hen for vores nuværende AI-assistenter.

Forestil dig en situation, hvor du beder Siri om at “afspil den sang, der blev afspillet i supermarkedet tidligere.” Med ReALM kunne din iPhone potentielt fange og identificere ambient lyd-klip, hvilket tillader Siri at gnidningsløst hente og afspille sangen, du havde i tankerne.

Dette niveau af baggrund-bevidsthed føles som det første skridt mod sandt ubetydelig, kontekst-bevidst AI-assistance – en digital makker, der ikke kun forstår dine ord, men også den rige væv af dine daglige oplevelser.

Løftet om på-enhed-AI: Privatliv og personliggørelse

Mens ReALM’s evner uden tvivl er imponerende, ligger dens mest betydningsfulde fordel måske i Apples langvarige engagement i på-enhed-AI og bruger-privatliv.

I modsætning til cloud-baserede AI-modeller, der afhænger af at sende brugerdata til fjerne servere til behandling, er ReALM designet til at fungere udelukkende på din iPhone eller andre Apple-enheder. Dette adresserer ikke kun bekymringer omkring data-privatliv, men åbner også op for nye muligheder for AI-assistance, der virkelig forstår og tilpasser sig dig som enkeltperson.

Ved at lære direkte fra din på-enhed-data – dine konversationer, app-brugs-mønstre og endda ambient sensoriske input – kunne ReALM potentielt skabe en hyper-personlig digital assistent tilpasset dine unikke behov, præferencer og daglige rutiner.

Dette niveau af personliggørelse føles som en paradigmeskift fra den en-size-fits-all-tilgang af nuværende AI-assistenter, der ofte kæmper med at tilpasse sig enkelt-brugeres særheder og kontekster.

ReALM-250M-modellen opnår imponerende resultater:

- Konversationel forståelse: 97.8
- Syntetisk opgave-forståelse: 99.8
- På-skærmen-opgave-præstation: 90.6
- Uset domæne-håndtering: 97.2

De etiske overvejelser

Selvfølgelig kommer der med så høj grad af personliggørelse og kontekstuel bevidsthed en række etiske overvejelser om privatliv, gennemsigtighed og den potentielle risiko for, at AI-systemer kan påvirke eller endda manipulere brugeradfærd.

Mens ReALM får en dybere forståelse af vores daglige liv – fra vores spisvaner og medieforbrugs-mønstre til vores sociale interaktioner og personlige præferencer – er der en risiko for, at denne teknologi kan blive brugt på måder, der krænker bruger-tillid eller overskride etiske grænser.

Apples forskere er meget bevidste om denne spænding og anerkender i deres papir behovet for at finde en forsigtig balance mellem at levere en virkelig hjælpsom, personlig AI-oplevelse og respektere bruger-privatliv og handlefrihed.

Dette udfordring er ikke unikt for Apple eller ReALM, men det er en diskussion, som hele tech-industrien må forholde sig til, mens AI-systemer bliver mere avancerede og integrerede i vores daglige liv.

Mod en smartere, mere naturlig AI-oplevelse

Mens Apple fortsætter med at udvide grænserne for på-enhed-AI med modeller som ReALM, føles løftet om en sandt intelligent, kontekst-bevidst digital assistent nærmere end nogensinde før.

Forestil dig en verden, hvor Siri (eller hvad denne AI-assistent måske hedder i fremtiden) føles mindre som en afkorporlig stemme fra skyen og mere som en udvidelse af dine egne tankeprocesser – en partner, der ikke kun forstår dine ord, men også den rige væv af dit digitale liv, dine daglige rutiner og dine unikke præferencer og kontekster.

Fra at kunne agere på referencer inden for apps og websites til at forudse dine behov baseret på din lokalitet, aktivitet og ambient sensoriske input, repræsenterer ReALM et betydeligt skridt mod en mere naturlig, gnidningsløs AI-oplevelse, der udvisker grænserne mellem vores digitale og fysiske verdener.

Selvfølgelig vil realiseringen af denne vision kræve mere end blot teknisk innovation – det vil også kræve en tankefuld, etisk tilgang til AI-udvikling, der prioriterer bruger-privatliv, gennemsigtighed og handlefrihed.

Mens Apple fortsætter med at forfine og udvide ReALM’s evner, vil tech-verdenen uden tvivl være åndeløs, ivrig efter at se, hvordan denne banebrydende AI-model former fremtiden for intelligente assistenter og indleder en ny æra af sandt personlig, kontekst-bevidst computing.

Om ReALM kan leve op til sit løfte om at overgå selv den mægtige GPT-4, forbliver at se. Men en ting er sikker: alderen af AI-assistenter, der virkelig forstår os – vores ord, vores verdener og den rige væv af vores daglige liv – er godt i gang, og Apples seneste innovation kan meget vel være i frontlinjen af denne revolution.

Aayush Mittal

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.

Unite.AI