Kunstmatige intelligentie

Revolutie in AI met Apple’s ReALM: De toekomst van intelligente assistenten

mm
Apple’s New ReALM AI Model

In het voortdurend evoluerende landschap van kunstmatige intelligentie is Apple stilzwijgend een baanbrekende aanpak aan het ontwikkelen die de manier waarop we met onze iPhones omgaan, kan herdefiniëren. ReALM, of Reference Resolution as Language Modeling, is een AI-model dat belooft een nieuw niveau van contextuele bewustzijn en naadloze ondersteuning te brengen.

Terwijl de technische wereld vol verwachting is over OpenAI’s GPT-4 en andere grote taalmodellen (LLM’s), vertegenwoordigt Apple’s ReALM een verschuiving in denken – een stap weg van het vertrouwen op cloud-gebaseerde AI naar een meer gepersonaliseerde, op-apparaatbenadering. Het doel? Een intelligente assistent creëren die jou, je wereld en het ingewikkelde weefsel van je dagelijkse digitale interacties echt begrijpt.

Aan de basis van ReALM ligt de mogelijkheid om verwijzingen op te lossen – die dubbelzinnige voornaamwoorden zoals “het“, “zij” of “dat” die mensen met gemak navigeren dankzij contextuele aanwijzingen. Voor AI-assistenten is dit echter lange tijd een struikelblok geweest, wat leidt tot frustrerende misverstanden en een onsamenhangende gebruikerservaring.

Stel je een scenario voor waarin je Siri vraagt om “een gezond recept te vinden op basis van wat er in mijn koelkast zit, maar hou de paddenstoelen tegen – ik haat die.” Met ReALM zou je iPhone niet alleen de verwijzingen naar informatie op het scherm (de inhoud van je koelkast) begrijpen, maar ook je persoonlijke voorkeuren onthouden (afkeer van paddenstoelen) en de bredere context van het vinden van een recept dat aan die parameters voldoet.

Dit niveau van contextuele bewustzijn is een kwantumsprong ten opzichte van de trefwoord-matchingbenadering van de meeste huidige AI-assistenten. Door LLM’s te trainen om verwijzingen naadloos op te lossen in drie belangrijke domeinen – conversational, on-screen en achtergrond – beoogt ReALM een echt intelligente digitale metgezel te creëren die minder aanvoelt als een robotachtige stemassistent en meer als een uitbreiding van je eigen denkprocessen.

Het conversational domein: Onthouden wat er eerder is gebeurd

Conversational AI, ReALM tackelt een langdurige uitdaging: coherentie en geheugen behouden over meerdere conversatieronden. Met zijn mogelijkheid om verwijzingen binnen een voortdurende conversatie op te lossen, kon ReALM eindelijk de belofte van een natuurlijke, heen-en-weer-interactie met je digitale assistent waarmaken.

Stel je voor dat je Siri vraagt om “me eraan te herinneren om tickets te boeken voor mijn vakantie als ik op vrijdag word betaald.” Met ReALM zou Siri niet alleen de context van je vakantieplannen (potentieel ontleend aan een eerdere conversatie of informatie op het scherm) begrijpen, maar ook het bewustzijn hebben om “betaald krijgen” te koppelen aan je reguliere salarisdag.

Dit niveau van conversatie-intelligentie voelt als een echte sprong voorwaarts, waardoor naadloze meerdere conversatieronden mogelijk zijn zonder de frustratie van constant context herhalen of jezelf herhalen.

Het on-screen domein: Geven je assistent ogen

Misschien het meest baanbrekende aspect van ReALM ligt echter in zijn mogelijkheid om verwijzingen naar on-screen entiteiten op te lossen – een cruciale stap naar het creëren van een echt handsfree, stemgestuurd gebruikerservaring.

Apple’s onderzoeksrapport bespreekt een novatechniek voor het coderen van visuele informatie van je apparaatscherm in een formaat dat LLM’s kunnen verwerken. Door in wezen de lay-out van je scherm te reconstrueren in een tekstuele weergave, kan ReALM “zien” en begrijpen de ruimtelijke relaties tussen verschillende on-screen elementen.

Stel je een scenario voor waarin je naar een lijst met restaurants kijkt en Siri vraagt om “richtingen naar degene op Main Street.” Met ReALM zou je iPhone niet alleen de verwijzing naar een specifieke locatie begrijpen, maar ook deze koppelen aan de relevante on-screen entiteit – de restaurantlijst die overeenkomt met die beschrijving.

Dit niveau van visueel begrip opent een wereld van mogelijkheden, van naadloos acteren op verwijzingen binnen apps en websites tot integratie met toekomstige AR-interfaces en zelfs het waarnemen en reageren op echte wereldobjecten en omgevingen via je apparaatscamera.

Het onderzoeksrapport over Apple’s ReALM-model gaat in op de intrigerende details van hoe het systeem on-screen entiteiten codeert en verwijzingen oplost in verschillende contexten. Hier is een vereenvoudigde uitleg van de algoritmes en voorbeelden die in het rapport worden gegeven:

  1. Coderen van on-screen entiteiten: Het rapport onderzoekt verschillende strategieën om on-screen elementen in een tekstuele formaat te coderen dat door een Large Language Model (LLM) kan worden verwerkt. Een benadering omvat het clusteren van omliggende objecten op basis van hun ruimtelijke nabijheid en het genereren van prompts die deze gegroepeerde objecten bevatten. Deze methode kan echter leiden tot excessief lange prompts naarmate het aantal entiteiten toeneemt.

De definitieve benadering die door de onderzoekers is overgenomen, is om het scherm van boven naar beneden, van links naar rechts te parseren, de lay-out in een tekstuele formaat weer te geven. Dit wordt bereikt door middel van Algoritme 2, dat de on-screen objecten sorteert op basis van hun centrale coördinaten, verticale niveaus bepaalt door objecten binnen een bepaalde marge te groeperen, en de on-screen parse construeert door deze niveaus te concatenen met tabs die objecten op dezelfde regel scheiden.

Door de relevante entiteiten (telefoonnummers in dit geval) in de tekstuele weergave te injecteren, kan de LLM de on-screen context begrijpen en verwijzingen dienovereenkomstig oplossen.

  1. Voorbeelden van verwijzingsoplossing: Het rapport biedt verschillende voorbeelden om de mogelijkheden van het ReALM-model te illustreren bij het oplossen van verwijzingen in verschillende contexten:

a. Conversational verwijzingen: Voor een verzoek zoals “Siri, vind een gezond recept voor me op basis van wat er in mijn koelkast zit, maar hou de paddenstoelen tegen – ik haat die,” kan ReALM de on-screen context (inhoud van de koelkast), de conversational context (het vinden van een recept) en de gebruikersvoorkeuren (afkeer van paddenstoelen) begrijpen.

b. Achtergrondverwijzingen: In het voorbeeld “Siri, speel dat nummer dat eerder in de supermarkt speelde,” kan ReALM potentieel ambient audio-snippets vastleggen en identificeren om de verwijzing naar het specifieke nummer op te lossen.

c. On-screen verwijzingen: Voor een verzoek zoals “Siri, herinner me eraan om tickets te boeken voor de vakantie als ik op vrijdag mijn salaris krijg,” kan ReALM informatie combineren uit de gebruikersroutine (salarisdag), on-screen conversaties of websites (vakantieplannen) en de kalender om het verzoek te begrijpen en te activeren.

Deze voorbeelden demonstreren ReALM’s mogelijkheid om verwijzingen op te lossen in conversational, on-screen en achtergrondcontexten, waardoor een meer natuurlijke en naadloze interactie met intelligente assistenten mogelijk wordt.

Het achtergrond domein

Verdergaand dan alleen conversational en on-screen contexten, verkent ReALM ook de mogelijkheid om verwijzingen naar achtergrondentiteiten op te lossen – die perifere gebeurtenissen en processen die vaak door onze huidige AI-assistenten onopgemerkt blijven.

Stel je een scenario voor waarin je Siri vraagt om “speel dat nummer dat eerder in de supermarkt speelde.” Met ReALM zou je iPhone potentieel ambient audio-snippets kunnen vastleggen en identificeren, waardoor Siri het nummer dat je in gedachten had, naadloos kan opzoeken en afspelen.

Dit niveau van achtergrondbewustzijn voelt als de eerste stap naar echt alomtegenwoordige, contextuele AI-ondersteuning – een digitale metgezel die niet alleen je woorden begrijpt, maar ook de rijke tapestry van je dagelijkse ervaringen.

De belofte van op-apparaat AI: Privacy en personalisatie

Terwijl ReALM’s mogelijkheden ongetwijfeld indrukwekkend zijn, ligt zijn meest significante voordeel misschien wel in Apple’s langdurige toewijding aan op-apparaat AI en gebruikersprivacy.

In tegenstelling tot cloud-gebaseerde AI-modellen die afhankelijk zijn van het verzenden van gebruikersgegevens naar externe servers voor verwerking, is ReALM ontworpen om volledig op je iPhone of andere Apple-apparaten te werken. Dit adresseert niet alleen zorgen rondom gegevensprivacy, maar opent ook nieuwe mogelijkheden voor AI-ondersteuning die echt begrijpt en zich aanpast aan jou als individu.

Door rechtstreeks te leren van je op-apparaatgegevens – je conversaties, app-gebruikspatronen en zelfs ambient sensorische input – kon ReALM potentieel een hyper-persoonlijke digitale assistent creëren die is afgestemd op jouw unieke behoeften, voorkeuren en dagelijkse routines.

Dit niveau van personalisatie voelt als een paradigmaswitch van de one-size-fits-all-benadering van huidige AI-assistenten, die vaak worstelen om zich aan te passen aan individuele gebruikers’ eigenaardigheden en contexten.

ReALM-250M model behaalt indrukwekkende resultaten:

    • Conversational begrip: 97.8
    • Synthetische taakbegrip: 99.8
    • On-screen taakprestatie: 90.6
    • Ongezien domeinbeheer: 97.2

De ethische overwegingen

Natuurlijk, met zo’n hoog niveau van personalisatie en contextuele bewustzijn, komt een reeks ethische overwegingen rondom privacy, transparantie en het potentieel voor AI-systemen om gebruikersgedrag te beïnvloeden of zelfs te manipuleren.

Terwijl ReALM een dieper begrip van ons dagelijks leven krijgt – van onze eetgewoonten en mediagebruikspatronen tot onze sociale interacties en persoonlijke voorkeuren – is er een risico dat deze technologie op manieren wordt gebruikt die gebruikersvertrouwen schenden of ethische grenzen overschrijden.

Apple’s onderzoekers zijn zich zeer bewust van deze spanning en erkennen in hun rapport de noodzaak om een zorgvuldige balans te vinden tussen het leveren van een echt behulpzaam, gepersonaliseerd AI-ervaring en het respecteren van gebruikersprivacy en autonomie.

Deze uitdaging is niet uniek voor Apple of ReALM, natuurlijk – het is een gesprek dat de hele technologie-industrie moet voeren naarmate AI-systemen steeds geavanceerder en geïntegreerder in ons dagelijks leven worden.

Naar een slimmere, meer natuurlijke AI-ervaring

Terwijl Apple de grenzen van op-apparaat AI met modellen zoals ReALM blijft verleggen, voelt de verleidelijke belofte van een echt intelligente, contextuele digitale assistent dichterbij dan ooit tevoren.

Stel je een wereld voor waarin Siri (of hoe deze AI-assistent in de toekomst ook mag heten) minder aanvoelt als een verheven stem uit de cloud en meer als een uitbreiding van je eigen denkprocessen – een partner die niet alleen je woorden begrijpt, maar ook de rijke tapestry van je digitale leven, je dagelijkse routines en je unieke voorkeuren en contexten.

Van naadloos acteren op verwijzingen binnen apps en websites tot anticiperen op je behoeften op basis van je locatie, activiteit en ambient sensorische input, vertegenwoordigt ReALM een significante stap naar een meer natuurlijke, naadloze AI-ervaring die de grenzen tussen onze digitale en fysieke werelden vervaagt.

Natuurlijk zal het realiseren van deze visie meer vereisen dan alleen technische innovatie – het zal ook een weloverwogen, ethische aanpak van AI-ontwikkeling vereisen die prioriteit geeft aan gebruikersprivacy, transparantie en autonomie.

Terwijl Apple ReALM’s mogelijkheden verder verfijnt en uitbreidt, zal de technische wereld ongetwijfeld met ingehouden adem toekijken, vol verwachting om te zien hoe dit baanbrekende AI-model de toekomst van intelligente assistenten vormt en een nieuwe era van echt gepersonaliseerde, contextuele computing inluidt.

Of ReALM zijn belofte van het overtreffen van zelfs de machtige GPT-4 waar maakt, moet worden afgewacht. Maar één ding is zeker: de tijd van AI-assistenten die ons echt begrijpen – onze woorden, onze werelden en de rijke tapestry van ons dagelijks leven – is in volle gang, en Apple’s laatste innovatie kan wel eens aan de vooravond van deze revolutie staan.

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.