Verbind je met ons

Artificial Intelligence

Van Siri tot ReALM: Apple's reis naar slimmere stemassistenten

mm

Sinds de lancering van Siri in 2011 loopt Apple voortdurend voorop in de innovatie van spraakassistenten en past het zich aan aan de wereldwijde behoeften van gebruikers. De introductie van ReALM markeert een belangrijk moment in deze ontwikkeling en biedt een inkijkje in de veranderende rol van spraakassistenten in onze interactie met apparaten. Dit artikel onderzoekt de effecten van ReALM op Siri en de mogelijke richtingen voor toekomstige spraakassistenten.

De opkomst van stemassistenten: Siri's Genesis

De reis begon toen Apple Siri, een geavanceerd systeem voor kunstmatige intelligentie, in zijn apparaten integreerde, waardoor de manier waarop we met onze technologie omgaan transformeerde. Afkomstig uit technologie ontwikkeld door SRI Internationalwerd Siri de gouden standaard voor stemgestuurde assistenten. Gebruikers konden taken uitvoeren zoals zoekopdrachten op internet en plannen via eenvoudige spraakopdrachten, waardoor de grenzen van conversatie-interfaces werden verlegd en een competitieve race op de markt voor stemassistenten ontstond.

Siri 2.0: een nieuw tijdperk van stemassistenten

Terwijl Apple zich opmaakt voor de release van iOS 18 op het Worldwide Developers Conference (WWDC) in juni 2024 wordt er binnen de technologiegemeenschap steeds meer geanticipeerd op wat naar verwachting een belangrijke evolutie van Siri zal zijn. Deze nieuwe fase, genaamd Serie 2.0, belooft generatieve AI-ontwikkelingen op de voorgrond te brengen, waardoor Siri mogelijk wordt getransformeerd in een nog geavanceerdere virtuele assistent. Hoewel de exacte verbeteringen vertrouwelijk blijven, bruist de technische wereld van het vooruitzicht dat Siri nieuwe hoogten zal bereiken op het gebied van conversatie-intelligentie en gepersonaliseerde gebruikersinteractie, waarbij gebruik wordt gemaakt van het soort geavanceerde modellen voor het leren van talen die te zien zijn in technologieën als ChatGPT. In deze context suggereert de introductie van ReALM, een compact taalmodel, mogelijke verbeteringen die Siri 2.0 voor zijn gebruikers zou kunnen introduceren. In de volgende secties wordt de rol van ReALM en de potentiële invloed ervan besproken als een belangrijke stap in de voortdurende vooruitgang van Siri.

Onthulling van RealALM

ReALM, wat staat voor Reference Resolution As Language Modeling, is een gespecialiseerd taalmodel dat bedreven is in het ontcijferen van contextuele en dubbelzinnige verwijzingen tijdens gesprekken, zoals ‘die’ of ‘dit’. Het valt op door zijn vermogen om conversatie- en visuele referenties te verwerken en deze om te zetten in een tekstformaat. Dankzij deze mogelijkheid kan ReALM schermindelingen en -elementen naadloos interpreteren en ermee communiceren binnen een dialoog, een cruciale functie voor het nauwkeurig afhandelen van vragen in visueel afhankelijke contexten.

De architectuur van ReALM varieert van kleinere versies zoals ReALM-80M tot grotere versies zoals ReALM-3B, en zijn geoptimaliseerd om rekenkundig efficiënt te zijn voor integratie in mobiele apparaten. Deze efficiëntie zorgt voor consistente prestaties met een lager energieverbruik en minder belasting van de verwerkingsbronnen, wat belangrijk is voor het verlengen van de levensduur van de batterij en het bieden van snelle responstijden op een verscheidenheid aan apparaten.

Bovendien is het ontwerp van ReALM geschikt voor modulaire updates, wat de naadloze integratie van de nieuwste ontwikkelingen in referentieresolutie vergemakkelijkt. Deze modulaire aanpak verbetert niet alleen de aanpasbaarheid en flexibiliteit van het model, maar garandeert ook de levensvatbaarheid en effectiviteit ervan op lange termijn, waardoor het kan voldoen aan de veranderende gebruikersbehoeften en technologische standaarden voor een breed spectrum aan apparaten.

RealALM versus taalmodellen

Terwijl traditionele taalmodellen leuk vinden GPT-3.5 voornamelijk tekst verwerkt, bewandelt ReALM een multimodale route, vergelijkbaar met modellen als Gemini, door met zowel tekst als beeld te werken. In tegenstelling tot de bredere functionaliteiten van GPT-3.5 en Gemini, die taken uitvoert zoals het genereren, begrijpen en maken van afbeeldingen, is ReALM vooral gericht op het ontcijferen van conversatie- en visuele contexten. In tegenstelling tot multimodale modellen zoals Gemini, die visuele en tekstgegevens rechtstreeks verwerken, vertaalt ReALM de visuele inhoud van schermen naar tekst, waarbij entiteiten en hun ruimtelijke details worden geannoteerd. Dankzij deze conversie kan ReALM de scherminhoud op een tekstuele manier interpreteren, waardoor een nauwkeurigere identificatie en begrip van verwijzingen op het scherm mogelijk wordt.

Hoe ReALM Siri zou kunnen transformeren?

ReALM zou de mogelijkheden van Siri aanzienlijk kunnen verbeteren en het kunnen transformeren tot een intuïtievere en contextbewuste assistent. Dit zijn de mogelijke gevolgen:

  • Beter contextueel begrip:ReALM is gespecialiseerd in het ontcijferen van dubbelzinnige verwijzingen in gesprekken, wat Siri's vermogen om contextafhankelijke vragen te begrijpen aanzienlijk kan verbeteren. Dit zou gebruikers in staat stellen om natuurlijker met Siri te communiceren, omdat Siri verwijzingen zoals "speel dat nummer nog eens af" of "bel haar" zonder extra details zou kunnen begrijpen.
  • Verbeterde scherminteractie: Dankzij de vaardigheid in het interpreteren van schermindelingen en elementen in dialogen zou ReALM Siri in staat kunnen stellen vloeiender te integreren met de visuele content van een apparaat. Siri zou dan commando's kunnen uitvoeren die betrekking hebben op items op het scherm, zoals "open de app naast Mail" of "scroll naar beneden op deze pagina", waardoor de functionaliteit voor diverse taken wordt uitgebreid.
  • Personalisatie: Door te leren van eerdere interacties zou ReALM het vermogen van Siri om gepersonaliseerde en adaptieve reacties te bieden kunnen verbeteren. Na verloop van tijd kan Siri de behoeften en voorkeuren van gebruikers voorspellen en acties voorstellen of initiëren op basis van gedrag uit het verleden en contextueel begrip, vergelijkbaar met een deskundige persoonlijke assistent.
  • Verbeterde toegankelijkheid: De mogelijkheden voor contextueel en referentiebegrip van ReALM kunnen de toegankelijkheid aanzienlijk ten goede komen, waardoor technologie inclusiever wordt. Siri, mogelijk gemaakt door ReALM, zou vage of gedeeltelijke opdrachten nauwkeurig kunnen interpreteren, waardoor het gebruik van apparaten voor mensen met fysieke of visuele beperkingen eenvoudiger en natuurlijker wordt.

ReALM en de AI-strategie van Apple

De lancering van ReALM weerspiegelt een belangrijk aspect van Apple's AI-strategie, met de nadruk op intelligentie op het apparaat zelf. Deze ontwikkeling sluit aan bij de bredere trend in de sector van edge computing, waarbij gegevens lokaal op apparaten worden verwerkt, waardoor latentie wordt verminderd, bandbreedte wordt bespaard en gebruikersgegevens op het apparaat zelf worden beveiligd.

Het ReALM-project toont ook Apple's bredere AI-doelen, waarbij de focus niet alleen ligt op de uitvoering van opdrachten, maar ook op een beter begrip en voorspelling van gebruikersbehoeften. ReALM vertegenwoordigt een stap in de richting van toekomstige innovaties waarbij apparaten meer gepersonaliseerde en voorspellende ondersteuning kunnen bieden, gebaseerd op een diepgaand inzicht in de gewoonten en voorkeuren van gebruikers.

The Bottom Line

Apples ontwikkeling van Siri naar ReALM onderstreept een voortdurende evolutie in spraakassistenttechnologie, gericht op verbeterd contextbegrip en gebruikersinteractie. ReALM staat voor een verschuiving naar intelligentere, gepersonaliseerde en privacybewuste spraakassistentie, in lijn met de industriële trend van edge computing voor verbeterde verwerking en beveiliging op het apparaat.

Dr. Tehseen Zia is een vaste universitair hoofddocent aan de COMSATS Universiteit Islamabad en heeft een doctoraat in AI behaald aan de Technische Universiteit van Wenen, Oostenrijk. Hij is gespecialiseerd in kunstmatige intelligentie, machinaal leren, datawetenschap en computervisie en heeft belangrijke bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook diverse industriële projecten geleid als hoofdonderzoeker en als AI-consultant.