stomp Grote actiemodellen (LAM's): de volgende grens in AI-aangedreven interactie - Unite.AI
Verbind je met ons

Artificial Intelligence

Grote actiemodellen (LAM's): de volgende grens in AI-aangedreven interactie

mm
Bijgewerkt on

Bijna een jaar geleden zei Mustafa Suleyman, medeoprichter van DeepMind, voorspeld dat het tijdperk van generatieve AI zou spoedig plaatsmaken voor iets interactiever: systemen die taken kunnen uitvoeren door interactie met softwareapplicaties en menselijke hulpbronnen. Tegenwoordig beginnen we deze visie vorm te zien krijgen met de ontwikkeling van Konijn AI's nieuwe AI-aangedreven besturingssysteem, R1. Dit systeem heeft een indrukwekkend vermogen getoond om menselijke interacties met applicaties te monitoren en na te bootsen. In het hart van R1 ligt de Groot actiemodel (LAM), een geavanceerde AI-assistent die bedreven is in het begrijpen van de bedoelingen van gebruikers en het namens hen uitvoeren van taken. Hoewel voorheen bekend onder andere termen zoals Interactieve AI en Groot Agentisch Modelwint het concept van LAM’s aan momentum als een cruciale innovatie in AI-aangedreven interacties. Dit artikel onderzoekt de details van LAM's, hoe ze verschillen van traditionele lgrote taalmodellen (LLMs), introduceert het R1-systeem van Rabbit AI en bekijkt hoe Apple op weg is naar een LAM-achtige aanpak. Het bespreekt ook het mogelijke gebruik van LAM's en de uitdagingen waarmee ze worden geconfronteerd.

Grote actie- of agentische modellen (LAM's) begrijpen

Een LAM is een geavanceerde AI-agent die is ontworpen om menselijke bedoelingen te begrijpen en specifieke doelstellingen uit te voeren. Deze modellen blinken uit in het begrijpen van menselijke behoeften, het plannen van complexe taken en de interactie met verschillende modellen, applicaties of mensen om hun plannen uit te voeren. LAM's gaan verder dan eenvoudige AI-taken zoals het genereren van reacties of afbeeldingen; het zijn volwaardige systemen die zijn ontworpen voor het afhandelen van complexe activiteiten zoals het plannen van reizen, het plannen van afspraken en het beheren van e-mails. Bij reisplanning zou een LAM bijvoorbeeld samenwerken met een weer-app voor voorspellingen, communiceren met vluchtboekingsdiensten om geschikte vluchten te vinden, en samenwerken met hotelboekingssystemen om accommodaties veilig te stellen. In tegenstelling tot veel traditionele AI-modellen die uitsluitend afhankelijk zijn van neurale netwerkenLAM's maken gebruik van een combinatie van hybride benaderingen neuro-symbolische programmering. Deze integratie van symbolische programmering helpt bij logisch redeneren en plannen, terwijl neurale netwerken bijdragen aan het herkennen van complexe sensorische patronen. Dankzij deze mix kunnen LAM's een breed spectrum aan taken aanpakken en deze markeren als een genuanceerde ontwikkeling in AI-aangedreven interacties.

LAM's vergelijken met LLM's

In tegenstelling tot LAM's zijn LLM's AI-agenten die uitblinken in het interpreteren van gebruikersprompts en het genereren van op tekst gebaseerde antwoorden, waarbij ze voornamelijk helpen bij taken waarbij taalverwerking betrokken is. Hun reikwijdte is echter over het algemeen beperkt tot tekstgerelateerde activiteiten. Aan de andere kant breiden LAM's de mogelijkheden van AI uit tot buiten de taal, waardoor ze complexe acties kunnen uitvoeren om specifieke doelen te bereiken. Terwijl een LLM bijvoorbeeld effectief een e-mail kan opstellen op basis van gebruikersinstructies, gaat een LAM verder door niet alleen de context op te stellen, maar ook te begrijpen, te beslissen over het juiste antwoord en de bezorging van de e-mail te beheren.

Bovendien zijn LLM's doorgaans ontworpen om het volgende token in een reeks tekst te voorspellen en om schriftelijke instructies uit te voeren. LAM's zijn daarentegen niet alleen uitgerust met taalbegrip, maar ook met de mogelijkheid om te communiceren met verschillende applicaties en real-world systemen zoals IoT-apparaten. Ze kunnen fysieke acties uitvoeren, apparaten besturen en taken beheren waarvoor interactie met de externe omgeving nodig is, zoals het boeken van afspraken of het maken van reserveringen. Door deze integratie van taalvaardigheden met praktische uitvoering kunnen LAM's in meer uiteenlopende scenario's opereren dan LLM's.

LAM's in actie: The Rabbit R1

De Konijn R1 is een goed voorbeeld van LAM's in praktisch gebruik. Dit AI-aangedreven apparaat kan meerdere applicaties beheren via één gebruiksvriendelijke interface. Uitgerust met een 2.88-inch touchscreen, een roterende camera en een scrollwiel, is de R1 gehuisvest in een slank, afgerond chassis dat is ontworpen in samenwerking met Teenage Engineering. Het werkt op een 2.3 GHz MediaTek-processor, ondersteund door 4 GB geheugen en 128 GB opslag.

De kern van de R1 wordt gevormd door het LAM, dat op intelligente wijze toezicht houdt op app-functionaliteiten en complexe taken vereenvoudigt, zoals het bedienen van muziek, het boeken van vervoer, het bestellen van boodschappen en het verzenden van berichten, allemaal vanuit één enkel interactiepunt. Op deze manier elimineert R1 het gedoe van het schakelen tussen meerdere apps of meerdere logins om deze taken uit te voeren.

Het LAM binnen de R1 werd aanvankelijk getraind door het observeren van menselijke interacties met populaire apps zoals Spotify en Uber. Dankzij deze training kan LAM door gebruikersinterfaces navigeren, pictogrammen herkennen en transacties verwerken. Dankzij deze uitgebreide training kan de R1 zich vloeiend aanpassen aan vrijwel elke toepassing. Bovendien stelt een speciale trainingsmodus gebruikers in staat nieuwe taken te introduceren en te automatiseren, waardoor het scala aan mogelijkheden van de R1 voortdurend wordt uitgebreid en het een dynamisch hulpmiddel wordt op het gebied van AI-aangedreven interacties.

Apple's vooruitgang op het gebied van LAM-geïnspireerde mogelijkheden in Siri

Het AI-onderzoeksteam van Apple heeft onlangs inzichten gedeeld in hun inspanningen om de mogelijkheden van Siri te verbeteren via een nieuw initiatief, dat lijkt op dat van LAM's. Het initiatief, beschreven in een onderzoekspaper over Referentieresolutie als taalmodellering (ReALM), heeft tot doel het vermogen van Siri te verbeteren om de gesprekscontext te begrijpen, visuele inhoud op het scherm te verwerken en omgevingsactiviteiten te detecteren. De aanpak van ReALM bij het omgaan met gebruikersinterface-invoer (UI) trekt parallellen met de functionaliteiten die worden waargenomen in Rabbit AI's R1, wat de intentie van Apple laat zien om Siri's begrip van gebruikersinteracties te verbeteren.

Deze ontwikkeling geeft aan dat Apple de adoptie van LAM-technologieën overweegt om de manier waarop gebruikers met hun apparaten omgaan te verfijnen. Hoewel er geen expliciete aankondigingen zijn over de inzet van ReALM, suggereert het potentieel om de interactie van Siri met apps aanzienlijk te verbeteren veelbelovende verbeteringen om de assistent intuïtiever en responsiever te maken.

Potentiële toepassingen van LAM's

LAM's hebben het potentieel om hun impact uit te breiden tot veel verder dan het verbeteren van de interactie tussen gebruikers en apparaten; ze kunnen aanzienlijke voordelen bieden in meerdere sectoren.   

  • Klantenservice: LAM's kunnen de klantenservice verbeteren door zelfstandig vragen en klachten via verschillende kanalen af ​​te handelen. Deze modellen kunnen vragen verwerken in natuurlijke taal, oplossingen automatiseren en de planning beheren, waardoor gepersonaliseerde service wordt geboden op basis van de klantgeschiedenis om de tevredenheid te verbeteren.
  • Gezondheidszorg: In de gezondheidszorg kunnen LAM's helpen bij het beheren van de patiëntenzorg door afspraken te organiseren, recepten te beheren en de communicatie tussen diensten te vergemakkelijken. Ze zijn ook nuttig voor monitoring op afstand, het interpreteren van medische gegevens en het waarschuwen van personeel in noodsituaties, wat vooral gunstig is voor het management van chronische en ouderenzorg.
  • Financiën: LAM's kunnen gepersonaliseerd financieel advies bieden en taken beheren zoals het balanceren van portefeuilles en beleggingssuggesties. Ze kunnen ook transacties monitoren om fraude op te sporen en te voorkomen, en kunnen naadloos worden geïntegreerd met banksystemen om verdachte activiteiten snel aan te pakken.

Uitdagingen van LAM's

Ondanks hun aanzienlijke potentieel worden LAM's geconfronteerd met verschillende uitdagingen die moeten worden aangepakt.

  • Gegevensprivacy en beveiliging: Gezien de brede toegang tot persoonlijke en gevoelige informatie die LAM's nodig hebben om te kunnen functioneren, is het garanderen van gegevensprivacy en -beveiliging een grote uitdaging. LAM's communiceren met persoonlijke gegevens via meerdere applicaties en platforms, wat aanleiding geeft tot bezorgdheid over de veilige behandeling, opslag en verwerking van deze informatie.
  • Ethische en regelgevende zorgen: Naarmate LAM's een meer autonome rol op zich nemen in de besluitvorming en de interactie met menselijke omgevingen, worden ethische overwegingen steeds belangrijker. Vragen over verantwoordelijkheid, transparantie en de mate waarin de besluitvorming aan machines wordt gedelegeerd, zijn van cruciaal belang. Bovendien kunnen er uitdagingen op regelgevingsgebied ontstaan ​​bij de inzet van dergelijke geavanceerde AI-systemen in verschillende sectoren.
  • Complexiteit van integratie: LAM's vereisen integratie met een verscheidenheid aan software- en hardwaresystemen om taken effectief uit te voeren. Deze integratie is complex en kan een uitdaging zijn om te beheren, vooral bij het coördineren van acties op verschillende platforms en diensten, zoals het in realtime boeken van vluchten, accommodaties en andere logistieke details.
  • Schaalbaarheid en aanpassingsvermogen: Hoewel LAM's zijn ontworpen om zich aan te passen aan een breed scala aan scenario's en toepassingen, blijft het schalen van deze oplossingen om consistent en efficiënt om te gaan met uiteenlopende, realistische omgevingen een uitdaging. Ervoor zorgen dat LAM's zich kunnen aanpassen aan veranderende omstandigheden en de prestaties bij verschillende taken en gebruikersbehoeften kunnen behouden, is cruciaal voor hun succes op de lange termijn.

The Bottom Line

Grote actiemodellen (LAM's) zijn in opkomst als een belangrijke innovatie op het gebied van AI, die niet alleen de interacties tussen apparaten beïnvloeden, maar ook bredere industriële toepassingen. LAM's, gedemonstreerd door Rabbit AI's R1 en onderzocht in de vooruitgang van Apple met Siri, bereiden de weg voor meer interactieve en intuïtieve AI-systemen. Deze modellen zijn klaar om de efficiëntie en personalisatie te verbeteren in sectoren zoals klantenservice, gezondheidszorg en financiën.

De inzet van LAM’s brengt echter uitdagingen met zich mee, waaronder zorgen over gegevensprivacy, ethische kwesties, integratiecomplexiteit en schaalbaarheid. Het aanpakken van deze problemen is van essentieel belang als we vooruitgang boeken in de richting van een bredere adoptie van LAM-technologieën, met als doel de mogelijkheden ervan op een verantwoorde en effectieve manier te benutten. Terwijl LAM’s zich blijven ontwikkelen, blijft hun potentieel om digitale interacties te transformeren substantieel, wat hun belang in het toekomstige landschap van AI onderstreept.

Dr. Tehseen Zia is een vaste universitair hoofddocent aan de COMSATS Universiteit Islamabad en heeft een doctoraat in AI behaald aan de Technische Universiteit van Wenen, Oostenrijk. Hij is gespecialiseerd in kunstmatige intelligentie, machinaal leren, datawetenschap en computervisie en heeft belangrijke bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook diverse industriële projecten geleid als hoofdonderzoeker en als AI-consultant.