Kunstig intelligens
Store actionmodeller (LAM'er): The Next Frontier in AI-Powered Interaction

For næsten et år siden, Mustafa Suleyman, medstifter af DeepMind, forudsagde at æraen af generativ AI ville snart vige pladsen til noget mere interaktivt: systemer, der er i stand til at udføre opgaver ved at interagere med softwareapplikationer og menneskelige ressourcer. I dag begynder vi at se denne vision tage form med udviklingen af Kanin AI's nye AI-drevne operativsystem, R1. Dette system har demonstreret en imponerende evne til at overvåge og efterligne menneskelig interaktion med applikationer. I hjertet af R1 ligger Large Action Model (LAM), en avanceret AI-assistent, der er dygtig til at forstå brugerens hensigter og udføre opgaver på deres vegne. Mens tidligere kendt under andre udtryk som f.eks Interaktiv AI og Stor agentmodel, er konceptet med LAM'er ved at vinde momentum som en central innovation i AI-drevne interaktioner. Denne artikel udforsker detaljerne i LAM'er, hvordan de adskiller sig fra traditionelle large sprogmodeller (LLM'er), introducerer Rabbit AI's R1-system og ser på, hvordan Apple bevæger sig hen imod en LAM-lignende tilgang. Den diskuterer også de potentielle anvendelser af LAM'er og de udfordringer, de står over for.
Forstå store handlings- eller agentmodeller (LAM'er)
En LAM er en avanceret AI-agent, der er udviklet til at forstå menneskelige intentioner og udføre specifikke mål. Disse modeller udmærker sig ved at forstå menneskelige behov, planlægge komplekse opgaver og interagere med forskellige modeller, applikationer eller mennesker for at udføre deres planer. LAM'er går ud over simple AI-opgaver som at generere svar eller billeder; de er fuldgyldige systemer designet til at håndtere komplekse aktiviteter såsom planlægning af rejser, planlægning af aftaler og håndtering af e-mails. I forbindelse med rejseplanlægning vil en LAM for eksempel koordinere med en vejr-app til prognoser, interagere med flybookingstjenester for at finde passende flyrejser og engagere sig med hotelbookingssystemer for at sikre indkvartering. I modsætning til mange traditionelle AI-modeller, der udelukkende afhænger af neurale netværk, LAM'er anvender en hybrid tilgangskombination neuro-symbolsk programmering. Denne integration af symbolsk programmering hjælper med logisk ræsonnement og planlægning, mens neurale netværk bidrager til at genkende komplekse sansemønstre. Denne blanding giver LAM'er mulighed for at løse et bredt spektrum af opgaver, hvilket markerer dem som en nuanceret udvikling i AI-drevne interaktioner.
Sammenligning af LAM'er med LLM'er
I modsætning til LAM'er er LLM'er AI-agenter, der udmærker sig ved at fortolke brugermeddelelser og generere tekstbaserede svar, der primært hjælper med opgaver, der involverer sprogbehandling. Deres omfang er dog generelt begrænset til tekstrelaterede aktiviteter. På den anden side udvider LAM'er AI's muligheder ud over sproget, hvilket gør dem i stand til at udføre komplekse handlinger for at nå specifikke mål. For eksempel, mens en LLM effektivt kan udarbejde en e-mail baseret på brugerinstruktioner, går en LAM længere ved ikke kun at udarbejde, men også at forstå konteksten, beslutte sig for det passende svar og administrere leveringen af e-mailen.
Derudover er LLM'er typisk designet til at forudsige det næste token i en sekvens af tekst og til at udføre skriftlige instruktioner. I modsætning hertil er LAM'er ikke kun udstyret med sprogforståelse, men også med evnen til at interagere med forskellige applikationer og virkelige systemer såsom IoT-enheder. De kan udføre fysiske handlinger, styre enheder og administrere opgaver, der kræver interaktion med det eksterne miljø, såsom at booke aftaler eller foretage reservationer. Denne integration af sprogfærdigheder med praktisk udførelse gør det muligt for LAM'er at operere på tværs af mere forskellige scenarier end LLM'er.
LAM'er i aktion: The Rabbit R1
Kanin R1 står som et godt eksempel på LAM'er i praktisk brug. Denne AI-drevne enhed kan administrere flere applikationer gennem en enkelt, brugervenlig grænseflade. Udstyret med en 2.88-tommer berøringsskærm, et roterende kamera og et rullehjul, er R1 anbragt i et slankt, afrundet chassis lavet i samarbejde med Teenage Engineering. Den kører på en 2.3 GHz MediaTek-processor, forstærket af 4 GB hukommelse og 128 GB lagerplads.
I hjertet af R1 ligger dens LAM, som intelligent overvåger appfunktioner og forenkler komplekse opgaver som at styre musik, bestille transport, bestille dagligvarer og sende beskeder, alt sammen fra et enkelt interaktionspunkt. På denne måde eliminerer R1 besværet med at skifte mellem flere apps eller flere logins for at udføre disse opgaver.
LAM i R1 blev oprindeligt trænet ved at observere menneskelige interaktioner med populære apps som Spotify og Uber. Denne træning har gjort det muligt for LAM at navigere i brugergrænseflader, genkende ikoner og behandle transaktioner. Denne omfattende træning gør det muligt for R1 at tilpasse sig flydende til stort set enhver applikation. Derudover giver en speciel træningstilstand brugere mulighed for at introducere og automatisere nye opgaver, der løbende udvider R1's række af muligheder og gør den til et dynamisk værktøj inden for AI-drevne interaktioner.
Apples fremskridt mod LAM-inspirerede funktioner i Siri
Apples AI-forskerteam har for nylig delt indsigt i deres bestræbelser på at fremme Siris evner gennem et nyt initiativ, der ligner LAM'ers. Initiativet, skitseret i et forskningspapir vedr Referenceopløsning som sprogmodellering (ReALM), har til formål at forbedre Siris evne til at forstå samtalekontekst, behandle visuelt indhold på skærmen og registrere omgivende aktiviteter. Den tilgang, som ReALM anvender til at håndtere input fra brugergrænsefladen (UI) trækker paralleller til funktionaliteterne observeret i Rabbit AI's R1, hvilket viser Apples hensigt om at forbedre Siris forståelse af brugerinteraktioner.
Denne udvikling angiver at Apple overvejer at indføre LAM-teknologier for at forfine, hvordan brugere interagerer med deres enheder. Selvom der ikke er nogen eksplicitte meddelelser om implementeringen af ReALM, tyder potentialet for betydeligt at forbedre Siris interaktion med apps på lovende fremskridt med at gøre assistenten mere intuitiv og lydhør.
Potentielle anvendelser af LAM'er
LAM'er har potentialet til at udvide deres virkning langt ud over at forbedre interaktionen mellem brugere og enheder; de kan give betydelige fordele på tværs af flere brancher.
- Kundeservice: LAM'er kan forbedre kundeservicen ved selvstændigt at håndtere forespørgsler og klager på tværs af forskellige kanaler. Disse modeller kan behandle forespørgsler ved hjælp af naturligt sprog, automatisere opløsninger og administrere planlægning og levere personlig service baseret på kundehistorik for at forbedre tilfredsheden.
- Healthcare: I sundhedsvæsenet kan LAM'er hjælpe med at styre patientbehandlingen ved at organisere aftaler, administrere recepter og lette kommunikationen på tværs af tjenester. De er også nyttige til fjernovervågning, fortolkning af medicinske data og alarmering af personale i nødstilfælde, især gavnlige til behandling af kroniske og ældrepleje.
- Finans: LAM'er kan tilbyde personlig økonomisk rådgivning og administrere opgaver som porteføljebalancering og investeringsforslag. De kan også overvåge transaktioner for at opdage og forhindre svig og integreres problemfrit med banksystemer for hurtigt at håndtere mistænkelige aktiviteter.
LAM'ers udfordringer
På trods af deres betydelige potentiale støder LAM'er på adskillige udfordringer, som skal løses.
- Databeskyttelse og sikkerhed: I betragtning af den brede adgang til personlige og følsomme oplysninger, som LAM'er skal fungere, er det en stor udfordring at sikre databeskyttelse og sikkerhed. LAM'er interagerer med personlige data på tværs af flere applikationer og platforme, hvilket giver anledning til bekymringer om sikker håndtering, opbevaring og behandling af disse oplysninger.
- Etiske og regulatoriske bekymringer: Efterhånden som LAM'er påtager sig mere autonome roller i beslutningstagning og interaktion med menneskelige miljøer, bliver etiske overvejelser stadig vigtigere. Spørgsmål om ansvarlighed, gennemsigtighed og omfanget af beslutningstagning delegeret til maskiner er kritiske. Derudover kan der være regulatoriske udfordringer ved at implementere sådanne avancerede AI-systemer på tværs af forskellige industrier.
- Integrations kompleksitet: LAM'er kræver integration med en række forskellige software- og hardwaresystemer for at udføre opgaver effektivt. Denne integration er kompleks og kan være udfordrende at administrere, især når man koordinerer handlinger på tværs af forskellige platforme og tjenester, såsom booking af flyrejser, indkvartering og andre logistiske detaljer i realtid.
- Skalerbarhed og tilpasningsevne: Mens LAM'er er designet til at tilpasse sig en bred vifte af scenarier og applikationer, er det stadig en udfordring at skalere disse løsninger til at håndtere forskellige, virkelige miljøer konsekvent og effektivt. Det er afgørende for deres langsigtede succes at sikre, at LAM'er kan tilpasse sig skiftende forhold og opretholde ydeevnen på tværs af forskellige opgaver og brugerbehov.
The Bottom Line
Large Action Models (LAM'er) dukker op som en væsentlig innovation inden for kunstig intelligens, som ikke kun påvirker enhedsinteraktioner, men også bredere industriapplikationer. Demonstreret af Rabbit AI's R1 og udforsket i Apples fremskridt med Siri, sætter LAM'er scenen for mere interaktive og intuitive AI-systemer. Disse modeller er klar til at øge effektiviteten og personaliseringen på tværs af sektorer som kundeservice, sundhedspleje og finans.
Implementeringen af LAM'er byder dog på udfordringer, herunder bekymringer om databeskyttelse, etiske spørgsmål, integrationskompleksiteter og skalerbarhed. Det er vigtigt at løse disse problemer, efterhånden som vi går videre hen imod en bredere anvendelse af LAM-teknologier med det formål at udnytte deres evner ansvarligt og effektivt. Efterhånden som LAM'er fortsætter med at udvikle sig, forbliver deres potentiale til at transformere digitale interaktioner betydeligt, hvilket understreger deres betydning i det fremtidige AI-landskab.