Artificiell intelligens

Från avsikt till utförande: Hur Microsoft omvandlar stora språkmodeller till handlingsorienterad AI

publicerade

7 månader sedan

Januari 11, 2025

Dr Tehseen Zia

Stora språkmodeller (LLMs) har ändrats hur vi hanterar naturlig språkbehandling. De kan svara på frågor, skriva kod och hålla konversationer. Ändå kommer de till korta när det kommer till verkliga uppgifter. Till exempel kan en LLM guida dig genom att köpa en jacka men kan inte lägga beställningen åt dig. Denna klyfta mellan att tänka och göra är en stor begränsning. Människor behöver inte bara information; de vill ha resultat.

För att överbrygga detta gap, är Microsoft vrida LLMs till handlingsorienterade AI-agenter. Genom att göra det möjligt för dem att planera, dekomponera uppgifter och engagera sig i verkliga interaktioner, ger de LLM:er möjlighet att effektivt hantera praktiska uppgifter. Denna förändring har potential att omdefiniera vad LLM kan göra, förvandla dem till verktyg som automatiserar komplexa arbetsflöden och förenklar vardagliga uppgifter. Låt oss titta på vad som behövs för att få detta att hända och hur Microsoft närmar sig problemet.

Vad LLMs behöver agera

För att LLM ska kunna utföra uppgifter i den verkliga världen måste de gå längre än att förstå text. De måste interagera med digitala och fysiska miljöer samtidigt som de anpassar sig till förändrade förhållanden. Här är några av de funktioner de behöver:

Förstå användarens avsikt

För att agera effektivt måste LLM:er förstå användarförfrågningar. Inmatningar som text eller röstkommandon är ofta vaga eller ofullständiga. Systemet måste fylla i luckorna med hjälp av dess kunskap och sammanhanget för begäran. Flerstegskonversationer kan hjälpa till att förfina dessa avsikter och säkerställa att AI:n förstår innan de vidtar åtgärder.

Förvandla avsikter till handling

Efter att ha förstått en uppgift måste LLM:erna omvandla den till handlingsbara steg. Det kan handla om att klicka på knappar, anropa API:er eller kontrollera fysiska enheter. LLM:erna måste anpassa sina handlingar till den specifika uppgiften, anpassa sig till miljön och lösa utmaningar när de uppstår.

Anpassa sig till förändringar

Verkliga uppgifter går inte alltid som planerat. LLM:er måste förutse problem, justera steg och hitta alternativ när problem uppstår. Till exempel, om en nödvändig resurs inte är tillgänglig bör systemet hitta ett annat sätt att slutföra uppgiften. Denna flexibilitet säkerställer att processen inte stannar när saker förändras.

Specialiserad på specifika uppgifter

Medan LLM är utformade för allmänt bruk, gör specialisering dem mer effektiva. Genom att fokusera på specifika uppgifter kan dessa system leverera bättre resultat med färre resurser. Detta är särskilt viktigt för enheter med begränsad datorkraft, som smartphones eller inbyggda system.

Genom att utveckla dessa färdigheter kan LLM:er gå längre än att bara bearbeta information. De kan vidta meningsfulla åtgärder, vilket banar väg för AI att sömlöst integreras i vardagliga arbetsflöden.

Hur Microsoft förvandlar LLMs

Microsofts inställning till att skapa handlingsorienterad AI följer en strukturerad process. Huvudmålet är att göra det möjligt för LLM:er att förstå kommandon, planera effektivt och vidta åtgärder. Så här gör de:

Steg 1: Samla in och förbereda data

I den första meningen samlade de in data relaterade till deras specifika användningsfall: UFO Agent (beskrivs nedan). Uppgifterna inkluderar användarfrågor, miljödetaljer och uppgiftsspecifika åtgärder. Två olika typer av data samlas in i denna fas: för det första samlade de in uppgiftsplandata som hjälper LLM:er att beskriva steg på hög nivå som krävs för att slutföra en uppgift. Till exempel kan "Ändra teckenstorlek i Word" innebära steg som att markera text och justera inställningarna i verktygsfältet. För det andra samlade de in uppgift-åtgärdsdata, vilket gjorde det möjligt för LLM:er att översätta dessa steg till exakta instruktioner, som att klicka på specifika knappar eller använda kortkommandon.

Denna kombination ger modellen både helheten och de detaljerade instruktioner den behöver för att utföra uppgifter effektivt.

Steg 2: Utbilda modellen

När data väl har samlats in förfinas LLM:er genom flera träningspass. I det första steget utbildas LLM:er för uppgiftsplanering genom att lära dem hur man delar upp användarförfrågningar i handlingsbara steg. Expertmärkta data används sedan för att lära dem hur de ska omsätta dessa planer till specifika åtgärder. För att ytterligare förbättra sin problemlösningsförmåga har LLM:er engagerat sig i självförstärkande utforskningsprocesser som ger dem möjlighet att ta itu med olösta uppgifter och generera nya exempel för kontinuerligt lärande. Slutligen tillämpas förstärkningsinlärning, med hjälp av feedback från framgångar och misslyckanden för att ytterligare förbättra deras beslutsfattande.

Steg 3: Offlinetestning

Efter utbildning testas modellen i kontrollerade miljöer för att säkerställa tillförlitlighet. Mätvärden som Task Success Rate (TSR) och Step Success Rate (SSR) används för att mäta prestanda. Att testa en kalenderhanteringsagent kan till exempel innebära att verifiera dess förmåga att schemalägga möten och skicka inbjudningar utan fel.

Steg 4: Integrering i riktiga system

När modellen har validerats integreras den i ett agentramverk. Detta gjorde det möjligt för den att interagera med verkliga miljöer, som att klicka på knappar eller navigera i menyer. Verktyg som UI Automation API:er hjälpte systemet att identifiera och manipulera användargränssnittselement dynamiskt.

Om agenten till exempel har till uppgift att markera text i Word, identifierar han markeringsknappen, markerar texten och tillämpar formatering. En minneskomponent kan hjälpa LLM att hålla reda på tidigare åtgärder, vilket gör det möjligt att anpassa sig till nya scenarier.

Steg 5: Real-World Testing

Det sista steget är utvärdering online. Här testas systemet i verkliga scenarier för att säkerställa att det kan hantera oväntade förändringar och fel. Till exempel kan en kundsupportbot vägleda användare genom att återställa ett lösenord samtidigt som de anpassar sig till felaktiga inmatningar eller saknad information. Denna testning säkerställer att AI är robust och redo för daglig användning.

Ett praktiskt exempel: UFO-agenten

För att visa upp hur handlingsinriktad AI fungerar utvecklade Microsoft UFO-agent. Detta system är utformat för att utföra verkliga uppgifter i Windows-miljöer, förvandla användarförfrågningar till slutförda åtgärder.

I grunden använder UFO-agenten en LLM för att tolka förfrågningar och planera åtgärder. Om en användare till exempel säger "Markera ordet "viktigt" i det här dokumentet, interagerar agenten med Word för att slutföra uppgiften. Den samlar in kontextuell information, som positionerna för UI-kontroller, och använder denna för att planera och utföra åtgärder.

UFO-agenten förlitar sig på verktyg som Windows UI Automation (UIA) API. Detta API skannar applikationer efter kontrollelement, såsom knappar eller menyer. För en uppgift som "Spara dokumentet som PDF" använder agenten UIA för att identifiera "Arkiv"-knappen, hitta alternativet "Spara som" och utföra de nödvändiga stegen. Genom att strukturera data konsekvent säkerställer systemet smidig drift från träning till verklig tillämpning.

Övervinna utmaningar

Även om detta är en spännande utveckling, kommer det med utmaningar att skapa handlingsorienterad AI. Skalbarhet är en stor fråga. Utbildning och implementering av dessa modeller för olika uppgifter kräver betydande resurser. Att säkerställa säkerhet och tillförlitlighet är lika viktigt. Modeller måste utföra uppgifter utan oavsiktliga konsekvenser, särskilt i känsliga miljöer. Och eftersom dessa system interagerar med privata data är det också avgörande att upprätthålla etiska standarder kring integritet och säkerhet.

Microsofts färdplan fokuserar på att förbättra effektiviteten, utöka användningsfallen och upprätthålla etiska standarder. Med dessa framsteg kan LLM:er omdefiniera hur AI interagerar med världen, vilket gör dem mer praktiska, anpassningsbara och handlingsorienterade.

Framtiden för AI

Att förvandla LLM:er till handlingsorienterade agenter kan vara en spelomvandlare. Dessa system kan automatisera uppgifter, förenkla arbetsflöden och göra tekniken mer tillgänglig. Microsofts arbete med handlingsorienterad AI och verktyg som UFO-agenten är bara början. När AI fortsätter att utvecklas kan vi förvänta oss smartare, mer kapabla system som inte bara interagerar med oss – de får jobb gjorda.

Relaterade ämnen:Actionorienterad AI Agent AI Stora actionmodeller stor språkmodell Stora språkmodeller till stora actionmodeller LLM till agenter LLMs till LAMs Microsoft AI UFO-agent

Strax

Nscale investerar 2.5 miljarder dollar i datacenter i Storbritannien, driver generativ AI och statliga ambitioner

Missa inte

Från tweets till samtal: hur AI förvandlar den akustiska studien av flyttfåglar

Dr Tehseen Zia

Dr. Tehseen Zia är fast docent vid COMSATS University Islamabad och har en doktorsexamen i AI från Wiens tekniska universitet, Österrike. Han är specialiserad på artificiell intelligens, maskininlärning, datavetenskap och datorseende och har gjort betydande bidrag med publikationer i välrenommerade vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriella projekt som huvudutredare och fungerat som AI-konsult.

Unite.AI

Från avsikt till utförande: Hur Microsoft omvandlar stora språkmodeller till handlingsorienterad AI

Vad LLMs behöver agera

Förstå användarens avsikt

Förvandla avsikter till handling

Anpassa sig till förändringar

Specialiserad på specifika uppgifter