Artificiell intelligens
FrÄn avsikt till utförande: Hur Microsoft omvandlar stora sprÄkmodeller till handlingsorienterad AI

Stora sprĂ„kmodeller (LLMs) har Ă€ndrats hur vi hanterar naturlig sprĂ„kbehandling. De kan svara pĂ„ frĂ„gor, skriva kod och hĂ„lla konversationer. ĂndĂ„ kommer de till korta nĂ€r det kommer till verkliga uppgifter. Till exempel kan en LLM guida dig genom att köpa en jacka men kan inte lĂ€gga bestĂ€llningen Ă„t dig. Denna klyfta mellan att tĂ€nka och göra Ă€r en stor begrĂ€nsning. MĂ€nniskor behöver inte bara information; de vill ha resultat.
För att överbrygga detta gap, Àr Microsoft vrida LLMs till handlingsorienterade AI-agenter. Genom att göra det möjligt för dem att planera, dekomponera uppgifter och engagera sig i verkliga interaktioner, ger de LLM:er möjlighet att effektivt hantera praktiska uppgifter. Denna förÀndring har potential att omdefiniera vad LLM kan göra, förvandla dem till verktyg som automatiserar komplexa arbetsflöden och förenklar vardagliga uppgifter. LÄt oss titta pÄ vad som behövs för att fÄ detta att hÀnda och hur Microsoft nÀrmar sig problemet.
Vad LLMs behöver agera
För att LLM ska kunna utföra uppgifter i den verkliga vÀrlden mÄste de gÄ lÀngre Àn att förstÄ text. De mÄste interagera med digitala och fysiska miljöer samtidigt som de anpassar sig till förÀndrade förhÄllanden. HÀr Àr nÄgra av de funktioner de behöver:
-
FörstÄ anvÀndarens avsikt
För att agera effektivt mÄste LLM:er förstÄ anvÀndarförfrÄgningar. Inmatningar som text eller röstkommandon Àr ofta vaga eller ofullstÀndiga. Systemet mÄste fylla i luckorna med hjÀlp av dess kunskap och sammanhanget för begÀran. Flerstegskonversationer kan hjÀlpa till att förfina dessa avsikter och sÀkerstÀlla att AI:n förstÄr innan de vidtar ÄtgÀrder.
-
Förvandla avsikter till handling
Efter att ha förstÄtt en uppgift mÄste LLM:erna omvandla den till handlingsbara steg. Det kan handla om att klicka pÄ knappar, anropa API:er eller kontrollera fysiska enheter. LLM:erna mÄste anpassa sina handlingar till den specifika uppgiften, anpassa sig till miljön och lösa utmaningar nÀr de uppstÄr.
-
Anpassa sig till förÀndringar
Verkliga uppgifter gÄr inte alltid som planerat. LLM:er mÄste förutse problem, justera steg och hitta alternativ nÀr problem uppstÄr. Till exempel, om en nödvÀndig resurs inte Àr tillgÀnglig bör systemet hitta ett annat sÀtt att slutföra uppgiften. Denna flexibilitet sÀkerstÀller att processen inte stannar nÀr saker förÀndras.
-
Specialiserad pÄ specifika uppgifter
Medan LLM Àr utformade för allmÀnt bruk, gör specialisering dem mer effektiva. Genom att fokusera pÄ specifika uppgifter kan dessa system leverera bÀttre resultat med fÀrre resurser. Detta Àr sÀrskilt viktigt för enheter med begrÀnsad datorkraft, som smartphones eller inbyggda system.
Genom att utveckla dessa fÀrdigheter kan LLM:er gÄ lÀngre Àn att bara bearbeta information. De kan vidta meningsfulla ÄtgÀrder, vilket banar vÀg för AI att sömlöst integreras i vardagliga arbetsflöden.
Hur Microsoft förvandlar LLMs
Microsofts instÀllning till att skapa handlingsorienterad AI följer en strukturerad process. HuvudmÄlet Àr att göra det möjligt för LLM:er att förstÄ kommandon, planera effektivt och vidta ÄtgÀrder. SÄ hÀr gör de:
Steg 1: Samla in och förbereda data
I den första meningen samlade de in data relaterade till deras specifika anvĂ€ndningsfall: UFO Agent (beskrivs nedan). Uppgifterna inkluderar anvĂ€ndarfrĂ„gor, miljödetaljer och uppgiftsspecifika Ă„tgĂ€rder. TvĂ„ olika typer av data samlas in i denna fas: för det första samlade de in uppgiftsplandata som hjĂ€lper LLM:er att beskriva steg pĂ„ hög nivĂ„ som krĂ€vs för att slutföra en uppgift. Till exempel kan "Ăndra teckenstorlek i Word" innebĂ€ra steg som att markera text och justera instĂ€llningarna i verktygsfĂ€ltet. För det andra samlade de in uppgift-Ă„tgĂ€rdsdata, vilket gjorde det möjligt för LLM:er att översĂ€tta dessa steg till exakta instruktioner, som att klicka pĂ„ specifika knappar eller anvĂ€nda kortkommandon.
Denna kombination ger modellen bÄde helheten och de detaljerade instruktioner den behöver för att utföra uppgifter effektivt.
Steg 2: Utbilda modellen
NÀr data vÀl har samlats in förfinas LLM:er genom flera trÀningspass. I det första steget utbildas LLM:er för uppgiftsplanering genom att lÀra dem hur man delar upp anvÀndarförfrÄgningar i handlingsbara steg. ExpertmÀrkta data anvÀnds sedan för att lÀra dem hur de ska omsÀtta dessa planer till specifika ÄtgÀrder. För att ytterligare förbÀttra sin problemlösningsförmÄga har LLM:er engagerat sig i sjÀlvförstÀrkande utforskningsprocesser som ger dem möjlighet att ta itu med olösta uppgifter och generera nya exempel för kontinuerligt lÀrande. Slutligen tillÀmpas förstÀrkningsinlÀrning, med hjÀlp av feedback frÄn framgÄngar och misslyckanden för att ytterligare förbÀttra deras beslutsfattande.
Steg 3: Offlinetestning
Efter utbildning testas modellen i kontrollerade miljöer för att sÀkerstÀlla tillförlitlighet. MÀtvÀrden som Task Success Rate (TSR) och Step Success Rate (SSR) anvÀnds för att mÀta prestanda. Att testa en kalenderhanteringsagent kan till exempel innebÀra att verifiera dess förmÄga att schemalÀgga möten och skicka inbjudningar utan fel.
Steg 4: Integrering i riktiga system
NÀr modellen har validerats integreras den i ett agentramverk. Detta gjorde det möjligt för den att interagera med verkliga miljöer, som att klicka pÄ knappar eller navigera i menyer. Verktyg som UI Automation API:er hjÀlpte systemet att identifiera och manipulera anvÀndargrÀnssnittselement dynamiskt.
Om agenten till exempel har till uppgift att markera text i Word, identifierar han markeringsknappen, markerar texten och tillÀmpar formatering. En minneskomponent kan hjÀlpa LLM att hÄlla reda pÄ tidigare ÄtgÀrder, vilket gör det möjligt att anpassa sig till nya scenarier.
Steg 5: Real-World Testing
Det sista steget Àr utvÀrdering online. HÀr testas systemet i verkliga scenarier för att sÀkerstÀlla att det kan hantera ovÀntade förÀndringar och fel. Till exempel kan en kundsupportbot vÀgleda anvÀndare genom att ÄterstÀlla ett lösenord samtidigt som de anpassar sig till felaktiga inmatningar eller saknad information. Denna testning sÀkerstÀller att AI Àr robust och redo för daglig anvÀndning.
Ett praktiskt exempel: UFO-agenten
För att visa upp hur handlingsinriktad AI fungerar utvecklade Microsoft UFO-agent. Detta system Àr utformat för att utföra verkliga uppgifter i Windows-miljöer, förvandla anvÀndarförfrÄgningar till slutförda ÄtgÀrder.
I grunden anvÀnder UFO-agenten en LLM för att tolka förfrÄgningar och planera ÄtgÀrder. Om en anvÀndare till exempel sÀger "Markera ordet "viktigt" i det hÀr dokumentet, interagerar agenten med Word för att slutföra uppgiften. Den samlar in kontextuell information, som positionerna för UI-kontroller, och anvÀnder denna för att planera och utföra ÄtgÀrder.
UFO-agenten förlitar sig pÄ verktyg som Windows UI Automation (UIA) API. Detta API skannar applikationer efter kontrollelement, sÄsom knappar eller menyer. För en uppgift som "Spara dokumentet som PDF" anvÀnder agenten UIA för att identifiera "Arkiv"-knappen, hitta alternativet "Spara som" och utföra de nödvÀndiga stegen. Genom att strukturera data konsekvent sÀkerstÀller systemet smidig drift frÄn trÀning till verklig tillÀmpning.
Ăvervinna utmaningar
Ăven om detta Ă€r en spĂ€nnande utveckling, kommer det med utmaningar att skapa handlingsorienterad AI. Skalbarhet Ă€r en stor frĂ„ga. Utbildning och implementering av dessa modeller för olika uppgifter krĂ€ver betydande resurser. Att sĂ€kerstĂ€lla sĂ€kerhet och tillförlitlighet Ă€r lika viktigt. Modeller mĂ„ste utföra uppgifter utan oavsiktliga konsekvenser, sĂ€rskilt i kĂ€nsliga miljöer. Och eftersom dessa system interagerar med privata data Ă€r det ocksĂ„ avgörande att upprĂ€tthĂ„lla etiska standarder kring integritet och sĂ€kerhet.
Microsofts fÀrdplan fokuserar pÄ att förbÀttra effektiviteten, utöka anvÀndningsfallen och upprÀtthÄlla etiska standarder. Med dessa framsteg kan LLM:er omdefiniera hur AI interagerar med vÀrlden, vilket gör dem mer praktiska, anpassningsbara och handlingsorienterade.
Framtiden för AI
Att förvandla LLM:er till handlingsorienterade agenter kan vara en spelomvandlare. Dessa system kan automatisera uppgifter, förenkla arbetsflöden och göra tekniken mer tillgĂ€nglig. Microsofts arbete med handlingsorienterad AI och verktyg som UFO-agenten Ă€r bara början. NĂ€r AI fortsĂ€tter att utvecklas kan vi förvĂ€nta oss smartare, mer kapabla system som inte bara interagerar med oss âââ de fĂ„r jobb gjorda.