Kunstig intelligens

Fra Intention til Eksekvering: Hvordan Microsoft Transformerer Store Sprogmodeller til Handling-Orienterede AI

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

Store Sprogmodeller (LLM) har ændret hvordan vi håndterer naturlig sprogbehandling. De kan besvare spørgsmål, skrive kode og føre samtaler. Dog mangler de evnen til at udføre virkelige opgaver. For eksempel kan en LLM vejlede dig gennem købet af en jakke, men kan ikke selv afgive købsordren. Denne kæde mellem tanke og handling er en større begrænsning. Mennesker har brug for mere end bare information; de ønsker resultater.

For at brokke denne kæde er Microsoft i færd med at omdanne LLM til handling-orienterede AI-agenter. Ved at aktivere dem til at planlægge, opdele opgaver og deltage i virkelige interaktioner, giver de LLM mulighed for effektivt at håndtere praktiske opgaver. Denne ændring har potentialet til at omdefinere, hvad LLM kan gøre, og omdanne dem til værktøjer, der automatiserer komplekse arbejdsgange og simplificerer daglige opgaver. Lad os se, hvad der er nødvendigt for at gøre dette muligt, og hvordan Microsoft nærmer sig problemet.

Hvad LLM har Brug for for at Handle

For at LLM kan udføre opgaver i den virkelige verden, må de gå ud over at forstå tekst. De må interagere med digitale og fysiske miljøer og tilpasse sig til ændrede betingelser. Her er nogle af de evner, de har brug for:

Forståelse af Brugernes Intention

For at handle effektivt har LLM brug for at forstå brugernes anmodninger. Inddata som tekst eller talekommandoer er ofte vagt eller ufuldstændig. Systemet må udfylde hullerne ved hjælp af sin viden og konteksten af anmodningen. Multi-trins-samtaler kan hjælpe med at finpudse disse intentioner, således at AI forstår, før den handler.

Omvandling af Intentioner til Handlinger

Efter at have forstået en opgave, må LLM omdanne den til handlebare trin. Dette kan indebære at klikke på knapper, kalde API’er eller kontrollere fysiske enheder. LLM har brug for at tilpasse sine handlinger til den specifikke opgave, tilpasse sig til miljøet og løse udfordringer, som de opstår.

Tilpasning til Ændringer

Virkelige opgaver følger ikke altid planen. LLM har brug for at forudse problemer, justere trin og finde alternativer, når problemer opstår. For eksempel, hvis en nødvendig ressource ikke er tilgængelig, skal systemet finde en anden måde at fuldføre opgaven på. Denne fleksibilitet sikrer, at processen ikke stopper, når ting ændrer sig.

Specialisering i Bestemte Opgaver

Selvom LLM er designede til generel brug, gør specialisering dem mere effektive. Ved at fokusere på bestemte opgaver kan disse systemer levere bedre resultater med færre ressourcer. Dette er især vigtigt for enheder med begrænsede beregningsressourcer, som smartphones eller indlejrede systemer.

Ved at udvikle disse færdigheder kan LLM gå ud over at blot behandle information. De kan tage meningsfulde handlinger og baner vejen for, at AI integrerer nærmere i daglige arbejdsgange.

Hvordan Microsoft Transformerer LLM

Microsofts tilgang til at skabe handling-orienterede AI følger en struktureret proces. Det centrale mål er at aktivere LLM til at forstå kommandoer, planlægge effektivt og handle. Her er, hvordan de gør det:

Trin 1: Indsamling og Forberedning af Data

I den første fase indsamlede de data relateret til deres specifikke brugsområder: UFO Agent (beskrevet nedenfor). Data omfatter brugernes forespørgsler, miljødetaljer og opgave-specifikke handlinger. To typer data indsamles i denne fase: først indsamles opgave-plan-data, der hjælper LLM med at skitsere højt niveau-trin, der kræves for at fuldføre en opgave. For eksempel kan “Ændre fontstørrelse i Word” indebære trin som markering af tekst og tilpasning af værktøjsindstillinger. Dernæst indsamles opgave-handlings-data, der giver LLM mulighed for at oversætte disse trin til præcise instruktioner, som at klikke på bestemte knapper eller bruge tastaturgenveje.

Denne kombination giver modellen både det store billede og de detaljerede instruktioner, den har brug for for at udføre opgaver effektivt.

Trin 2: Træning af Modellen

Når data er indsamlet, raffineres LLM gennem multiple træningssessioner. I det første trin trænes LLM i opgave-planlægning ved at lære dem, hvordan de kan opdele brugernes anmodninger i handlebare trin. Ekspertrlabelede data bruges herefter til at lære dem, hvordan de kan oversætte disse planer til specifikke handlinger. For yderligere at forbedre deres problemløsnings-evner har LLM deltaget i en selvforbedrende eksplorationsproces, der giver dem mulighed for at tackle uløste opgaver og generere nye eksempler til kontinuerlig læring. Til sidst anvendes forstærkninglæring, der bruger feedback fra succeser og fiaskoer til yderligere at forbedre deres beslutningstagning.

Trin 3: Offline-Test

Efter træning testes modellen i kontrollerede miljøer for at sikre pålidelighed. Metrikker som Task Success Rate (TSR) og Step Success Rate (SSR) bruges til at måle præstationen. For eksempel kan test af en kalenderstyringsagent indebære verificering af dens evne til at planlægge møder og sende invitationer uden fejl.

Trin 4: Integration i Virkelige Systemer

Når valideret, integreres modellen i en agent-ramme. Dette giver den mulighed for at interagere med virkelige miljøer, som at klikke på knapper eller navigere i menuer. Værktøjer som UI Automation APIs hjælper systemet med at identificere og manipulere brugergrænseflade-elementer dynamisk.

For eksempel, hvis opgaven er at markere tekst i Word, identificerer agenten markéringsknappen, markerer teksten og anvender formatting. En hukommelseskomponent kan hjælpe LLM med at holde styr på tidligere handlinger, hvilket giver den mulighed for at tilpasse sig til nye scenarier.

Trin 5: Virkelige Test

Det sidste trin er online-evaluering. Her testes systemet i virkelige scenarier for at sikre, at det kan håndtere uventede ændringer og fejl. For eksempel kan en kundesupport-bot vejlede brugere gennem nulstilling af adgangskode, mens den tilpasser sig til forkerte indtastninger eller manglende information. Denne test sikrer, at AI er robust og klar til daglig brug.

Et Praktisk Eksempel: UFO Agenten

For at demonstrere, hvordan handling-orienterede AI fungerer, har Microsoft udviklet UFO Agenten. Dette system er designet til at udføre virkelige opgaver i Windows-miljøer, og omdanner brugernes anmodninger til fuldførte handlinger.

I dens kerne bruger UFO Agenten en LLM til at fortolke anmodninger og planlægge handlinger. For eksempel, hvis en bruger siger, “Markér ordet ‘vigtigt’ i dette dokument,” interagerer agenten med Word for at fuldføre opgaven. Den indsamler kontekstuel information, som placeringen af brugergrænseflade-kontroller, og bruger denne til at planlægge og udføre handlinger.

UFO Agenten afhænger af værktøjer som Windows UI Automation (UIA) API. Denne API scanner applikationer for kontrolelementer, som knapper eller menuer. For en opgave som “Gem dokumentet som PDF” bruger agenten UIA til at identificere “Fil”-knappen, finde “Gem som”-muligheden og udføre de nødvendige trin. Ved at strukturere data konsekvent sikrer systemet en jævn drift fra træning til virkelig anvendelse.

Overvindelse af Udfordringer

Selvom dette er en spændende udvikling, indebærer skabelse af handling-orienterede AI udfordringer. Skalabilitet er et større problem. Træning og implementering af disse modeller på tværs af diverse opgaver kræver betydelige ressourcer. Sikring af sikkerhed og pålidelighed er lige så vigtigt. Modellerne må udføre opgaver uden uventede konsekvenser, især i følsomme miljøer. Og da disse systemer interagerer med private data, er det ligeledes vigtigt at fastholde etiske standarder omkring privatliv og sikkerhed.

Microsofts vejviser fokuserer på at forbedre effektiviteten, udvide brugsområder og fastholde etiske standarder. Med disse fremskridt kunne LLM omdanne, hvordan AI interagerer med verden, og gøre dem mere praktiske, tilpasningsdygtige og handling-orienterede.

Fremtiden for AI

Transformation af LLM til handling-orienterede agenter kunne være et spil-forandrende skridt. Disse systemer kan automatisere opgaver, simplificere arbejdsgange og gøre teknologi mere tilgængelig. Microsofts arbejde med handling-orienterede AI og værktøjer som UFO Agenten er kun begyndelsen. Da AI fortsætter med at udvikle sig, kan vi forvente smartere, mere kapable systemer, der ikke blot interagerer med os, men også får arbejdet gjort.

Dr. Tehseen Zia

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.