Tekoäly

Intentionaalista toteutukseen: Miten Microsoft muuttaa suuria kielen malleja toimintasuuntautuneiksi tekoälyksi

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

Suuret kielen mallit (LLM) ovat muuttaneet tapaa, jolla käsittelemme luonnollista kieltä. Ne voivat vastata kysymyksiin, kirjoittaa koodia ja pitää keskustelua. Kuitenkin ne eivät pysty toteuttamaan tehtäviä, joissa vaaditaan toimintaa. Esimerkiksi LLM voi opastaa sinua ostamaan takin, mutta se ei voi tehdä tilausta puolestasi. Tämä kuilu ajattelun ja tekemisen välillä on suuri rajoitus. Ihmiset eivät tarvitse vain tietoa, he haluavat tuloksia.

Microsoft on muuttamassa LLM:itä toimintasuuntautuneiksi tekoälyksi. Sallimalla niiden suunnitella, jakaa tehtäviä ja osallistua todellisiin vuorovaikutuksiin, ne antavat LLM:ille mahdollisuuden hallita tehokkaasti käytännön tehtäviä. Tämä muutos voi uudelleenmääritellä, mitä LLM:illä voidaan tehdä, muuttaen ne työkaluiksi, jotka automatisoivat monimutkaisia työnkulkuja ja yksinkertaistavat arkipäivän tehtäviä. Tarkastellaan, mitä tarvitaan tämän toteuttamiseen ja miten Microsoft lähestyy ongelmaa.

Mitä LLM:ille tarvitaan toimimaan

LLM:ien on kyettävä tekemään tehtäviä todellisessa maailmassa, ne tarvitsevat kykyä ymmärtää tekstiä. Ne tarvitsevat vuorovaikutusta sekä digitaalisten että fyysisten ympäristöjen kanssa ja sopeutumista muuttuviin olosuhteisiin. Tässä on joitakin kyvyistä, joita niiden tarvitsee:

Käyttäjän aikomusten ymmärtäminen

Toimimaan tehokkaasti LLM:ien on ymmärrettävä käyttäjän pyynnöt. Syötteet, kuten teksti tai äänikomennot, ovat usein epämääräisiä tai puutteellisia. Järjestelmän on täytettävä aukot sen tiedon ja pyynnön kontekstin avulla. Monivaiheiset keskustelut voivat auttaa tarkentamaan näitä aikomuksia, varmistamalla, että tekoäly ymmärtää ennen toimimista.

Aikomusten muuttaminen toiminnaksi

Kun LLM on ymmärtänyt tehtävän, se on muunnettava toimiviksi askeliksi. Tämä voi vaatia painamista, API-työkalujen kutsumista tai fyysisten laitteiden ohjaamista. LLM:ien on sopeutettava toimintansa tehtävän mukaan, sopeutumalla ympäristöön ja ratkaisemalla haasteita, jotka ilmenevät.

Sopeutuminen muutoksiin

Todelliset tehtävät eivät aina suju kaiken aikaa suunnitelmien mukaan. LLM:ien on osattava ennakoida ongelmia, sopeuttaa askelia ja löytää vaihtoehtoja, kun ongelmia ilmenee. Esimerkiksi, jos tarvittavaa resurssia ei ole saatavilla, järjestelmän on löydettävä toinen tapa suorittaa tehtävä. Tämä joustavuus varmistaa, että prosessi ei tyrehty, kun asioita muuttuu.

Erikoistuminen tiettyihin tehtäviin

Vaikka LLM:it on suunniteltu yleiskäyttöön, erikoistuminen tekee niistä tehokkaampia. Keskittyessään tiettyihin tehtäviin nämä järjestelmät voivat toimia tuloksellisemmin vähemmällä resursseilla. Tämä on erityisen tärkeää laitteilla, joilla on rajoitettu laskentakapasiteetti, kuten älypuhelimilla tai upotetuilla järjestelmissä.

Kehittämällä näitä taitoja LLM:it voivat siirtyä yli pelkästä tiedon käsittelystä. Ne voivat tehdä merkityksellisiä toimia, avaamalla tien tekoälylle integroitua arkipäivän työnkulkuun.

Miten Microsoft muuttaa LLM:itä

Microsoftin lähestymistapa luomassa toimintasuuntautuneita tekoälyjä seuraa rakennettua prosessia. Avainperiaatteena on antaa LLM:ille mahdollisuus ymmärtää käskyjä, suunnitella tehokkaasti ja toimia. Tässä on, miten he tekevät sen:

Askel 1: Datankerääminen ja valmistelu

Ensimmäisessä vaiheessa he keräävät dataa, joka liittyy heidän tiettyihin käyttötarkoituksiinsa: UFO Agent (ks. alla). Data sisältää käyttäjän kysymyksiä, ympäristön yksityiskohtia ja tehtäväkohtaisia toimia. Kaksi eri tyyppiä dataa kerätään tässä vaiheessa: ensinnäkin, he keräävät tehtäväsuunnitelman, joka auttaa LLM:itä luomaan korkean tason askelia, joita tarvitaan tehtävän suorittamiseen. Esimerkiksi “Vaihda fontin koko Wordissa” voi vaatia askelia, kuten valitseminen ja säätäminen työkalupalkin asetuksia. Toiseksi, he keräävät tehtävätietoja, jotka mahdollistavat LLM:ille kääntää nämä askelit tarkkaan ohjeisiin, kuten napsauttamista tiettyjä painikkeita tai käyttämistä näppäimistölyhenteitä.

Tämä yhdistelmä antaa mallille sekä suuren kuvan että yksityiskohtaiset ohjeet, joita tarvitaan tehtävien suorittamiseen tehokkaasti.

Askel 2: Mallin koulutus

Kun data on kerätty, LLM:it jalostetaan useiden koulutussessioiden kautta. Ensimmäisessä vaiheessa LLM:it koulutetaan tehtäväsuunnittelulle opettamalla niitä, miten jakaa käyttäjän pyynnöt toimiviksi askeliksi. Asiantuntijoiden merkitty data käytetään opettamaan niille, miten kääntää nämä suunnitelmat tarkkaan toimiksi. Edelleen parantamaan ongelmanratkaisukykyjä, LLM:it osallistuvat itse vahvistavaan tutkimusprosessiin, joka antaa niille mahdollisuuden ratkaista ratkaisemattomia tehtäviä ja luoda uusia esimerkkejä jatkuvaan oppimiseen. Lopuksi vahvistava oppiminen sovelletaan, jossa palautetta onnistumisista ja epäonnistumisista käytetään edelleen parantamaan päätöksentekoa.

Askel 3: Paikallinen testaus

Koulutuksen jälkeen malli testataan hallituissa ympäristöissä varmistamaan luotettavuus. Mittareita, kuten Tehtävän onnistumisaste (TSR) ja Askeltason onnistumisaste (SSR), käytetään suorituskyvyn mittaamiseen. Esimerkiksi kalenterin hallintaa tekevän agentin testaaminen voi vaatia vahvistamista sen kyvystä aikatauluttaa kokouksia ja lähettää kutsuja ilman virheitä.

Askel 4: Integraatio todellisiin järjestelmiin

Kun malli on validoituna, se integroidaan agenttirunkoon. Tämä mahdollisti sen vuorovaikutuksen todellisten ympäristöjen kanssa, kuten painamalla painikkeita tai navigoimalla valikoissa. Työkalut, kuten UI Automation API, auttoivat järjestelmää tunnistamaan ja manipuloimaan käyttöliittymän elementtejä dynaamisesti.

Esimerkiksi, jos tehtävänä on korostaa tekstiä Wordissa, agentti tunnistaa korostuspainikkeen, valitsee tekstin ja soveltaa muotoilua. Muistiosakomponentti voi auttaa LLM:ää pitämään kirjaa aiemmista toimista, mahdollistaen sopeutumisen uusiin tilanteisiin.

Askel 5: Todellisen maailman testaus

Viimeinen askel on verkkotestaus. Tässä vaiheessa järjestelmä testataan todellisissa tilanteissa varmistamaan, että se pystyy käsittelemään odottamattomia muutoksia ja virheitä. Esimerkiksi asiakastukibotti voi opastaa käyttäjiä salasanan resetoimisessa sopeutumalla virheellisiin syötteisiin tai puuttuviin tietoihin. Tämä testaus varmistaa, että tekoäly on luotettava ja valmis arkipäivän käyttöön.

Käytännön esimerkki: UFO Agent

Näyttääkseen, miten toimintasuuntautunut tekoäly toimii, Microsoft kehitti UFO Agentin. Tämä järjestelmä on suunniteltu suorittamaan todellisen maailman tehtäviä Windows-ympäristössä, muuttaen käyttäjän pyynnöt suoritetuiksi toimiksi.

UFO Agentin ydin on LLM, joka tulkkaa pyynnöt ja suunnittelee toimia. Esimerkiksi, jos käyttäjä sanoo, “Korosta sana ‘tärkeä’ tässä asiakirjassa”, agentti vuorovaikuttaa Wordin kanssa suorittaakseen tehtävän. Se kerää kontekstuaalista tietoa, kuten UI-ohjausten sijainteja, ja käyttää tätä tietoa suunnitella ja suorittaa toimia.

UFO Agent riippuu työkaluista, kuten Windows UI Automation (UIA) API:sta. Tämä API skannaa sovelluksia ohjaus-elementeille, kuten painikkeille tai valikolle. Tehtävälle, kuten “Tallenna asiakirja PDF:nä”, agentti käyttää UIA:ta tunnistamaan “Tiedosto”-painikkeen, löytämään “Tallenna nimellä” -vaihtoehdon ja suorittamaan tarvittavat askelit. Rakentelemalla datan johdonmukaisesti, järjestelmä varmistaa sulavan toiminnan koulutuksesta todelliseen soveltamiseen.

Haasteiden voittaminen

Vaikka tämä on jännittävä kehitys, toimintasuuntautuneen tekoälyn luominen tuo mukanaan haasteita. Mittakaava on suuri ongelma. Kouluttaminen ja käyttöönotto näitä malleja moninaisissa tehtävissä vaatii merkittäviä resursseja. Turvallisuuden ja luotettavuuden varmistaminen on yhtä tärkeää. Mallien on suoritettava tehtäviä ilman tahattomia seurauksia, erityisesti herkillä alueilla. Ja koska nämä järjestelmät vuorovaikuttavat yksityisen datan kanssa, eettisten standardien ylläpitäminen yksityisyyden ja turvallisuuden suhteen on myös tärkeää.

Microsoftin tiekartta keskittyy tehokkuuden parantamiseen, käyttötapausten laajentamiseen ja eettisten standardien ylläpitämiseen. Näiden edistysten myötä LLM:it voivat uudelleenmääritellä, miten tekoäly vuorovaikuttaa maailman kanssa, tehdäkseen siitä käytännöllisemmän, sopeutuvamman ja toimintasuuntautuneen.

Dr. Tehseen Zia

Tohtori Tehseen Zia on COMSATS University Islamabadin apulaisprofessori, joka on suorittanut AI-tutkinnon Wienin Teknillisen yliopiston, Itävallassa. Erityisalanaan ovat Tekoäly, Konenäkö, Data Science ja Machine Learning, ja hän on tehnyt merkittäviä töitä julkaisemalla artikkeleita arvostetuissa tieteellisissä lehdissä. Tohtori Tehseen on myös johtanut useita teollisuusprojekteja pää tutkijana ja toiminut AI-konsulttina.