Umělá inteligence

Od záměru k provedení: Jak Microsoft transformuje velké jazykové modely na akčně orientované AI

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

Velké jazykové modely (LLMs) změnily, jak zpracováváme přirozený jazyk. Mohou odpovědět na otázky, psát kód a vést konverzace. Avšak selhávají, když se jedná o úkoly reálného světa. Například LLM může vést vás při nákupu saka, ale nemůže objednávku provést za vás. Tato mezera mezi myšlením a jednáním je velkou limitací. Lidé nepotřebují pouze informace; chtějí výsledky.

Aby se tato mezera překlenula, Microsoft mění LLMs na akčně orientované AI agenty. Povolením jim plánovat, rozkládat úkoly a zapojit se do interakcí reálného světa, vybavují LLMs efektivně řídit praktické úkoly. Tento posun má potenciál重新definovat, co LLMs mohou dělat, měnit je na nástroje, které automatizují složité pracovní postupy a zjednodušují každodenní úkoly. Podívejme se, co je potřeba k tomu, aby se to stalo, a jak Microsoft přistupuje k problému.

Co LLMs potřebují k akci

Aby LLMs provedly úkoly v reálném světě, musí jít za hranice porozumění textu. Musí interagovat s digitálními a fyzickými prostředími a přizpůsobovat se měnícím se podmínkám. Zde jsou některé z schopností, které potřebují:

Porozumění uživatelskému záměru

Aby jednaly efektivně, LLMs musí rozumět uživatelským požadavkům. Vstupy, jako text nebo hlasové příkazy, jsou často vágní nebo neúplné. Systém musí vyplnit mezery pomocí svých znalostí a kontextu požadavku. Více krokových konverzací může pomoci upřesnit tyto záměry, zajišťující, že AI rozumí, než provede akci.

Převod záměrů na akce

Po porozumění úkolu musí LLMs převést jej na proveditelné kroky. To může zahrnovat klikání na tlačítka, volání API nebo ovládání fyzických zařízení. LLMs musí upravit své akce na konkrétní úkol, přizpůsobovat se prostředí a řešit problémy, jakmile vzniknou.

Přizpůsobení se změnám

Úkoly reálného světa se ne vždy daří podle plánu. LLMs musí předvídat problémy, upravit kroky a najít alternativy, když nastanou potíže. Například, pokud není k dispozici nezbytný zdroj, systém by měl najít jiný způsob, jak dokončit úkol. Tato flexibilita zajišťuje, že proces se nezastaví, když se věci změní.

Specializace na konkrétní úkoly

Zatímco LLMs jsou navrženy pro obecné použití, specializace je činí efektivnějšími. Soustředěním se na konkrétní úkoly mohou tyto systémy dodávat lepší výsledky s menším množstvím zdrojů. To je especialmente důležité pro zařízení s omezenou výpočetní sílou, jako jsou smartphony nebo vestavěné systémy.

Rozvíjením těchto dovedností mohou LLMs jít za hranice pouze zpracování informací. Mohou provádět smysluplné akce, připravující cestu pro AI, aby se integrovala bezproblémově do každodenních pracovních postupů.

Jak Microsoft transformuje LLMs

Microsoftův přístup ke tvorbě akčně orientovaného AI následuje strukturovaný proces. Hlavním cílem je umožnit LLMs rozumět příkazům, plánovat efektivně a jednat. Zde je, jak to dělají:

Krok 1: Sběr a příprava dat

V první fázi shromáždili data související s jejich konkrétními použitími: UFO Agent (popisováno níže). Data zahrnují uživatelské dotazy, environmentální podrobnosti a úkolu specifické akce. Dva různé typy dat jsou shromážděny v této fázi: první, shromáždili data o plánech úkolů, která pomáhají LLMs nastínit vysoké úrovně kroků vyžadovaných k dokončení úkolu. Například “Změnit velikost písma ve Wordu” by mohlo zahrnovat kroky, jako je výběr textu a úprava nástrojové lišty. Druhý, shromáždili data o akcích úkolů, která umožňují LLMs převést tyto kroky na přesné instrukce, jako je klikání na konkrétní tlačítka nebo použití klávesových zkrátek.

Toto kombinace poskytuje modelu jak velký obraz, tak i podrobné instrukce, které potřebuje k provedení úkolů efektivně.

Krok 2: Školení modelu

Jakmile jsou data shromážděna, LLMs jsou rafinovány prostřednictvím více školicích sezení. V prvním kroku jsou LLMs školeny pro plánování úkolů, učí se, jak rozkládat uživatelské požadavky na proveditelné kroky. Expertně označená data jsou pak použita k učení, jak tyto plány převést na konkrétní akce. K dalšímu vylepšení jejich problémových schopností se LLMs účastní samo-posilujícího procesu průzkumu, který je opravňuje řešit nevyřešené úkoly a generovat nové příklady pro kontinuální učení. Nakonec je použito učení s posilováním, které používá zpětnou vazbu od úspěchů a selhání k dalšímu vylepšení jejich rozhodování.

Krok 3: Offline testování

Po školení je model testován v kontrolovaném prostředí, aby se zajistila spolehlivost. Metriky, jako je Task Success Rate (TSR) a Step Success Rate (SSR), jsou použity k měření výkonu. Například testování agenta pro správu kalendáře by mohlo zahrnovat ověření jeho schopnosti naplánovat schůzky a odeslat pozvánky bez chyb.

Krok 4: Integrace do reálných systémů

Jakmile je model ověřen, je integrován do agentního rámce. To mu umožnilo interagovat s reálnými prostředími, jako je klikání na tlačítka nebo navigace v menu. Nástroje, jako je UI Automation API, pomáhají systému identifikovat a manipulovat s uživatelskými rozhraními dynamicky.

Například, pokud je úkol zvýraznit text ve Wordu, agent identifikuje tlačítko pro zvýraznění, vybere text a aplikuje formátování. Komponenta paměti by mohla pomoci LLMs uchovat minulé akce, umožňující jim přizpůsobit se novým scénářům.

Krok 5: Reálné testování

Posledním krokem je online hodnocení. Zde je systém testován v reálných scénářích, aby se zajistilo, že může zvládnout neočekávané změny a chyby. Například, bot pro zákaznickou podporu by mohl vést uživatele při resetování hesla, zatímco se přizpůsobuje nesprávným vstupům nebo chybějícím informacím. Toto testování zajišťuje, že AI je robustní a připravený pro každodenní použití.

Praktický příklad: UFO Agent

Aby se ukázalo, jak akčně orientovaný AI funguje, Microsoft vyvinul UFO Agent. Tento systém je navržen pro provedení reálných úkolů ve Windows prostředí, převádějící uživatelské požadavky na provedené akce.

V jeho jádru UFO Agent používá LLM k interpretaci požadavků a plánování akcí. Například, pokud uživatel řekne, “Zvýrazněte slovo ‘důležité’ v tomto dokumentu,” agent interaguje s Wordem, aby dokončil úkol. Shromažďuje kontextuální informace, jako jsou pozice ovládacích prvků, a používá je k plánování a provedení akcí.

UFO Agent spoléhá na nástroje, jako je Windows UI Automation (UIA) API. Tento API skenuje aplikace pro ovládací prvky, jako jsou tlačítka nebo menu. Pro úkol, jako je “Uložit dokument jako PDF,” agent používá UIA k identifikaci tlačítka “Soubor”, najít možnost “Uložit jako” a provést nezbytné kroky. Konsistentním strukturováním dat zajišťuje systém hladký provoz od školení až po reálné použití.

Překonání výzev

Zatímco je toto zajímavý vývoj, vytváření akčně orientovaného AI přichází s výzvami. Škálovatelnost je velkou otázkou. Školení a nasazení těchto modelů napříč různými úkoly vyžadují značné zdroje. Zajištění bezpečnosti a spolehlivosti je stejně důležité. Modely musí provádět úkoly bez neočekávaných důsledků, zejména v citlivých prostředích. A protože tyto systémy interagují s privátními daty, udržování etických standardů kolem soukromí a bezpečnosti je také zásadní.

Microsoftova roadmap se zaměřuje na zlepšení efektivity, rozšiřování použití a udržování etických standardů. S těmito pokroky by LLMs mohly重新definovat, jak AI interaguje se světem, činí je praktičtějšími, přizpůsobivějšími a akčně orientovanými.

Budoucnost AI

Transformace LLMs na akčně orientované agenty by mohla být zásadním posunem. Tyto systémy mohou automatizovat úkoly, zjednodušit pracovní postupy a učinit technologii více přístupnou. Microsoftova práce na akčně orientovaném AI a nástrojích, jako je UFO Agent, je pouze začátkem. Jak AI bude pokračovat ve vývoji, můžeme očekávat chytřejší, schopnější systémy, které s námi nebudou pouze interagovat – budou dokončovat úkoly.

Dr. Tehseen Zia

Dr. Tehseen Zia je docent s trvalým úvazkem na COMSATS University Islamabad, držitel titulu PhD v oblasti AI z Vienna University of Technology, Rakousko. Specializuje se na umělou inteligenci, strojové učení, datové vědy a počítačové vidění, a významně přispěl publikacemi v renomovaných vědeckých časopisech. Dr. Tehseen také vedl různé průmyslové projekty jako hlavní výzkumník a působil jako konzultant pro umělou inteligenci.