Sztuczna inteligencja

Od Intencji do Wykonania: Jak Microsoft Przekształca Duże Modele Językowe w AI Zorientowane na Działanie

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

Duże Modele Językowe (LLM) zmieniły sposób, w jaki radzimy sobie z przetwarzaniem języka naturalnego. Mogą one odpowiadać na pytania, pisać kod i prowadzić rozmowy. Jednak nie radzą sobie, gdy chodzi o zadania związane z rzeczywistymi zadaniami. Na przykład, LLM może nakierować Cię na kupno kurta, ale nie może złożyć zamówienia w Twoim imieniu. Ta luka między myśleniem a działaniem jest dużym ograniczeniem. Ludzie nie potrzebują tylko informacji; chcą wyników.

Aby zabić tę lukę, Microsoft przekształca LLM w AI zorientowane na działanie. Poprzez umożliwienie im planowania, rozkładania zadań i angażowania się w interakcje ze światem rzeczywistym, upoważnia LLM do efektywnego zarządzania zadaniami praktycznymi. Ten zwrot ma potencjał, aby zdefiniować, co LLM mogą robić, zmieniając je w narzędzia, które automatyzują złożone przepływy pracy i upraszczają codzienne zadania. Zobaczmy, co jest potrzebne, aby to się stało, i jak Microsoft podchodzi do tego problemu.

Co LLM Potrzebuje, aby Działać

Aby LLM mogły wykonywać zadania w świecie rzeczywistym, muszą one wykraczać poza zrozumienie tekstu. Muszą one wchodzić w interakcje z cyfrowymi i fizycznymi środowiskami, dostosowując się do zmieniających się warunków. Oto niektóre z możliwości, których potrzebują:

Zrozumienie Intencji Użytkownika

Aby działać skutecznie, LLM muszą zrozumieć żądania użytkownika. Dane wejściowe, takie jak tekst lub polecenia głosowe, są często niejasne lub niepełne. System musi wypełnić luki za pomocą swojej wiedzy i kontekstu żądania. Rozmowy wieloetapowe mogą pomóc w udoskonaleniu tych intencji, zapewniając, że AI zrozumie, zanim podejmie działanie.

Zamiana Intencji w Działania

Po zrozumieniu zadania, LLM muszą przekształcić je w kroki, które można wykonać. Może to obejmować klikanie przycisków, wywoływanie interfejsów API lub kontrolowanie urządzeń fizycznych. LLM muszą modyfikować swoje działania w zależności od konkretnego zadania, dostosowując się do środowiska i rozwiązując problemy, które pojawiają się.

Adaptacja do Zmian

Zadania rzeczywiste nie zawsze idą zgodnie z planem. LLM muszą przewidywać problemy, dostosowywać kroki i znajdować alternatywy, gdy pojawiają się problemy. Na przykład, jeśli niezbędny zasób nie jest dostępny, system powinien znaleźć inny sposób, aby ukończyć zadanie. Ta elastyczność zapewnia, że proces nie zatrzymuje się, gdy rzeczy się zmieniają.

Specjalizacja w Konkretnych Zadaniach

Chociaż LLM są zaprojektowane do użytku ogólnego, specjalizacja sprawia, że są one bardziej efektywne. Poprzez koncentrowanie się na konkretnych zadaniach, te systemy mogą dostarczyć lepsze wyniki z mniejszymi zasobami. Jest to szczególnie ważne dla urządzeń z ograniczoną mocą obliczeniową, takich jak smartfony lub systemy wbudowane.

Poprzez rozwijanie tych umiejętności, LLM mogą wyjść poza samą tylko przetwarzanie informacji. Mogą one podejmować znaczące działania, otwierając drogę do integracji AI z codziennymi przepływami pracy.

Jak Microsoft Przekształca LLM

Podejście Microsoftu do tworzenia AI zorientowanej na działanie obejmuje strukturalny proces. Kluczowym celem jest umożliwienie LLM zrozumienia poleceń, planowania i podejmowania działań. Oto, jak to robią:

Krok 1: Zebranie i Przygotowanie Danych

W pierwszej fazie zebrali dane związane z ich konkretnymi przypadkami użycia: UFO Agent (opisanym poniżej). Dane obejmują zapytania użytkowników, szczegóły środowiska i działania związane z zadaniami. Dwa różne typy danych są zbierane w tej fazie: po pierwsze, zebrali dane planu zadania, które pomagają LLM wyznaczyć ogólne kroki niezbędne do ukończenia zadania. Na przykład, “Zmień rozmiar czcionki w Word” może obejmować kroki, takie jak wybranie tekstu i dostosowanie ustawień paska narzędzi. Po drugie, zebrali dane działań związanych z zadaniami, które umożliwiają LLM przekształcenie tych kroków w precyzyjne instrukcje, takie jak klikanie konkretnych przycisków lub używanie skrótów klawiszowych.

To połączenie daje modelowi zarówno ogólny, jak i szczegółowy obraz, których potrzebuje, aby wykonywać zadania skutecznie.

Krok 2: Szkolenie Modelu

Po zebraniu danych LLM są doskonalone poprzez wiele sesji szkoleniowych. W pierwszym kroku LLM są szkolone w planowaniu zadań, ucząc je, jak rozbić żądania użytkownika na kroki, które można wykonać. Dane oznaczone przez ekspertów są następnie używane do nauczenia ich, jak przekształcić te plany w konkretnych działania. Aby dalej udoskonalić ich zdolności rozwiązywania problemów, LLM angażują się w proces samodoskonalenia, który umożliwia im rozwiązywanie nierozwiązanych zadań i generowanie nowych przykładów do ciągłego uczenia. Na koniec stosuje się uczenie wzmocnione, używając informacji zwrotnej z sukcesów i porażek, aby dalej udoskonalić ich podejmowanie decyzji.

Krok 3: Testowanie w Środowisku Zdalnym

Po szkoleniu model jest testowany w kontrolowanych środowiskach, aby zapewnić niezawodność. Metryki, takie jak Task Success Rate (TSR) i Step Success Rate (SSR), są używane do pomiaru wydajności. Na przykład, testowanie agenta zarządzającego kalendarzem może obejmować weryfikację jego zdolności do planowania spotkań i wysyłania zaproszeń bez błędów.

Krok 4: Integracja z Rzeczywistymi Systemami

Po walidacji model jest integrowany z ramą agenta. To pozwala mu wchodzić w interakcje ze środowiskami rzeczywistymi, takimi jak klikanie przycisków lub nawigowanie po menu. Narzędzia, takie jak UI Automation APIs, pomagają systemowi identyfikować i manipulować dynamicznie elementami interfejsu użytkownika.

Na przykład, jeśli zadaniem jest zaznaczenie tekstu w Word, agent identyfikuje przycisk zaznaczenia, wybiera tekst i stosuje formatowanie. Składnik pamięci może pomóc LLM w śledzeniu poprzednich działań, umożliwiając im adaptację do nowych scenariuszy.

Krok 5: Testowanie w Środowisku Rzeczywistym

Ostatnim krokiem jest ocena online. Tutaj system jest testowany w rzeczywistych scenariuszach, aby upewnić się, że może on radzić sobie z nieoczekiwanymi zmianami i błędami. Na przykład, bot wsparcia klienta może prowadzić użytkowników przez resetowanie hasła, dostosowując się do niepoprawnych danych wejściowych lub brakujących informacji. To testowanie zapewnia, że AI jest solidna i gotowa do codziennego użytku.

Praktyczny Przykład: UFO Agent

Aby pokazać, jak działa AI zorientowana na działanie, Microsoft opracował UFO Agent. Ten system jest zaprojektowany do wykonywania zadań rzeczywistych w środowiskach Windows, zmieniając żądania użytkownika w zakończone działania.

W swojej istocie UFO Agent używa LLM do interpretacji żądań i planowania działań. Na przykład, jeśli użytkownik powie, “Zaznacz słowo ‘ważne’ w tym dokumencie”, agent wchodzi w interakcje z Word, aby ukończyć zadanie. Zbiera informacje kontekstowe, takie jak położenie elementów interfejsu użytkownika, i używa ich do planowania i wykonywania działań.

UFO Agent opiera się na narzędziach, takich jak Windows UI Automation (UIA) API. To API skanuje aplikacje w poszukiwaniu elementów kontrolnych, takich jak przyciski lub menu. Dla zadania, takiego jak “Zapisz dokument jako PDF”, agent używa UIA, aby zidentyfikować przycisk “Plik”, znaleźć opcję “Zapisz jako” i wykonać niezbędne kroki. Poprzez ustrukturyzowanie danych w sposób spójny, system zapewnia gładkie działanie od szkolenia do aplikacji w świecie rzeczywistym.

Pokonywanie Wyświadczeń

Chociaż jest to ekscytujący rozwój, tworzenie AI zorientowanej na działanie wiąże się z wyzwaniami. Skalowalność jest dużym problemem. Szkolenie i wdrożenie tych modeli w różnych zadaniach wymaga znacznych zasobów. Zapewnienie bezpieczeństwa i niezawodności jest równie ważne. Modele muszą wykonywać zadania bez niezamierzonych konsekwencji, szczególnie w wrażliwych środowiskach. A ponieważ te systemy wchodzą w interakcje z danymi prywatnymi, utrzymanie standardów etycznych dotyczących prywatności i bezpieczeństwa jest również kluczowe.

Droga rozwojowa Microsoftu koncentruje się na poprawie wydajności, rozszerzaniu przypadków użycia i utrzymaniu standardów etycznych. Z tymi postępami LLM mogą zdefiniować, jak AI wchodzi w interakcje ze światem, czyniąc je bardziej praktycznymi, adaptacyjnymi i zorientowanymi na działanie.

Przyszłość AI

Przekształcenie LLM w agenty zorientowane na działanie może być przełomem. Te systemy mogą automatyzować zadania, upraszczać przepływy pracy i czynić technologię bardziej dostępną. Praca Microsoftu nad AI zorientowaną na działanie i narzędziami, takimi jak UFO Agent, jest dopiero początkiem. W miarę ewolucji AI możemy oczekiwać, że systemy będą bardziej inteligentne, zdolne i nie tylko wchodzące w interakcje z nami, ale także wykonujące zadania.

Dr. Tehseen Zia

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.