Artificial Intelligence

Od intencji do realizacji: w jaki sposób Microsoft przekształca duże modele językowe w zorientowaną na działanie sztuczną inteligencję

Opublikowany 11 stycznia 2025 r.

dr Tehseen Zia

Duże modele językowe (LLM) mają zmieniony jak radzimy sobie z przetwarzaniem języka naturalnego. Potrafią odpowiadać na pytania, pisać kod i prowadzić rozmowy. Jednak nie radzą sobie z zadaniami z prawdziwego świata. Na przykład, LLM może pomóc Ci kupić kurtkę, ale nie może złożyć zamówienia za Ciebie. Ta luka między myśleniem a działaniem jest poważnym ograniczeniem. Ludzie nie potrzebują tylko informacji; chcą wyników.

Aby zasypać tę lukę, Microsoft obracając LLM-y stają się zorientowanymi na działanie agentami AI. Umożliwiając im planowanie, rozkładanie zadań i angażowanie się w interakcje w świecie rzeczywistym, dają LLM-om możliwość skutecznego zarządzania praktycznymi zadaniami. Ta zmiana ma potencjał, aby zdefiniować na nowo, co LLM-y mogą zrobić, zamieniając je w narzędzia, które automatyzują złożone przepływy pracy i upraszczają codzienne zadania. Przyjrzyjmy się, co jest potrzebne, aby to się stało i jak Microsoft podchodzi do tego problemu.

Czego potrzebują LLM-y, aby działać

Aby LLM-owie mogli wykonywać zadania w świecie rzeczywistym, muszą wyjść poza rozumienie tekstu. Muszą współdziałać z cyfrowym i fizycznym środowiskiem, dostosowując się do zmieniających się warunków. Oto niektóre z umiejętności, których potrzebują:

Zrozumienie intencji użytkownika

Aby działać skutecznie, LLM muszą rozumieć żądania użytkowników. Dane wejściowe, takie jak tekst lub polecenia głosowe, są często niejasne lub niekompletne. System musi wypełnić luki, wykorzystując swoją wiedzę i kontekst żądania. Wieloetapowe konwersacje mogą pomóc doprecyzować te intencje, zapewniając, że AI rozumie je przed podjęciem działania.

Przekształcanie intencji w działania

Po zrozumieniu zadania LLM muszą przekształcić je w wykonalne kroki. Może to obejmować klikanie przycisków, wywoływanie interfejsów API lub kontrolowanie urządzeń fizycznych. LLM muszą modyfikować swoje działania do konkretnego zadania, dostosowując się do środowiska i rozwiązując wyzwania w miarę ich pojawiania się.

Adaptacja do zmian

Zadania w świecie rzeczywistym nie zawsze przebiegają zgodnie z planem. LLM muszą przewidywać problemy, dostosowywać kroki i znajdować alternatywy, gdy pojawiają się problemy. Na przykład, jeśli niezbędny zasób nie jest dostępny, system powinien znaleźć inny sposób na wykonanie zadania. Ta elastyczność zapewnia, że proces nie zatrzyma się, gdy rzeczy się zmienią.

Specjalizujemy się w określonych zadaniach

Chociaż LLM są przeznaczone do ogólnego użytku, specjalizacja sprawia, że są bardziej wydajne. Skupiając się na konkretnych zadaniach, systemy te mogą dostarczać lepsze wyniki przy mniejszej ilości zasobów. Jest to szczególnie ważne w przypadku urządzeń o ograniczonej mocy obliczeniowej, takich jak smartfony lub systemy wbudowane.

Rozwijając te umiejętności, LLM-owie mogą wyjść poza samo przetwarzanie informacji. Mogą podejmować znaczące działania, torując drogę dla bezproblemowej integracji AI z codziennymi przepływami pracy.

Jak Microsoft przekształca LLM

Podejście Microsoftu do tworzenia zorientowanej na działanie AI opiera się na ustrukturyzowanym procesie. Kluczowym celem jest umożliwienie LLM-om zrozumienia poleceń, skutecznego planowania i podejmowania działań. Oto, jak to robią:

Krok 1: Zbieranie i przygotowywanie danych

W pierwszym zdaniu zebrali dane dotyczące konkretnych przypadków użycia: UFO Agent (opisany poniżej). Dane obejmują zapytania użytkowników, szczegóły środowiskowe i działania specyficzne dla zadań. W tej fazie zbierane są dwa różne typy danych: po pierwsze, zebrali dane dotyczące planu zadania, pomagając LLM-om w określeniu ogólnych kroków wymaganych do wykonania zadania. Na przykład „Zmień rozmiar czcionki w programie Word” może obejmować kroki takie jak zaznaczanie tekstu i dostosowywanie ustawień paska narzędzi. Po drugie, zebrali dane dotyczące działania zadania, umożliwiając LLM-om przełożenie tych kroków na precyzyjne instrukcje, takie jak klikanie określonych przycisków lub korzystanie ze skrótów klawiaturowych.

Takie połączenie daje modelowi zarówno ogólny obraz, jak i szczegółowe instrukcje niezbędne do skutecznego wykonywania zadań.

Krok 2: Szkolenie modelu

Po zebraniu danych LLM są udoskonalani poprzez wiele sesji szkoleniowych. W pierwszym kroku LLM są szkoleni w zakresie planowania zadań, ucząc ich, jak rozbijać żądania użytkowników na wykonalne kroki. Następnie dane oznaczone przez ekspertów są używane do nauki, jak przekładać te plany na konkretne działania. Aby jeszcze bardziej zwiększyć ich zdolność rozwiązywania problemów, LLM zaangażowali się w samonapędzający się proces eksploracji, który pozwala im zająć się nierozwiązanymi zadaniami i generować nowe przykłady do ciągłej nauki. Na koniec stosuje się uczenie wzmacniające, wykorzystując informacje zwrotne z sukcesów i porażek, aby jeszcze bardziej ulepszyć ich podejmowanie decyzji.

Krok 3: Testowanie offline

Po treningu model jest testowany w kontrolowanych środowiskach, aby zapewnić niezawodność. Metryki takie jak Współczynnik powodzenia zadania (TSR) i Step Success Rate (SSR) służą do pomiaru wydajności. Na przykład testowanie agenta zarządzania kalendarzem może obejmować weryfikację jego zdolności do planowania spotkań i wysyłania zaproszeń bez błędów.

Krok 4: Integracja z systemami rzeczywistymi

Po zatwierdzeniu model jest integrowany z frameworkiem agenta. Pozwala to na interakcję z rzeczywistymi środowiskami, takimi jak klikanie przycisków lub nawigowanie po menu. Narzędzia takie jak UI Automation APIs pomagają systemowi dynamicznie identyfikować i manipulować elementami interfejsu użytkownika.

Na przykład, jeśli ma za zadanie wyróżnić tekst w programie Word, agent identyfikuje przycisk wyróżnienia, zaznacza tekst i stosuje formatowanie. Komponent pamięci mógłby pomóc LLM śledzić przeszłe działania, umożliwiając mu dostosowanie się do nowych scenariuszy.

Krok 5: Testowanie w warunkach rzeczywistych

Ostatnim krokiem jest ocena online. Tutaj system jest testowany w rzeczywistych scenariuszach, aby upewnić się, że poradzi sobie z nieoczekiwanymi zmianami i błędami. Na przykład bot obsługi klienta może przeprowadzić użytkowników przez resetowanie hasła, dostosowując się do nieprawidłowych danych wejściowych lub brakujących informacji. Testowanie to zapewnia, że sztuczna inteligencja jest solidna i gotowa do codziennego użytku.

Praktyczny przykład: Agent UFO

Aby pokazać, jak działa sztuczna inteligencja zorientowana na działanie, firma Microsoft opracowała Agent UFO. Ten system jest przeznaczony do wykonywania zadań ze świata rzeczywistego w środowiskach Windows, zamieniając żądania użytkowników w ukończone działania.

W swojej istocie agent UFO używa LLM do interpretowania żądań i planowania działań. Na przykład, jeśli użytkownik powie: „Podświetl słowo „ważne” w tym dokumencie”, agent wchodzi w interakcję z Wordem, aby wykonać zadanie. Gromadzi informacje kontekstowe, takie jak pozycje kontrolek interfejsu użytkownika, i używa ich do planowania i wykonywania działań.

Agent UFO opiera się na narzędziach takich jak Automatyzacja interfejsu użytkownika systemu Windows (UIA) API. To API skanuje aplikacje pod kątem elementów sterujących, takich jak przyciski lub menu. W przypadku zadania takiego jak „Zapisz dokument jako PDF” agent używa UIA do zidentyfikowania przycisku „Plik”, zlokalizowania opcji „Zapisz jako” i wykonania niezbędnych kroków. Dzięki spójnej strukturyzacji danych system zapewnia płynne działanie od szkolenia do rzeczywistej aplikacji.

Pokonywanie wyzwań

Chociaż jest to ekscytujący rozwój, tworzenie zorientowanej na działanie sztucznej inteligencji wiąże się z wyzwaniami. Skalowalność jest głównym problemem. Szkolenie i wdrażanie tych modeli w różnych zadaniach wymaga znacznych zasobów. Zapewnienie bezpieczeństwa i niezawodności jest równie ważne. Modele muszą wykonywać zadania bez niezamierzonych konsekwencji, szczególnie w środowiskach wrażliwych. A ponieważ te systemy wchodzą w interakcje z prywatnymi danymi, utrzymanie standardów etycznych dotyczących prywatności i bezpieczeństwa jest również kluczowe.

Plan działania Microsoftu koncentruje się na poprawie wydajności, rozszerzeniu przypadków użycia i utrzymaniu standardów etycznych. Dzięki tym postępom LLM-y mogłyby zdefiniować na nowo interakcję AI ze światem, czyniąc je bardziej praktycznymi, adaptowalnymi i zorientowanymi na działanie.

Przyszłość AI

Przekształcenie LLM w agentów zorientowanych na działanie może być przełomem. Systemy te mogą automatyzować zadania, upraszczać przepływy pracy i czynić technologię bardziej dostępną. Praca Microsoftu nad zorientowaną na działanie sztuczną inteligencją i narzędziami takimi jak UFO Agent to dopiero początek. W miarę rozwoju sztucznej inteligencji możemy oczekiwać inteligentniejszych, bardziej wydajnych systemów, które nie tylko wchodzą z nami w interakcje — one wykonują zadania.

W przyszłym

Nscale zainwestuje 2.5 miliarda dolarów w brytyjskie centra danych, wspierając generatywną sztuczną inteligencję i ambicje rządowe

Nie przegap

Od tweetów do połączeń: jak sztuczna inteligencja zmienia badanie akustyczne ptaków wędrownych

dr Tehseen Zia

Dr Tehseen Zia jest profesorem nadzwyczajnym na Uniwersytecie COMSATS w Islamabadzie oraz posiada tytuł doktora w dziedzinie sztucznej inteligencji uzyskany na Politechnice Wiedeńskiej w Austrii. Specjalizuje się w sztucznej inteligencji, uczeniu maszynowym, nauce danych i wizji komputerowej, wniósł znaczący wkład w postaci publikacji w renomowanych czasopismach naukowych. Dr Tehseen kierował także różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.

Zjednoczyć.AI

Od intencji do realizacji: w jaki sposób Microsoft przekształca duże modele językowe w zorientowaną na działanie sztuczną inteligencję

Czego potrzebują LLM-y, aby działać

Zrozumienie intencji użytkownika

Przekształcanie intencji w działania

Adaptacja do zmian

Specjalizujemy się w określonych zadaniach