Connect with us

Künstliche Intelligenz

Von der Absicht zur Ausführung: Wie Microsoft Large Language Models in aktionsorientierte KI umwandelt

mm

Large Language Models (LLMs) haben geändert, wie wir die Verarbeitung von natürlicher Sprache handhaben. Sie können Fragen beantworten, Code schreiben und Gespräche führen. Doch sie fallen kurz, wenn es um reale Aufgaben geht. Zum Beispiel kann ein LLM Ihnen durch den Kauf einer Jacke führen, aber nicht die Bestellung für Sie aufgeben. Diese Lücke zwischen Denken und Handeln ist eine große Einschränkung. Menschen benötigen nicht nur Informationen, sie wollen Ergebnisse.

Um diese Lücke zu schließen, wandelt Microsoft LLMs in aktionsorientierte KI-Agenten um. Indem sie es ihnen ermöglichen, Pläne zu erstellen, Aufgaben zu unterteilen und mit realen Umgebungen zu interagieren, ermöglichen sie es LLMs, praktische Aufgaben effektiv zu verwalten. Diese Veränderung hat das Potenzial, umzudefinieren, was LLMs tun können, und sie in Werkzeuge umzuwandeln, die komplexe Workflows automatisieren und alltägliche Aufgaben vereinfachen. Lassen Sie uns sehen, was erforderlich ist, um dies zu erreichen, und wie Microsoft dieses Problem angeht.

Was LLMs benötigen, um zu handeln

Damit LLMs Aufgaben in der realen Welt ausführen können, müssen sie über das Verständnis von Text hinausgehen. Sie müssen mit digitalen und physischen Umgebungen interagieren und sich an veränderte Bedingungen anpassen. Hier sind einige der Fähigkeiten, die sie benötigen:

  1. Verständnis der Benutzerabsicht

Um effektiv zu handeln, müssen LLMs Benutzeranfragen verstehen. Eingaben wie Text oder Sprachbefehle sind oft vage oder unvollständig. Das System muss die Lücken mit seinem Wissen und dem Kontext der Anfrage füllen. Mehrschrittige Gespräche können helfen, diese Absichten zu verfeinern, um sicherzustellen, dass die KI versteht, bevor sie handelt.

  1. Umwandlung von Absichten in Aktionen

Nachdem eine Aufgabe verstanden wurde, müssen die LLMs sie in ausführbare Schritte umwandeln. Dies kann das Klicken auf Schaltflächen, das Aufrufen von APIs oder das Steuern von physischen Geräten umfassen. Die LLMs müssen ihre Aktionen an die spezifische Aufgabe anpassen, sich an die Umgebung anpassen und Herausforderungen lösen, die auftreten.

  1. Anpassung an Änderungen

Reale Aufgaben verlaufen nicht immer wie geplant. LLMs müssen Probleme vorhersehen, Schritte anpassen und Alternativen finden, wenn Probleme auftreten. Wenn beispielsweise eine erforderliche Ressource nicht verfügbar ist, sollte das System eine andere Möglichkeit finden, die Aufgabe abzuschließen. Diese Flexibilität stellt sicher, dass der Prozess nicht ins Stocken gerät, wenn sich Dinge ändern.

  1. Spezialisierung auf bestimmte Aufgaben

Obwohl LLMs für den allgemeinen Gebrauch konzipiert sind, macht Spezialisierung sie effizienter. Durch die Konzentration auf bestimmte Aufgaben können diese Systeme bessere Ergebnisse mit weniger Ressourcen liefern. Dies ist besonders wichtig für Geräte mit begrenzter Rechenleistung, wie Smartphones oder eingebettete Systeme.

Durch die Entwicklung dieser Fähigkeiten können LLMs über das bloße Verarbeiten von Informationen hinausgehen. Sie können sinnvolle Aktionen ausführen und den Weg für die Integration von KI in alltägliche Workflows ebnen.

Wie Microsoft LLMs umwandelt

Microsofts Ansatz zur Erstellung von aktionsorientierter KI folgt einem strukturierten Prozess. Das Hauptziel ist es, LLMs zu ermöglichen, Befehle zu verstehen, effektiv zu planen und zu handeln. Hier ist, wie sie es tun:

Schritt 1: Datensammlung und -vorbereitung

In der ersten Phase sammelten sie Daten im Zusammenhang mit ihren spezifischen Anwendungsfällen: UFO-Agent (siehe unten). Die Daten umfassen Benutzeranfragen, Umgebungsdetails und aufgabenbezogene Aktionen. Zwei Arten von Daten werden in dieser Phase gesammelt: Erstens sammelten sie Daten zum Aufgabenplan, die den LLMs helfen, die auf hoher Ebene erforderlichen Schritte zur Erledigung einer Aufgabe zu skizzieren. Zum Beispiel könnte “Schriftgröße in Word ändern” Schritte wie die Auswahl von Text und die Anpassung der Symbolleisten-Einstellungen umfassen. Zweitens sammelten sie Daten zu Aufgabenaktionen, die es den LLMs ermöglichen, diese Schritte in präzise Anweisungen umzusetzen, wie das Klicken auf bestimmte Schaltflächen oder das Verwenden von Tastenkombinationen.

Diese Kombination gibt dem Modell sowohl das große Bild als auch die detaillierten Anweisungen, die es benötigt, um Aufgaben effektiv auszuführen.

Schritt 2: Modelltraining

Sobald die Daten gesammelt sind, werden die LLMs durch mehrere Trainingsphasen verfeinert. Im ersten Schritt werden die LLMs für die Aufgabenplanung trainiert, indem sie gelehrt werden, wie sie Benutzeranfragen in ausführbare Schritte unterteilen. Experten-gelabelte Daten werden dann verwendet, um sie zu lehren, wie sie diese Pläne in spezifische Aktionen umsetzen. Um ihre Problemlösungsfähigkeiten weiter zu verbessern, haben die LLMs an einem selbstverstärkenden Explorationsprozess teilgenommen, der es ihnen ermöglicht, ungelöste Aufgaben anzugehen und neue Beispiele für kontinuierliches Lernen zu generieren. Schließlich wird das Reinforcement-Learning angewendet, bei dem Feedback von Erfolgen und Misserfolgen verwendet wird, um ihre Entscheidungsfindung weiter zu verbessern.

Schritt 3: Offline-Test

Nach dem Training wird das Modell in kontrollierten Umgebungen getestet, um die Zuverlässigkeit zu gewährleisten. Metriken wie Task Success Rate (TSR) und Step Success Rate (SSR) werden verwendet, um die Leistung zu messen. Zum Beispiel könnte das Testen eines Kalender-Management-Agents die Überprüfung seiner Fähigkeit umfassen, Meetings zu planen und Einladungen ohne Fehler zu senden.

Schritt 4: Integration in reale Systeme

Sobald das Modell validiert ist, wird es in ein Agenten-Framework integriert. Dies ermöglicht es ihm, mit realen Umgebungen zu interagieren, wie dem Klicken auf Schaltflächen oder der Navigation durch Menüs. Tools wie UI-Automatisierungs-APIs halfen dem System, Benutzeroberflächenelemente dynamisch zu identifizieren und zu manipulieren.

Zum Beispiel könnte, wenn das System mit der Aufgabe betraut wird, Text in Word zu markieren, der Agent die Markierungsschaltfläche identifizieren, den Text auswählen und das Format anwenden. Ein Speicher-Modul könnte es dem LLM ermöglichen, vergangene Aktionen zu verfolgen, um sich an neue Szenarien anzupassen.

Schritt 5: Test in der realen Welt

Der letzte Schritt ist die Online-Bewertung. Hier wird das System in realen Szenarien getestet, um sicherzustellen, dass es mit unerwarteten Änderungen und Fehlern umgehen kann. Zum Beispiel könnte ein Kunden-Support-Bot Benutzern helfen, ihr Passwort zurückzusetzen, während es sich an falsche Eingaben oder fehlende Informationen anpasst. Dieser Test stellt sicher, dass die KI robust und für den alltäglichen Gebrauch bereit ist.

Ein praktisches Beispiel: Der UFO-Agent

Um zu zeigen, wie aktionsorientierte KI funktioniert, entwickelte Microsoft den UFO-Agenten. Dieses System ist darauf ausgelegt, reale Aufgaben in Windows-Umgebungen auszuführen und Benutzeranfragen in abgeschlossene Aktionen umzuwandeln.

Im Kern verwendet der UFO-Agent ein LLM, um Anfragen zu interpretieren und Aktionen zu planen. Wenn beispielsweise ein Benutzer sagt: “Markieren Sie das Wort ‘wichtig’ in diesem Dokument”, interagiert der Agent mit Word, um die Aufgabe abzuschließen. Er sammelt Kontextinformationen wie die Positionen von Benutzeroberflächen-Steuerungselementen und verwendet diese, um Aktionen zu planen und auszuführen.

Der UFO-Agent verlässt sich auf Tools wie die Windows-Benutzeroberflächen-Automatisierungs-API (UIA). Diese API scannt Anwendungen nach Steuerungselementen wie Schaltflächen oder Menüs. Für eine Aufgabe wie “Dokument als PDF speichern” verwendet der Agent die UIA, um die “Datei”-Schaltfläche zu identifizieren, die “Speichern als”-Option zu finden und die erforderlichen Schritte auszuführen. Durch die konsistente Strukturierung von Daten stellt das System einen reibungslosen Betrieb von der Ausbildung bis zur realen Anwendung sicher.

Überwindung von Herausforderungen

Während dies eine spannende Entwicklung ist, birgt die Erstellung von aktionsorientierter KI Herausforderungen. Skalierbarkeit ist ein großes Problem. Das Training und die Bereitstellung dieser Modelle für diverse Aufgaben erfordern erhebliche Ressourcen. Die Gewährleistung von Sicherheit und Zuverlässigkeit ist ebenso wichtig. Modelle müssen Aufgaben ohne ungewollte Konsequenzen ausführen, besonders in sensiblen Umgebungen. Und da diese Systeme mit privaten Daten interagieren, ist die Einhaltung ethischer Standards im Hinblick auf Datenschutz und Sicherheit ebenfalls von entscheidender Bedeutung.

Microsofts Roadmap konzentriert sich auf die Verbesserung der Effizienz, die Erweiterung von Anwendungsfällen und die Einhaltung ethischer Standards. Mit diesen Fortschritten könnten LLMs umdefinieren, wie KI mit der Welt interagiert, und sie praktischer, anpassungsfähiger und aktionsorientierter machen.

Die Zukunft der KI

Die Umwandlung von LLMs in aktionsorientierte Agenten könnte ein Game-Changer sein. Diese Systeme können Aufgaben automatisieren, Workflows vereinfachen und Technologie zugänglicher machen. Microsofts Arbeit an aktionsorientierter KI und Tools wie dem UFO-Agenten ist nur der Anfang. Wenn die KI weiterentwickelt wird, können wir cleverere, fähigere Systeme erwarten, die nicht nur mit uns interagieren, sondern Aufgaben erledigen.

Dr. Tehseen Zia ist ein fest angestellter Associate Professor an der COMSATS University Islamabad, der einen PhD in KI von der Vienna University of Technology, Österreich, besitzt. Er spezialisiert sich auf künstliche Intelligenz, Machine Learning, Data Science und Computer Vision und hat mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften wesentliche Beiträge geleistet. Dr. Tehseen hat auch verschiedene industrielle Projekte als Principal Investigator geleitet und als KI-Berater fungiert.