Künstliche Intelligenz

AIOS: Betriebssystem für LLM-Agenten

Veröffentlicht

2 Wochen her

25. April 2024

In den letzten sechs Jahrzehnten haben sich Betriebssysteme schrittweise weiterentwickelt, von einfachen Systemen zu komplexen und interaktiven Betriebssystemen, die die heutigen Geräte antreiben. Ursprünglich dienten Betriebssysteme als Brücke zwischen der binären Funktionalität von Computerhardware, wie z. B. Gate-Manipulation, und Aufgaben auf Benutzerebene. Im Laufe der Jahre haben sie sich jedoch von einfachen Batch-Job-Verarbeitungssystemen zu ausgefeilteren Prozessmanagementtechniken, einschließlich Multitasking und Time-Sharing, entwickelt. Diese Fortschritte haben es modernen Betriebssystemen ermöglicht, eine Vielzahl komplexer Aufgaben zu verwalten. Die Einführung grafischer Benutzeroberflächen (GUIs) wie Windows und MacOS hat moderne Betriebssysteme benutzerfreundlicher und interaktiver gemacht und gleichzeitig das Betriebssystem-Ökosystem um Laufzeitbibliotheken und eine umfassende Suite von Entwicklertools erweitert.

Zu den jüngsten Innovationen gehört die Integration und Bereitstellung von Large Language Models (LLMs), die verschiedene Branchen revolutioniert haben, indem sie neue Möglichkeiten eröffnet haben. In jüngerer Zeit haben LLM-basierte intelligente Agenten bemerkenswerte Fähigkeiten gezeigt und bei einem breiten Spektrum von Aufgaben eine menschenähnliche Leistung erzielt. Allerdings befinden sich diese Wirkstoffe noch in einem frühen Entwicklungsstadium, und aktuelle Techniken stehen vor mehreren Herausforderungen, die sich auf ihre Effizienz und Wirksamkeit auswirken. Zu den häufigsten Problemen gehören die suboptimale Planung von Agentenanfragen über das große Sprachmodell, die Komplexität bei der Integration von Agenten mit unterschiedlichen Spezialisierungen und die Aufrechterhaltung des Kontexts während der Interaktionen zwischen dem LLM und dem Agenten. Die schnelle Entwicklung und zunehmende Komplexität von LLM-basierten Agenten führen häufig zu Engpässen und einer suboptimalen Ressourcennutzung.

Um diese Herausforderungen anzugehen, wird in diesem Artikel AIOS besprochen, ein LLM-Agenten-Betriebssystem, das darauf ausgelegt ist, große Sprachmodelle als „Gehirn“ des Betriebssystems zu integrieren und ihm so effektiv eine „Seele“ zu verleihen. Das AIOS-Framework zielt insbesondere darauf ab, den Kontextwechsel zwischen Agenten zu erleichtern, die Ressourcenzuweisung zu optimieren, Tooldienste für Agenten bereitzustellen, die Zugriffskontrolle aufrechtzuerhalten und die gleichzeitige Ausführung von Agenten zu ermöglichen. Wir werden tief in das AIOS-Framework eintauchen, seine Mechanismen, Methodik und Architektur untersuchen und es mit modernsten Frameworks vergleichen. Lass uns eintauchen.

Nach bemerkenswerten Erfolgen bei großen Sprachmodellen liegt der nächste Schwerpunkt der KI- und ML-Branche auf der Entwicklung autonomer KI-Agenten, die unabhängig agieren, eigenständig Entscheidungen treffen und Aufgaben mit minimalen oder keinen menschlichen Eingriffen ausführen können. Diese KI-basierten intelligenten Agenten sind darauf ausgelegt, menschliche Anweisungen zu verstehen, Informationen zu verarbeiten, Entscheidungen zu treffen und geeignete Maßnahmen zu ergreifen, um einen autonomen Zustand zu erreichen, wobei das Aufkommen und die Entwicklung großer Sprachmodelle neue Möglichkeiten für die Entwicklung dieser autonomen Agenten eröffnen. Aktuelle LLM-Frameworks wie DALL-E, GPT und andere haben bemerkenswerte Fähigkeiten gezeigt, menschliche Anweisungen zu verstehen, Denk- und Problemlösungsfähigkeiten zu entwickeln und mit menschlichen Benutzern und externen Umgebungen zu interagieren. Aufbauend auf diesen leistungsstarken und leistungsfähigen großen Sprachmodellen verfügen LLM-basierte Agenten über starke Fähigkeiten zur Aufgabenerfüllung in verschiedenen Umgebungen, die von virtuellen Assistenten bis hin zu komplexeren und anspruchsvolleren Systemen reichen, bei denen es um Problemlösung, Argumentation, Planung und Ausführung geht.

Die obige Abbildung zeigt ein überzeugendes Beispiel dafür, wie ein LLM-basierter autonomer Agent reale Aufgaben lösen kann. Der Benutzer fordert vom System Reiseinformationen an, woraufhin das Reisebüro die Aufgabe in ausführbare Schritte unterteilt. Anschließend führt der Agent die Schritte nacheinander durch: Flugbuchung, Hotelreservierung, Zahlungsabwicklung und mehr. Was diese Agenten bei der Ausführung der Schritte von herkömmlichen Softwareanwendungen unterscheidet, ist die Fähigkeit der Agenten, Entscheidungsfähigkeiten zu demonstrieren und Überlegungen in die Ausführung der Schritte einzubeziehen. Zusammen mit einem exponentiellen Wachstum ihrer Qualität autonome AgentenDie Belastung der Funktionalitäten großer Sprachmodelle und Betriebssysteme hat zugenommen, und ein Beispiel dafür ist, dass die Priorisierung und Planung von Agentenanfragen in begrenzten großen Sprachmodellen eine erhebliche Herausforderung darstellt. Da außerdem der Generierungsprozess großer Sprachmodelle bei der Bearbeitung langer Kontexte zu einer zeitaufwändigen Aufgabe wird, ist es für den Planer möglich, die resultierende Generierung auszusetzen, was das Problem bei der Entwicklung eines Mechanismus zur Momentaufnahme des aktuellen Generierungsergebnisses des Sprachmodells aufwirft . Dadurch wird das Pausen-/Fortsetzungsverhalten aktiviert, wenn das große Sprachmodell die Antwortgenerierung für die aktuelle Anfrage noch nicht abgeschlossen hat.

Um die oben genannten Herausforderungen zu bewältigen, bietet AIOS, ein großes Sprachmodell-Betriebssystem, Aggregationen und Modulisolation von LLM- und Betriebssystemfunktionen. Das AIOS-Framework schlägt ein LLM-spezifisches Kernel-Design vor, um potenzielle Konflikte zwischen Aufgaben zu vermeiden, die mit dem großen Sprachmodell verbunden sind und nicht. Der vorgeschlagene Kernel trennt die betriebssystemähnlichen Aufgaben, insbesondere diejenigen, die die LLM-Agenten, Entwicklungs-Toolkits und die entsprechenden Ressourcen überwachen. Aufgrund dieser Trennung versucht der LLM-Kernel, die Koordination und Verwaltung von Aktivitäten im Zusammenhang mit LLMs zu verbessern.

AIOS: Methodik und Architektur

Wie Sie sehen können, gibt es sechs Hauptmechanismen, die an der Funktionsweise des AIOS-Frameworks beteiligt sind.

Agentenplaner: Die dem Agentenplaner zugewiesene Aufgabe besteht darin, Agentenanfragen zu planen und zu priorisieren, um die Nutzung des großen Sprachmodells zu optimieren.

Kontextmanager: Die dem Kontextmanager zugewiesene Aufgabe besteht darin, Snapshots zusammen mit der Wiederherstellung des Zwischengenerierungsstatus im großen Sprachmodell und der Kontextfensterverwaltung des großen Sprachmodells zu unterstützen.

Speichermanager: Die Hauptaufgabe des Speichermanagers besteht darin, für jeden Agenten einen Kurzzeitspeicher für das Interaktionsprotokoll bereitzustellen.

Storage Manager: Der Speichermanager ist dafür verantwortlich, die Interaktionsprotokolle der Agenten für den zukünftigen Abruf im Langzeitspeicher aufzubewahren.

Werkzeugmanager: Der Tool-Manager-Mechanismus verwaltet den Aufruf von Agenten an externe API-Tools.

Access Manager: Der Zugriffsmanager erzwingt Datenschutz- und Zugriffskontrollrichtlinien zwischen Agenten.

Zusätzlich zu den oben genannten Mechanismen verfügt das AIOS-Framework über eine mehrschichtige Architektur und ist in drei verschiedene Schichten unterteilt: die Anwendungsschicht, die Kernel-Schicht und die Hardware-Schicht. Die vom AIOS-Framework implementierte Schichtenarchitektur stellt sicher, dass die Verantwortlichkeiten gleichmäßig über das System verteilt sind, und die höheren Schichten abstrahieren die Komplexität der darunter liegenden Schichten, was Interaktionen mithilfe spezifischer Module oder Schnittstellen ermöglicht, die Modularität verbessert und die Systeminteraktionen zwischen ihnen vereinfacht Lagen.

Beginnend mit der Anwendungsschicht wird diese Schicht für die Entwicklung und Bereitstellung von Anwendungsagenten wie Mathematik- oder Reisebüros verwendet. Auf der Anwendungsebene stellt das AIOS-Framework dem AIOS Software Development Kit (AIOS SDK) eine höhere Abstraktion von Systemaufrufen zur Verfügung, die den Entwicklungsprozess für Agentenentwickler vereinfacht. Das von AIOS angebotene Software Development Kit bietet ein umfangreiches Toolkit zur Erleichterung der Entwicklung von Agentenanwendungen, indem es die Komplexität der Systemfunktionen auf niedrigerer Ebene abstrahiert und es Entwicklern ermöglicht, sich auf die Funktionalitäten und die wesentliche Logik ihrer Agenten zu konzentrieren, was zu einer effizienteren Entwicklung führt Verfahren.

Im weiteren Verlauf wird die Kernelschicht weiter in zwei Komponenten unterteilt: den LLM-Kernel und den Betriebssystemkernel. Sowohl der OS-Kernel als auch der LLM-Kernel erfüllen die einzigartigen Anforderungen von LLM-spezifischen und nicht-LLM-Vorgängen, wobei die Unterscheidung es dem LLM-Kernel ermöglicht, sich auf große sprachmodellspezifische Aufgaben zu konzentrieren, einschließlich Agentenplanung und Kontextverwaltung, Aktivitäten, die für die Abwicklung von Aktivitäten unerlässlich sind im Zusammenhang mit großen Sprachmodellen. Das AIOS-Framework konzentriert sich hauptsächlich auf die Verbesserung des Kernels des großen Sprachmodells, ohne die Struktur des vorhandenen Betriebssystemkernels wesentlich zu verändern. Der LLM-Kernel ist mit mehreren Schlüsselmodulen ausgestattet, darunter dem Agenten-Scheduler, dem Speichermanager, dem Kontextmanager, dem Speichermanager, dem Zugriffsmanager, dem Tool-Manager und der LLM-Systemaufrufschnittstelle. Die Komponenten innerhalb der Kernel-Schicht sind so konzipiert, dass sie den unterschiedlichen Ausführungsanforderungen gerecht werden von Agent-Anwendungen und gewährleistet so eine effektive Ausführung und Verwaltung innerhalb des AIOS-Frameworks.

Schließlich haben wir die Hardwareschicht, die die physischen Komponenten des Systems umfasst, einschließlich GPU, CPU, Peripheriegeräte, Festplatte und Speicher. Es ist wichtig zu verstehen, dass das System der LLM-Kernel nicht direkt mit der Hardware interagieren kann und dass diese Aufrufe mit den Systemaufrufen des Betriebssystems interagieren, die wiederum die Hardwareressourcen verwalten. Diese indirekte Interaktion zwischen dem System des LLM-Karnels und den Hardware-Ressourcen schafft eine Sicherheits- und Abstraktionsebene, die es dem LLM-Kernel ermöglicht, die Fähigkeiten der Hardware-Ressourcen zu nutzen, ohne dass die Hardware direkt verwaltet werden muss, was die Aufrechterhaltung der Integrität und Effizienz des Systems erleichtert .

Sytemimplementierung

Wie oben erwähnt, gibt es sechs Hauptmechanismen, die an der Funktionsweise des AIOS-Frameworks beteiligt sind. Der Agent-Scheduler ist so konzipiert, dass er Agentenanforderungen effizient verwalten kann und über mehrere Ausführungsschritte verfügt, im Gegensatz zu einem herkömmlichen sequentiellen Ausführungsparadigma, bei dem der Agent die Aufgaben linear mit den Schritten derselben verarbeitet Der Agent wird zuerst verarbeitet, bevor er zum nächsten Agenten übergeht, was zu längeren Wartezeiten für Aufgaben führt, die später in der Ausführungssequenz erscheinen. Der Agentenplaner verwendet Strategien wie Round Robin, First In First Out und andere Planungsalgorithmen, um den Prozess zu optimieren.

Der Kontextmanager wurde so konzipiert, dass er für die Verwaltung des dem großen Sprachmodell bereitgestellten Kontexts und den Generierungsprozess angesichts des bestimmten Kontexts verantwortlich ist. Der Kontextmanager umfasst zwei entscheidende Komponenten: Kontextschnappschuss und -wiederherstellung sowie Kontextfensterverwaltung. Der Kontext-Snapshot- und Wiederherstellungsmechanismus des AIOS-Frameworks hilft bei der Entschärfung von Situationen, in denen der Planer die Agentenanforderungen aussetzt, wie in der folgenden Abbildung dargestellt.

Wie in der folgenden Abbildung dargestellt, liegt es in der Verantwortung des Speichermanagers, den Kurzzeitspeicher innerhalb des Lebenszyklus eines Agenten zu verwalten und sicherzustellen, dass die Daten nur dann gespeichert und zugänglich sind, wenn der Agent aktiv ist, entweder während der Laufzeit oder wenn der Agent wartet zur Ausführung.

Andererseits ist der Speichermanager für die langfristige Aufbewahrung der Daten verantwortlich und überwacht die Speicherung von Informationen, die für einen unbestimmten Zeitraum über die Aktivitätslebensdauer eines einzelnen Agenten hinaus aufbewahrt werden müssen. Das AISO-Framework erreicht eine dauerhafte Speicherung mithilfe einer Vielzahl dauerhafter Medien, darunter cloudbasierte Lösungen, Datenbanken und lokale Dateien, und stellt so die Datenverfügbarkeit und -integrität sicher. Darüber hinaus ist es im AISO-Framework der Tool-Manager, der eine unterschiedliche Reihe von API-Tools verwaltet, die die Funktionalität der großen Sprachmodelle verbessern. Die folgende Tabelle fasst zusammen, wie der Tool-Manager häufig verwendete Tools aus verschiedenen Ressourcen integriert und klassifiziert in verschiedene Kategorien einteilen.

Der Zutrittsmanager organisiert Zutrittskontrollvorgänge innerhalb verschiedener Bereiche Agenten durch die Verwaltung einer dedizierten Berechtigungsgruppe für jeden Agenten und verweigert einem Agenten den Zugriff auf seine Ressourcen, wenn diese aus der Berechtigungsgruppe des Agenten ausgeschlossen sind. Darüber hinaus ist der Zugriffsmanager auch für die Erstellung und Pflege von Prüfprotokollen verantwortlich, was die Transparenz des Systems weiter erhöht.

AIOS: Experimente und Ergebnisse

Die Bewertung des AIOS-Frameworks wird von zwei Forschungsfragen geleitet: erstens, wie ist die Leistung der AIOS-Planung bei der Verbesserung der Wartezeit und Bearbeitungszeit des Gleichgewichts und zweitens, ob die Reaktion des LLM auf Agentenanfragen nach der Agentensperre konsistent ist?

Um die Konsistenzfragen zu beantworten, führen Entwickler jeden der drei Agenten einzeln aus, führen diese Agenten anschließend parallel aus und versuchen, ihre Ausgaben während jeder Phase zu erfassen. Wie in der folgenden Tabelle gezeigt, erreichen die BERT- und BLEU-Scores den Wert 1.0, was auf eine perfekte Übereinstimmung zwischen den in Einzelagenten- und Multiagentenkonfigurationen generierten Ausgaben hinweist.

Um die Effizienzfragen zu beantworten, führen die Entwickler eine vergleichende Analyse zwischen dem AIOS-Framework, das FIFO oder First-In-First-Out-Planung verwendet, und einem nicht geplanten Ansatz durch, bei dem die Agenten gleichzeitig ausgeführt werden. In der nicht geplanten Einstellung werden die Agenten in einer vordefinierten Reihenfolge ausgeführt: Mathe-Agent, Narrating-Agent und Rec-Agent. Um die zeitliche Effizienz zu bewerten, verwendet das AIOS-Framework zwei Metriken: Wartezeit und Bearbeitungszeit. Da die Agenten mehrere Anfragen an das große Sprachmodell senden, werden die Wartezeit und die Bearbeitungszeit für einzelne Agenten als Durchschnitt der berechnet Wartezeit und Bearbeitungszeit für alle Anfragen. Wie in der folgenden Tabelle gezeigt, zeigt der nicht geplante Ansatz eine zufriedenstellende Leistung für Agenten zu Beginn der Sequenz, leidet jedoch unter längeren Warte- und Bearbeitungszeiten für Agenten später in der Sequenz. Andererseits regelt der vom AIOS-Framework implementierte Planungsansatz sowohl die Warte- als auch die Bearbeitungszeiten effektiv.

Abschließende Überlegungen

In diesem Artikel haben wir über AIOS gesprochen, ein LLM-Agent-Betriebssystem, das entwickelt wurde, um große Sprachmodelle als Gehirn des Betriebssystems in das Betriebssystem einzubetten und so ein Betriebssystem mit Seele zu ermöglichen. Genauer gesagt wurde das AIOS-Framework mit der Absicht entwickelt, den Kontextwechsel zwischen Agenten zu erleichtern, die Ressourcenzuweisung zu optimieren, Tool-Dienste für Agenten bereitzustellen, die Zugriffskontrolle für Agenten aufrechtzuerhalten und die gleichzeitige Ausführung von Agenten zu ermöglichen. Die AISO-Architektur zeigt das Potenzial, die Entwicklung und Bereitstellung von zu erleichtern auf großen Sprachmodellen basierende autonome Agenten, was zu einem effektiveren, kohärenteren und effizienteren AIOS-Agent-Ökosystem führt.

Als nächstes

Snowflake Arctic: Das hochmoderne LLM für Unternehmens-KI

Verpassen Sie nicht

Kann künstliche Intelligenz Versicherungen erschwinglicher machen?

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.