Artificial Intelligence

AIOS: LLM エージェント用のオペレーティングシステム

公開済み

1週間前

2024 年 4 月 25 日

過去 60 年にわたり、オペレーティングシステムは段階的に進化し、基本システムから、今日のデバイスを動かす複雑で対話型のオペレーティングシステムまで進歩しました。当初、オペレーティングシステムは、ゲート操作などのコンピューターハードウェアのバイナリ機能とユーザーレベルのタスクの間の橋渡しとして機能しました。しかし、長年にわたって、単純なバッチジョブ処理システムから、マルチタスクやタイムシェアリングなどのより高度なプロセス管理技術へと発展してきました。これらの進歩により、最新のオペレーティングシステムはさまざまな複雑なタスクを管理できるようになりました。 Windows や MacOS などのグラフィカルユーザーインターフェイス (GUI) の導入により、最新のオペレーティングシステムはよりユーザーフレンドリーでインタラクティブになり、同時にランタイムライブラリや包括的な開発者ツールスイートによる OS エコシステムも拡張されました。

最近のイノベーションには、大規模な言語モデル (LLM) は、新たな可能性を解き放つことでさまざまな業界に革命をもたらしてきました。最近では、LLM ベースのインテリジェントエージェントが驚くべき能力を発揮し、幅広いタスクで人間のようなパフォーマンスを達成しています。ただし、これらの薬剤はまだ開発の初期段階にあり、現在の技術はその効率と有効性に影響を与えるいくつかの課題に直面しています。一般的な問題には、大規模な言語モデルにおけるエージェントリクエストの次善のスケジューリング、さまざまな専門分野を持つエージェントの統合における複雑さ、LLM とエージェント間の対話中のコンテキストの維持などが含まれます。 LLM ベースのエージェントの急速な開発と複雑さの増大により、多くの場合、ボトルネックが発生し、リソースが最適に使用されなくなります。

これらの課題に対処するために、この記事では、大規模な言語モデルをオペレーティングシステムの「頭脳」として統合し、事実上「魂」を与えるように設計された LLM エージェントオペレーティングシステムである AIOS について説明します。具体的には、AIOS フレームワークは、エージェント間でのコンテキストの切り替えを容易にし、リソース割り当てを最適化し、エージェントにツールサービスを提供し、アクセス制御を維持し、エージェントの同時実行を可能にすることを目的としています。 AIOS フレームワークを深く掘り下げ、そのメカニズム、方法論、アーキテクチャを調査し、最先端のフレームワークと比較します。飛び込んでみましょう。

大規模な言語モデルで目覚ましい成功を収めた後、AI および ML 業界の次の焦点は、人間の介入を最小限またはまったく行わずに、独立して動作し、独自に意思決定を行い、タスクを実行できる自律型 AI エージェントを開発することです。これらの AI ベースのインテリジェントエージェントは、人間の指示を理解し、情報を処理し、意思決定を行い、自律状態を達成するために適切なアクションを実行するように設計されており、大規模な言語モデルの出現と開発により、これらの自律エージェントの開発に新たな可能性がもたらされています。 DALL-E、GPT などを含む現在の LLM フレームワークは、人間の指示を理解し、推論して問題を解決する能力、人間のユーザーや外部環境と対話する驚くべき能力を示しています。これらの強力で有能な大規模言語モデル上に構築された LLM ベースのエージェントは、仮想アシスタントから、問題解決、推論、計画、実行の作成を伴うより複雑で高度なシステムに至るまで、さまざまな環境で強力なタスク遂行能力を備えています。

上の図は、LLM ベースの自律エージェントが現実世界のタスクをどのように解決できるかを示す説得力のある例を示しています。ユーザーがシステムに旅行情報を要求すると、旅行代理店はタスクを実行可能なステップに分割します。その後、エージェントはフライトの予約、ホテルの予約、支払いの処理などの手順を順番に実行します。ステップの実行中に、これらのエージェントが従来のソフトウェアアプリケーションと異なるのは、エージェントが意思決定能力を示し、ステップの実行に推論を組み込む能力です。これらの品質が飛躍的に向上するとともに、自律エージェント、大規模な言語モデルとオペレーティングシステムの機能への負担が増加しており、同じ例として、限られた大規模な言語モデルでエージェントのリクエストの優先順位付けとスケジュール設定が重大な課題を引き起こしていることが挙げられます。さらに、長いコンテキストを扱う場合、大規模な言語モデルの生成プロセスは時間がかかるタスクになるため、スケジューラが結果の生成を一時停止する可能性があり、言語モデルの現在の生成結果のスナップショットを作成するメカニズムを考案するという問題が発生します。。この結果、大規模言語モデルが現在のリクエストに対する応答の生成を完了していない場合、一時停止/再開動作が有効になります。

上記の課題に対処するために、大規模言語モデルオペレーティングシステムである AIOS は、LLM および OS 機能の集約とモジュール分離を提供します。 AIOS フレームワークは、大規模言語モデルに関連付けられたタスクと関連付けられていないタスク間で生じる潜在的な競合を回避するために、LLM 固有のカーネル設計を提案しています。提案されたカーネルは、オペレーティングシステムのような役割、特に LLM エージェント、開発ツールキット、およびそれらに対応するリソースを監督する役割を分離します。この分離の結果、LLM カーネルは、LLM に関連するアクティビティの調整と管理を強化しようとします。

AIOS : 方法論とアーキテクチャ

ご覧のとおり、AIOS フレームワークの動作には 6 つの主要なメカニズムが関与しています。

エージェントスケジューラ: エージェントスケジューラに割り当てられたタスクは、大規模な言語モデルの使用を最適化するために、エージェントのリクエストをスケジュールし、優先順位を付けることです。

コンテキストマネージャー: コンテキストマネージャーに割り当てられたタスクは、大規模言語モデルの中間生成ステータスの復元、および大規模言語モデルのコンテキストウィンドウ管理とともにスナップショットをサポートすることです。

メモリーマネージャー: メモリマネージャの主な役割は、各エージェントの対話ログに短期メモリを提供することです。

ストレージ·マネージャー: ストレージマネージャーは、将来の取得に備えて、エージェントの対話ログを長期ストレージに保存する責任があります。

ツールマネージャー: ツールマネージャーメカニズムは、外部 API ツールへのエージェントの呼び出しを管理します。

Access Manager: アクセスマネージャーは、エージェント間のプライバシーとアクセス制御ポリシーを強制します。

上記のメカニズムに加えて、AIOS フレームワークは階層化されたアーキテクチャを特徴としており、アプリケーション層、カーネル層、ハードウェア層の 3 つの異なる層に分割されています。 AIOS フレームワークによって実装された階層型アーキテクチャにより、責任がシステム全体に均等に分散され、上位層がその下の層の複雑さを抽象化し、特定のモジュールまたはインターフェイスを使用した対話が可能になり、モジュール性が強化され、複数の層間のシステム対話が簡素化されます。層。

アプリケーション層から始まり、この層は数学エージェントや旅行エージェントなどのアプリケーションエージェントの開発と展開に使用されます。アプリケーション層では、AIOS フレームワークは、エージェント開発者の開発プロセスを簡素化する、より高度に抽象化されたシステムコールを備えた AIOS ソフトウェア開発キット (AIOS SDK) を提供します。 AIOS が提供するソフトウェア開発キットは、下位レベルのシステム機能の複雑さを抽象化することでエージェントアプリケーションの開発を容易にする豊富なツールキットを提供します。これにより、開発者はエージェントの機能と本質的なロジックに集中できるようになり、より効率的な開発が可能になります。プロセス。

次に、カーネル層は、LLM カーネルと OS カーネルの 2 つのコンポーネントにさらに分割されます。 OS カーネルと LLM カーネルは両方とも、LLM 固有の操作と非 LLM 操作の固有の要件に対応します。その違いにより、LLM カーネルは、エージェントのスケジューリングやコンテキスト管理、アクティビティの処理に不可欠なアクティビティなど、大規模言語モデル固有のタスクに集中できます。大規模な言語モデルに関連します。 AIOS フレームワークは、既存の OS カーネルの構造を大幅に変更することなく、大規模言語モデルカーネルを強化することに主に重点を置いています。 LLM カーネルには、エージェントスケジューラ、メモリマネージャ、コンテキストマネージャ、ストレージマネージャ、アクセスマネージャ、ツールマネージャ、LLM システムコールインターフェイスなどのいくつかの主要なモジュールが装備されています。カーネル層内のコンポーネントは、多様な実行ニーズに対応できるように設計されています。エージェントアプリケーションの管理を強化し、AIOS フレームワーク内での効果的な実行と管理を保証します。

最後に、GPU、CPU、周辺機器、ディスク、メモリなどのシステムの物理コンポーネントで構成されるハードウェア層があります。 LLM カーネルのシステムはハードウェアと直接対話することができず、これらの呼び出しは、ハードウェアリソースを管理するオペレーティングシステムのシステムコールと連動することを理解することが重要です。 LLM カーネルのシステムとハードウェアリソース間のこの間接的な相互作用により、セキュリティと抽象化の層が作成され、LLM カーネルがハードウェアを直接管理する必要なくハードウェアリソースの機能を活用できるようになり、システムの整合性と効率の維持が容易になります。。

製品の導入

上で述べたように、AIOS フレームワークの動作には 6 つの主要なメカニズムが関係しています。エージェントスケジューラは、エージェントのリクエストを効率的に管理できるように設計されており、エージェントが同じステップからのステップで直線的にタスクを処理する従来の逐次実行パラダイムとは対照的に、いくつかの実行ステップを備えています。次のエージェントに進む前にエージェントが最初に処理されるため、実行シーケンスの後半に現れるタスクの待ち時間が長くなります。エージェントスケジューラは、ラウンドロビン、先入れ先出し、その他のスケジューリングアルゴリズムなどの戦略を採用して、プロセスを最適化します。

コンテキストマネージャーは、大規模な言語モデルに提供されるコンテキストと、特定のコンテキストに基づいた生成プロセスの管理を担当するように設計されています。コンテキストマネージャーには、コンテキストスナップショットと復元、およびコンテキストウィンドウ管理という 2 つの重要なコンポーネントが含まれます。 AIOS フレームワークによって提供されるコンテキストスナップショットおよび復元メカニズムは、次の図に示すように、スケジューラがエージェント要求を一時停止する状況を軽減するのに役立ちます。

次の図に示されているように、エージェントのライフサイクル内の短期メモリを管理するのはメモリマネージャーの責任であり、エージェントがアクティブなとき、つまり実行時またはエージェントの待機中にのみデータが保存され、アクセスできるようにします。実行のために。

一方、ストレージマネージャーは長期的にデータを保存する責任があり、個々のエージェントの活動期間を超えて無期限に保持する必要がある情報のストレージを監督します。 AISO フレームワークは、クラウドベースのソリューション、データベース、ローカルファイルなどのさまざまな耐久性のあるメディアを使用して永続的なストレージを実現し、データの可用性と整合性を保証します。さらに、AISO フレームワークでは、大規模な言語モデルの機能を強化するさまざまな API ツールを管理するのはツールマネージャーです。次の表は、ツールマネージャーがさまざまなリソースから一般的に使用されるツールをどのように統合し、分類するかをまとめています。さまざまなカテゴリに分類されます。

アクセスマネージャーは、アクセス制御操作を個別の内部で組織します。エージェント各エージェントの専用の特権グループを管理し、リソースがエージェントの特権グループから除外されている場合、エージェントのリソースへのアクセスを拒否します。さらに、アクセスマネージャーは、システムの透明性をさらに高める監査ログを編集および維持する責任もあります。

AIOS : 実験と結果

AIOS フレームワークの評価は、2 つの調査質問によって導かれます。1 つは、残高待機時間とターンアラウンドタイムの改善における AIOS スケジューリングのパフォーマンスはどのようになっているのか、2 つ目は、エージェントの要求に対する LLM の応答がエージェントの一時停止後に一貫しているかどうかです。

一貫性に関する質問に答えるために、開発者は 1.0 つのエージェントを個別に実行し、その後これらのエージェントを並行して実行して、各段階で出力を取得しようとします。次の表に示すように、BERT スコアと BLEU スコアは XNUMX の値を達成しており、単一エージェント構成とマルチエージェント構成で生成された出力が完全に一致していることを示しています。

効率性に関する質問に答えるために、開発者は、FIFO または先入れ先出しスケジューリングを使用する AIOS フレームワークと、エージェントが同時に実行される非スケジュールアプローチとの間の比較分析を実行します。非スケジュール設定では、エージェントは事前定義された順序 (数学エージェント、ナレーションエージェント、および記録エージェント) で実行されます。時間効率を評価するために、AIOS フレームワークは待機時間とターンアラウンドタイムという 2 つの指標を使用します。エージェントは複数のリクエストを大規模言語モデルに送信するため、個々のエージェントの待機時間とターンアラウンドタイムは、待機時間とターンアラウンドタイムの平均として計算されます。すべてのリクエストの待ち時間と所要時間。次の表に示されているように、スケジュールなしのアプローチは、シーケンスの前半のエージェントでは満足のいくパフォーマンスを示しますが、シーケンスの後半のエージェントでは待ち時間と応答時間が長くなるという問題があります。一方、AIOS フレームワークによって実装されたスケジューリングアプローチは、待ち時間とターンアラウンドタイムの両方を効果的に規制します。

最終的な考え

この記事では、AIOS について説明しました。AIOS は、大規模な言語モデルを OS の頭脳として OS に埋め込み、魂を持ったオペレーティングシステムを実現することを目的として設計された LLM エージェントオペレーティングシステムです。具体的には、AIOS フレームワークは、エージェント間でのコンテキストの切り替えを容易にし、リソース割り当てを最適化し、エージェントにツールサービスを提供し、エージェントのアクセス制御を維持し、エージェントの同時実行を可能にすることを目的として設計されています。 AISO アーキテクチャは、大規模言語モデルベースの自律エージェント結果として、より効果的で、一貫性があり、効率的な AIOS-Agent エコシステムが実現します。