人工知能

AutoGen: 次世代大規模言語モデルアプリケーションの強化

Published October 18, 2023

Updated April 4, 2026

Kunal Kejriwal

大規模言語モデル (LLM) は現在、主流AIで最も議論されているトピックの1つです。世界中の開発者は、LLMの潜在的なアプリケーションを探索しています。これらのモデルは、深層学習技術と大量のトレーニングデータを使用して、テキスト、オーディオ、画像、ビデオなど、幅広いコンテンツを理解、要約、予測、生成するAIアルゴリズムです。

大規模言語モデルは、複雑なAIアルゴリズムです。これらのモデルを開発することは、時間のかかる作業です。また、LLMの機能を利用するアプリケーションを構築することも同様に課題的です。ワークフローを設計、実装、最適化して、LLMの潜在能力を最大限に引き出すには、重大な専門知識、努力、リソースが必要です。LLMを利用するアプリケーションのワークフローを確立するために必要な時間とリソースは膨大です。したがって、これらのプロセスを自動化することは、非常に大きな価値があります。特に、ワークフローは近い将来さらに複雑になることが予想され、開発者はますます複雑なLLMベースのアプリケーションを構築しているためです。また、これらのワークフローに必要な設計空間は、複雑で広大であるため、パフォーマンスの期待を満たす最適な堅牢なワークフローを構築する課題がさらに高まります。

AutoGenは、Microsoftのチームによって開発されたフレームワークで、LLMワークフローのオーケストレーションと最適化を簡素化することを目的としています。ワークフロー・パイプラインに自動化を導入することで、これを実現します。AutoGenフレームワークは、GPT-3やGPT-4などの高度なLLMの力を利用することができ、同時に、LLMをツールや人間の入力と統合することで、これらのLLMの現在の限界を解決することができます。自動化されたチャットを使用して、複数のエージェント間で会話を開始することができます。

AutoGenフレームワークを使用する場合、複雑なマルチエージェント会話システムを開発するには、2つのステップしか必要ありません。

ステップ1:各エージェントに役割と機能を定義します。

ステップ2:エージェント間の会話の動作を定義します。つまり、エージェントが他のエージェントからメッセージを受け取ったときに、どのように応答するかを定義します。

上記の両方のステップは、モジュラーで直感的であり、これらのエージェントを構成可能で再利用可能にします。以下の図は、サンプル・ワークフローを示しており、サプライ・チェーンの最適化におけるコードベースの質問回答を扱います。図からわかるように、ライターは最初にコードと解釈を書き込み、セーフガードはコードのプライバシーとセキュリティを確保し、コマンダーは必要なクリアランスを受け取った後、コードを実行します。システムがランタイム中に問題に遭遇した場合、プロセスは完全に解決されるまで繰り返されます。このフレームワークを展開すると、サプライ・チェーンの最適化などのアプリケーションで、手動のやり取りを3倍から10倍に削減できます。さらに、AutoGenを使用すると、必要なコーディングの努力を最大4倍削減できます。

AutoGenは、LLMの力を利用する複雑なアプリケーションの開発プロセスを変革する可能性があります。AutoGenの使用により、目的の結果を達成するために必要な手動のやり取りの量を削減するだけでなく、コーディングの努力を削減することもできます。AutoGenを使用してLLMベースのアプリケーションを作成することで、プロセスを大幅に高速化するだけでなく、開発に必要な時間、努力、リソースを削減することもできます。

この記事では、AutoGenフレームワークについて深く掘り下げ、AutoGenフレームワークの基本的なコンポーネントとアーキテクチャ、そしてその潜在的なアプリケーションについて探ります。では、始めましょう。

AutoGenの紹介：次世代大規模言語モデルアプリケーションの強化

AutoGenは、Microsoftのチームによって開発されたオープンソース・フレームワークで、開発者がLLMの力を利用するアプリケーションを作成することを可能にします。AutoGenフレームワークは、会話ができるエージェントを提供し、これらのエージェントは会話を通じてタスクを実行します。開発者は、AutoGenフレームワークを使用して、エージェントの会話の動作を定義することもできます。また、開発者は、コンピューターコードと自然言語の両方を使用して、柔軟な会話パターンをプログラムできます。オープンソースのフレームワークであるAutoGenは、開発者がLLMの力を利用するさまざまな複雑さのアプリケーションとフレームワークを構築するために使用できる汎用フレームワークとみなすことができます。

大規模言語モデルは、LLMフレームワークを使用するエージェントを開発する上で重要な役割を果たしています。これらのエージェントは、新しい観察、ツールの使用、さまざまなリアルワールド・アプリケーションでの推論に適応するために使用されます。しかし、LLMの全潜在能力を利用するアプリケーションを開発することは、複雑な作業です。LLMの需要とアプリケーションが増加し、タスクの複雑さが増すため、エージェントの力をスケールアップするために、複数のエージェントを使用してこれらのエージェントを同期させることが重要です。しかし、複数のエージェントを使用して、さまざまなドメインでさまざまな複雑さのLLMベースのアプリケーションを開発する方法は何ですか?AutoGenフレームワークは、エージェント間の会話を使用することで、この質問に答えを試みます。

AutoGen：コンポーネントとフレームワーク

開発者がLLMの機能を利用する複雑なアプリケーションを作成するために必要な努力を減らすために、AutoGenの基本原則は、エージェント間の会話を使用してマルチエージェント・ワークフローを統合およびストリームライン化することです。AutoGenは、エージェント間の会話を使用してタスクを実行する複数のエージェントを使用します。このフレームワークは、2つの基本的な概念に基づいて構築されています：会話ができるエージェントと会話プログラミング。

会話ができるエージェント

AutoGenの会話ができるエージェントは、事前に定義された役割を持つエンティティで、他の会話ができるエージェントと情報を送受信することができます。会話ができるエージェントは、受信または送信されたメッセージに基づいて内部のコンテキストを維持し、開発者はこれらのエージェントを、LLMツールによって有効化された機能や人間の入力を取る機能など、独自の機能セットを備えたものとして構成できます。

人間、ツール、LLMによって提供されるエージェントの機能

エージェントの機能は、メッセージに応じてエージェントがどのように処理して応答するかという理由で、エージェントの機能は直接関係しています。AutoGenフレームワークでは、エージェントにさまざまな機能を付与する柔軟性が提供されます。AutoGenでは、エージェントの一般的な構成可能な機能として以下のものがサポートされています

LLM:LLMによって裏付けられたエージェントは、暗黙の状態の推論、役割の演技、フィードバックの提供、コードの生成など、先進的なLLMフレームワークの機能を利用します。開発者は、新しい機能やスキルをエージェントに付与するために、これらの機能を組み合わせるために新しいプロンプティング技術を使用できます。
人間:いくつかのアプリケーションでは、ある程度の人間の関与が必要か、または必要です。AutoGenフレームワークでは、エージェントの会話に人間の参加を促進するために、人間によって裏付けられたエージェントを使用して、エージェントの構成に基づいて会話の特定のラウンド中に人間の入力を求めることができます。
ツール:ツールによって裏付けられたエージェントは、コードの実行または関数の実行を使用してツールを実行する機能を備えています。

エージェントの協力とカスタマイズ

アプリケーションの特定のニーズと要件に基づいて、開発者は個々のエージェントを、複雑な動作を示すために、バックエンドの種類の組み合わせを備えたものとして構成できます。AutoGenフレームワークでは、ビルトインのエージェントを拡張または再利用することで、専門的な役割と機能を備えたエージェントを作成することが容易にできます。以下の図は、AutoGenフレームワークのビルトインエージェントの基本的な構造を示しています。ConversableAgentクラスは、デフォルトで人間、ツール、LLMを使用できます。これは、最上位のエージェント抽象化だからです。UserProxyAgentとAssistantAgentは、事前に構成されたConversableAgentのクラスであり、それぞれ、共通の使用モードを表します。LLMによって裏付けられた場合、これらの2つのエージェントはAIアシスタントとして機能し、ツールや人間によって裏付けられた場合、人間のプロキシとして機能して、関数呼び出しやコードの実行を行います。

以下の図は、開発者がAutoGenフレームワークを使用して、カスタムの返信関数を備えた2つのエージェントシステムを作成する方法を示しています。また、結果として得られる自動化されたエージェントの会話が、プログラムの実行中に2つのエージェントシステムを使用する方法も示しています。

会話ができるエージェントを使用することで、これらのエージェントはAutoGenフレームワークの基本的な構成要素として機能します。しかし、開発者は、これらのマルチエージェントの会話を指定して形作る必要があります。そうすれば、これらのエージェントは、指定されたタスクで重大な進歩を遂げることができます。

会話プログラミング

上記の問題を解決するために、AutoGenフレームワークでは、会話プログラミングというコンピューティング・パラダイムを使用します。これは、2つの基本的な概念に基づいています：計算、マルチエージェントの会話におけるエージェントの応答を計算するために取られるアクションと、制御フロー、これらの計算が行われる条件またはシーケンスです。開発者がこれらの計算と制御フローをプログラムできる能力により、さまざまな柔軟なマルチエージェントの会話パターンを実装できます。さらに、AutoGenフレームワークでは、計算は会話中心です。エージェントが取るアクションは、エージェントが関与する会話に関連しています。エージェントが取るアクションは、メッセージのやり取りにつながり、会話が終了するまで続きます。さらに、AutoGenフレームワークの制御フローは、会話によって推進されます。計算プロセスに参加するエージェントが、メッセージを送信するエージェントを決定するからです。

上記の図は、個々のエージェントが役割固有の操作を実行し、会話中心の計算を生成して、コードの実行やLLMの干渉などの望ましい応答を生成する方法を示しています。タスクは、ダイアログボックスに表示される会話によって進みます。

会話プログラミングを促進するために、AutoGenフレームワークには以下のデザインパターンが含まれています。

自動返信メカニズムと自動化されたエージェントの会話のための統一されたインターフェイス

AutoGenフレームワークには、会話中心の計算を実行するための統一されたインターフェイスがあります。これには、メッセージを受信または送信するための「受信または送信関数」と、受信したメッセージに基づいて応答を生成する「generate_reply」関数があります。また、会話駆動の制御を実現するために、エージェントの自動返信メカニズムを導入して展開します。

自然言語とプログラミングの統合による制御

AutoGenフレームワークでは、制御フロー管理パターンで自然言語とプログラミングの使用を促進します。これには、以下のものが含まれます：LLMを使用した自然言語制御、プログラミング言語制御、およびプログラミングと自然言語の間の制御の移行。
さらに、静的な会話に加えて、通常は事前に定義されたフローに伴うものである、AutoGenフレームワークは、複数のエージェントを使用した動的な会話のフローもサポートします。このフレームワークでは、開発者がこれを実現するために、2つのオプションを提供します

関数呼び出しを使用することです。
カスタマイズされたgenerate_reply関数を使用することです。

AutoGenのアプリケーション

AutoGenフレームワークの潜在能力を、複雑なマルチエージェント・アプリケーションの開発に示すために、以下に6つのAutoGenの潜在的なアプリケーションが示されています。これらの6つのアプリケーションは、現実世界での関連性、問題解決能力、革新的な潜在能力に基づいて選択されています。

AutoGenフレームワークのこれらの6つのアプリケーションは以下のとおりです

数学の問題解決。
検索を強化した会話。
ALF会話。
マルチエージェントのコーディング。
ダイナミック・グループ・チャット。
会話型チェス。

AutoGenフレームワークのアプリケーション

アプリケーション1：数学の問題解決

数学は、LLMモデルを使用して複雑な数学の問題を解決するための基礎となる分野です。これにより、AI研究アシスタンスやAIチュートリアルなどの新しい潜在的なアプリケーションが可能になります。

上記の図は、数学の問題を解決するためにAutoGenフレームワークを適用したもので、競合するパフォーマンスを達成することを示しています。

アプリケーション2：質問回答と検索を強化したコード生成

最近の数ヶ月で、検索を強化したコード生成は、外部ドキュメントを組み込むLLMの限界を克服するための効果的で実用的なアプローチとして登場しました。以下の図は、検索を強化し、質問回答タスクのパフォーマンスを向上させるためにAutoGenフレームワークを使用する方法を示しています。

アプリケーション3：テキスト・ワールド・エンヴァイロメントでの意思決定

AutoGenフレームワークは、オンラインまたはインタラクティブな意思決定で動作するアプリケーションを作成するために使用できます。以下の図は、AutoGenフレームワークを使用して、グラウンダリング・エージェントを備えた3つのエージェントの会話システムを設計する方法を示しています。

アプリケーション4：マルチエージェントのコーディング

AutoGenフレームワークを使用する開発者は、OptiGuideフレームワークを使用して、最適化されたソリューションを実装するコードを書き込むことや、ユーザーの質問に回答することができるマルチエージェントのコーディング・システムを構築できます。以下の図は、AutoGenフレームワークを使用してマルチエージェントの設計を作成することで、特にセーフガードが必要なコーディング・タスクを実行する際の全体的なパフォーマンスが大幅に向上することを示しています。

アプリケーション5：ダイナミック・グループ・チャット

AutoGenフレームワークでは、複数のエージェントが参加するダイナミック・グループ・チャットをサポートします。ここで、参加する複数のエージェントはコンテキストを共有し、事前に定義された順序に従うのではなく、ダイナミックに会話を交わします。これらのダイナミック・グループ・チャットは、エージェント間の会話によってインタラクションのフローを導くために依存しています。

上記の図は、AutoGenフレームワークが「GroupChatManager」という特別なエージェントを使用して、エージェント間のダイナミック・グループ・チャットをサポートする方法を示しています。

アプリケーション6：会話型チェス

AutoGenフレームワークの開発者は、LLMまたは人間がプレイヤーとなることができ、事前に定義された標準ルールに基づいてボード上の動きを検証する第三者のエージェントもある、会話型チェス・アプリケーションを開発するためにAutoGenフレームワークを使用しました。以下の図は、AutoGenフレームワークを使用して構築された会話型チェスを示しています。ここで、プレイヤーは動きを表現するためにジョーク、キャラクター・プレイ、またはメモの参照を使用できます。これにより、チェスゲームがプレイヤーだけでなく、観客や観察者にとってもより面白くなります。

結論

この記事では、AutoGenについて説明しました。AutoGenは、会話プログラミングと会話ができるエージェントの概念を使用して、LLMワークフローのオーケストレーションと最適化を簡素化することを目的としたオープンソース・フレームワークです。AutoGenフレームワークは、会話ができるエージェントを提供し、GPT-3やGPT-4などの高度なLLMの力を利用することができ、同時に、LLMをツールや人間の入力と統合することで、これらのLLMの現在の限界を解決することができます。自動化されたチャットを使用して、複数のエージェント間で会話を開始することができます。

AutoGenフレームワークはまだ実験的な段階にありますが、将来的にLLMの機能を利用するアプリケーションの開発の速度、機能、開発の容易さを向上させるために役立つツールとなる可能性があります。

Unite.AI