人工知能

意図から実行まで: Microsoftが大規模な言語モデルをアクション指向のAIに変革する方法

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

大規模な言語モデル（LLM）は、自然言語処理の方法を変えました。彼らは質問に答え、コードを書き、会話をします。しかし、実世界のタスクでは、未だ不足しています。例えば、LLMはジャケットの購入を案内できますが、注文を代行できません。このギャップは、大きな制限です。人々は情報だけではなく、結果が必要です。

このギャップを埋めるために、MicrosoftはLLMをアクション指向のAIエージェントに変換しています。計画、タスクの分解、実世界の相互作用を可能にすることで、LLMに実用的タスクを効果的に管理できる力を与えています。この変化は、LLMができることを再定義する可能性があり、複雑なワークフローを自動化し、日常タスクを簡素化するツールに変えることができます。実現するために必要なことと、Microsoftが問題に取り組む方法を見てみましょう。

LLMがアクションを取るために必要なこと

実世界のタスクを実行するには、LLMはテキストを理解することだけでは不十分です。デジタルおよび物理的な環境と相互作用し、変化する条件に適応する必要があります。必要な機能は以下のとおりです：

ユーザーの意図を理解する

有効にアクションを取るには、LLMはユーザーのリクエストを理解する必要があります。テキストまたは音声コマンドなどの入力は、しばしば曖昧または不完全です。システムは、知識とリクエストのコンテキストを使用してギャップを埋めます。マルチステップの会話により、これらの意図を洗練し、AIがアクションを起こす前に理解することができます。

意図をアクションに変換する

タスクを理解した後、LLMはそれをアクション可能なステップに変換する必要があります。これには、ボタンをクリックしたり、APIを呼び出したり、物理デバイスを制御したりすることが含まれる場合があります。LLMは、環境に合わせてアクションを変更し、問題が発生したときにそれらを解決する必要があります。

変更に適応する

実世界のタスクは、常に予想どおりに進まない場合があります。LLMは問題を予測し、ステップを調整し、問題が発生したときに代替案を見つける必要があります。たとえば、必要なリソースが利用できない場合、システムはタスクを完了する別の方法を見つける必要があります。この柔軟性により、プロセスが変更されたときに停止しません。

特定のタスクに特化する

LLMは一般的な使用に設計されていますが、特化によりより効率的になります。特定のタスクに焦点を当てることで、これらのシステムはより優れた結果をより少ないリソースで提供できます。これは、スマートフォンや組み込みシステムなどの計算リソースが限られているデバイスでは特に重要です。

これらのスキルを開発することで、LLMは情報を処理することだけに留まらず、有意義なアクションを実行できます。毎日のワークフローにシームレスに統合する道を切り開きます。

MicrosoftがLLMを変革する方法

Microsoftのアクション指向のAIを作成するアプローチは、構造化されたプロセスに従います。主な目的は、LLMがコマンドを理解し、効果的に計画し、アクションを実行できるようにすることです。以下は、その方法です：

ステップ1: データの収集と準備

最初のステップでは、特定のユースケース（以下で説明するUFOエージェント）に関するデータを収集しました。データには、ユーザーのクエリ、環境の詳細、タスク固有のアクションが含まれます。このステップでは、2種類のデータが収集されます。まず、LLMがタスクを高レベルなステップに分解するのに役立つタスクプランデータを収集します。たとえば、「Wordでフォントサイズを変更する」には、テキストを選択し、ツールバーの設定を調整するステップが含まれます。次に、LLMがこれらのステップを具体的な指示に翻訳できるタスクアクションデータを収集します。たとえば、特定のボタンをクリックしたり、キーボードショートカットを使用したりすることです。

この組み合わせにより、モデルは大局と詳細な指示の両方を取得し、タスクを効果的に実行できます。

ステップ2: モデルのトレーニング

データを収集した後、LLMは複数のトレーニングセッションを経て洗練されます。最初のステップでは、LLMはタスクプランニングを学び、ユーザーのリクエストをアクション可能なステップに分解する方法を学習します。専門家がラベル付けしたデータを使用して、LLMがこれらのプランを具体的なアクションに翻訳する方法を教えます。さらに、問題解決能力を高めるために、LLMは自己強化探索プロセスに従事し、未解決のタスクに取り組み、継続的な学習のために新しい例を生成します。最後に、強化学習が適用され、成功と失敗からのフィードバックを使用して意思決定をさらに改善します。

ステップ3: オフラインテスト

トレーニング後、モデルは制御された環境でテストされ、信頼性が確保されます。メトリックとして、タスク成功率（TSR）やステップ成功率（SSR）が使用されます。たとえば、カレンダー管理エージェントをテストする場合、ミーティングをスケジュールし、招待状を送信する能力をエラーなしで検証します。

ステップ4: リアルシステムへの統合

検証後、モデルはエージェントフレームワークに統合され、実世界の環境と相互作用することができます。ツールとして、UI Automation APIを使用して、システムはユーザーインターフェイス要素を動的に識別および操作できます。

たとえば、Wordでテキストを強調表示するように依頼された場合、エージェントは強調表示ボタンを識別し、テキストを選択し、書式設定を適用します。メモリコンポーネントにより、LLMは過去のアクションを追跡し、新しいシナリオに適応できます。

ステップ5: リアルワールドテスト

最終ステップはオンライン評価です。ここで、システムはリアルワールドシナリオでテストされ、予期せぬ変更やエラーに対処できることを確認します。たとえば、カスタマーサポートボットは、ユーザーがパスワードをリセットする手順を案内し、不正確な入力や不足している情報に対応します。このテストにより、AIが堅牢で日常使用に適していることが保証されます。

実践的な例: UFOエージェント

アクション指向のAIの動作を示すために、MicrosoftはUFOエージェントを開発しました。このシステムは、Windows環境でリアルワールドタスクを実行し、ユーザーのリクエストを完了したアクションに変換します。

UFOエージェントの核となる部分は、LLMを使用してリクエストを解釈し、アクションを計画することです。たとえば、ユーザーが「このドキュメントで『重要』という単語を強調表示して」と言った場合、エージェントはWordと相互作用してタスクを完了します。UIコントロールの位置などのコンテキスト情報を収集し、それを使用してアクションを計画および実行します。

UFOエージェントは、Windows UI Automation（UIA）APIなどのツールに依存しています。このAPIは、アプリケーションをコントロール要素（ボタンやメニューなど）でスキャンします。たとえば、「ドキュメントをPDFとして保存する」というタスクでは、エージェントはUIAを使用して「ファイル」ボタンを識別し、「保存として」オプションを見つけ、必要なステップを実行します。データを一貫して構造化することで、システムはトレーニングからリアルワールドアプリケーションまでのスムーズな操作を保証します。

課題の克服

これは興奮する開発ですが、アクション指向のAIを作成することは課題があります。スケーラビリティは大きな問題です。さまざまなタスクにわたってこれらのモデルをトレーニングおよびデプロイするには、重大なリソースが必要です。安全性と信頼性の確保も同等に重要です。モデルは、特にデリケートな環境では、意図しない結果をもたらさずにタスクを実行する必要があります。また、これらのシステムがプライベートデータと相互作用するため、プライバシーとセキュリティに関する倫理基準を維持することも重要です。

Microsoftのロードマップは、効率の向上、ユースケースの拡大、倫理基準の維持に焦点を当てています。これらの進歩により、LLMは世界とのやり取りを再定義し、より実用的で適応性に富んだアクション指向のものになる可能性があります。

AIの未来

LLMをアクション指向のエージェントに変換することは、ゲームチェンジャーとなる可能性があります。これらのシステムはタスクを自動化し、ワークフローを簡素化し、テクノロジーをよりアクセスしやすくします。Microsoftのアクション指向のAIとUFOエージェントのようなツールの作業は、ただの始まりです。AIが進化を続けるにつれて、より賢く、より能力のあるシステムが期待できます。システムは私たちとやり取りするだけでなく、仕事を実行します。

Dr. Tehseen Zia

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。