AI ツール 101
ChatGPT を超えて; AI エージェント: 労働者の新しい世界
ディープラーニング、自然言語処理 (NLP)、AI の進歩により、AI エージェントが世界の労働力の重要な部分を占める可能性のある時代が到来しています。これらの AI エージェントは、チャットボットや音声アシスタントを超えて、業界と私たちの日常生活の両方に新しいパラダイムを形成しています。しかし、これらの「労働者」によって拡張された世界に住むとは、実際には何を意味するのでしょうか?この記事では、この進化する状況を深く掘り下げ、今後の影響、可能性、課題を評価します。
簡単な要約: AI ワーカーの進化
差し迫った革命を理解する前に、すでに起こった AI 主導の進化を認識することが重要です。
- 従来のコンピューティング システム: 基本的なコンピューティング アルゴリズムから旅が始まりました。 これらのシステムは、固定されたルールのセットを使用して、事前定義されたタスクを解決できます。
- チャットボットと初期音声アシスタント: テクノロジーが進化するにつれて、インターフェースも進化しました。 Siri、Cortana、初期のチャットボットなどのツールは、ユーザーと AI の対話を簡素化しましたが、理解力と機能には限界がありました。
- ニューラルネットワークとディープラーニング: ニューラル ネットワークは転換点となり、人間の脳機能を模倣し、経験を通じて進化しました。 ディープラーニング技術によりこれがさらに強化され、高度な画像認識と音声認識が可能になりました。
- トランスフォーマーと高度な NLP モデル: トランスフォーマー アーキテクチャの導入は、NLP の状況に革命をもたらしました。 のようなシステム AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 OpenAI、BERT、T5 によって、人間と AI のコミュニケーションにおける画期的な進歩が可能になりました。 これらのモデルは、言語とコンテキストを深く理解しているため、意味のある会話を行い、コンテンツを作成し、前例のない正確さで複雑な質問に答えることができます。
AI エージェントの登場: 単なる会話以上のもの
今日の AI の展望 は、会話ツールよりもさらに拡張的なものを示唆しています。 AI エージェントは単なるチャット機能を超えて、タスクを実行し、環境から学習し、意思決定を行い、創造性を発揮することさえできるようになりました。 彼らはただ質問に答えるだけではありません。 彼らは問題を解決しているのです。
従来のソフトウェア モデルは、明確な経路に基づいて機能していました。 関係者はソフトウェア管理者に目標を表明し、ソフトウェア管理者が具体的な計画を策定しました。 エンジニアはコード行を通じてこの計画を実行します。 ソフトウェア機能のこの「レガシー パラダイム」は明確であり、人間の介入が多量に含まれていました。
ただし、AI エージェントの動作は異なります。 エージェント:
- ています 目標 それは達成することを目指しています。
- できる 対話 そのと 環境.
- を定式化します 計画 これらの観察に基づいて目標を達成します。
- 必要な時間がかかる 行動, アプローチを調整する 環境の変化する状態に基づいて。
AI エージェントが従来のモデルと真に異なるのは、目標を実現するための段階的な計画を自律的に作成できる能力です。 本質的に、以前はプログラマーが計画を提供していましたが、今日の AI エージェントは自らの進路を計画します。
日常的な例を考えてみましょう。 従来のソフトウェア設計では、プログラムは、事前に決められた条件に基づいて、期限を過ぎたタスクについてユーザーに通知します。 開発者は、プロダクト マネージャーから提供された仕様に基づいてこれらの条件を設定します。
AI エージェント パラダイムでは、エージェント自体がいつ、どのようにユーザーに通知するかを決定します。 環境 (ユーザーの習慣、アプリケーションの状態) を評価し、最適な行動方針を決定します。 したがって、プロセスはよりダイナミックになり、より瞬間的なものになります。
ChatGPT は、プラグインの統合による従来の使用法からの脱却を示し、それにより外部ツールを利用して複数のリクエストを実行できるようになりました。 これはエージェントの概念の初期の現れとなりました。 簡単な例を考えてみます。ユーザーがニューヨーク市の天気について問い合わせると、ChatGPT はプラグインを活用して、外部の天気 API と対話し、データを解釈し、受け取った応答に基づいて軌道を修正することもできます。
Auto-GPT、AgentGPT、BabyAGI などの AI エージェントは、広大な AI の世界に新時代の到来を告げています。 ChatGPTが普及する一方で 生成AI AI エージェントの背後にあるビジョンは、人間の入力を必要とすることで、AI が独立して機能し、人間の介入をほとんどまたはまったく受けずに目標に向かって舵を取れるようにすることです。 この変革の可能性は Auto-GPT の急速な台頭によって強調され、開始からわずか 107,000 週間で GitHub で XNUMX を超えるスターを獲得しました。これは、データ サイエンス パッケージ「pandas」のような確立されたプロジェクトと比較して前例のない成長です。
AI エージェント vs. ChatGPT
Auto-GPT や BabyAGI などの多くの高度な AI エージェントは GPT アーキテクチャを利用しています。 彼らの主な焦点は、AI タスクの完了における人間の介入の必要性を最小限に抑えることです。 「ループ上の GPT」などの説明的な用語は、AgentGPT や BabyAGI などのモデルの動作を特徴付けます。 これらは、ユーザーのリクエストをより深く理解し、その出力を改良するために反復サイクルで動作します。 一方、Auto-GPT はインターネット アクセスとコード実行機能を組み込むことで限界をさらに押し広げ、問題解決の範囲を大幅に広げます。
AI エージェントのイノベーション
- 長期記憶: 従来の LLM のメモリは限られており、インタラクションの最近のセグメントのみを保持します。 包括的なタスクの場合、会話全体、または以前の会話を思い出すことが極めて重要になります。 これを克服するために、AI エージェントは埋め込みワークフローを採用し、テキストの会話を数値配列に変換して、メモリの制約に対する解決策を提供しました。
- ウェブ閲覧能力: 最近のイベントを常に最新の状態に保つために、Auto-GPT には Google Search API を使用したブラウジング機能が装備されています。 これにより、AI コミュニティ内で AI の知識の範囲に関する議論が巻き起こりました。
- 実行コード: Auto-GPT はコードを生成するだけでなく、シェル コードと Python コードの両方を実行できます。 この前例のない機能により、他のソフトウェアとのインターフェースが可能になり、運用領域が広がります。
この図は、大規模言語モデルとエージェントを利用した AI システムのアーキテクチャを視覚化しています。
- 入力: システムは、直接ユーザー コマンド、構造化データベース、Web コンテンツ、リアルタイム環境センサーなど、さまざまなソースからデータを受信します。
- LLM とエージェント: 中心的に、LLM はこれらの入力を処理し、次のような専門エージェントと連携します。
Auto-GPT
思考連鎖のために、AgentGPT
Web 固有のタスクの場合、BabyAGI
タスク固有のアクションの場合、およびHuggingGPT
チームベースの処理に。 - 出力: 情報は処理されると、ユーザーが使いやすい形式に変換され、外部環境に作用したり影響を与えたりできるデバイスに中継されます。
- メモリコンポーネント: システムは、短期キャッシュと長期データベースを通じて、情報を一時的および永続的に保持します。
- 環境: これは外部領域であり、センサーに影響を与え、システムのアクションの影響を受けます。
高度な AI エージェント: Auto-GPT、BabyAGI など
AutoGPT と AgentGPT
AutoGPTは、2023 年 XNUMX 月に GitHub でリリースされた発案で、OpenAI の革新的な生成モデルである GPT の力を利用する、独創的な Python ベースのアプリケーションです。 Auto-GPT が以前のバージョンと異なるのは、その自律性です。人間のガイダンスを最小限に抑えてタスクを実行するように設計されており、プロンプトを自動的に開始する独自の機能を備えています。 ユーザーは包括的な目標を定義するだけで済み、Auto-GPT はその目的を達成するために必要なプロンプトを作成し、真の汎用人工知能 (AGI) に向けた革命的な飛躍となる可能性があります。
GPT-3.5 を使用したインターネット接続、メモリ管理、ファイル ストレージ機能にわたる機能を備えたこのツールは、電子メール作成などの従来型のタスクから、通常は人間の関与がより多く必要となる複雑なタスクまで、幅広いタスクの処理に熟達しています。
一方、 エージェントGPTも GPT フレームワークに基づいて構築されており、セットアップや使用に広範なコーディングの専門知識を必要としないユーザー中心のインターフェイスです。 AgentGPT を使用すると、ユーザーは AI の目標を定義し、それを管理可能なタスクに分割できます。
さらに、AgentGPT はその多用途性でも際立っています。 チャットボットの作成に限定されません。 このプラットフォームは、Discord ボットなどの多様なアプリケーションを作成する機能を拡張し、Auto-GPT とシームレスに統合することもできます。 このアプローチにより、コーディングの経験が豊富でない人でも、完全に自律的なコーディング、テキスト生成、言語翻訳、問題解決などのタスクを実行できるようになります。
ラングチェーン 大規模言語モデル (LLM) とさまざまなツールを橋渡しし、「ボット」として認識されることが多いエージェントを利用して、適切なツールを選択して特定のタスクを決定して実行するフレームワークです。これらのエージェントは外部リソースとシームレスに統合され、LangChain のベクトル データベースには非構造化データが保存され、LLM の迅速な情報検索が容易になります。
ベビーアギ
次に、 ベビーアギ、シンプルかつ強力なエージェントです。 BabyAGI の機能を理解するには、与えられた目標に焦点を当てて自律的にタスクを作成、編成、実行するデジタル プロジェクト マネージャーを想像してください。 ほとんどの AI 駆動プラットフォームは事前にトレーニングされた知識に制限されていますが、BabyAGI は経験から適応して学習する能力で際立っています。 フィードバックを識別し、人間と同じように試行錯誤に基づいて意思決定を行う深い能力を持っています。
特に、BabyAGI の根本的な強みは、その適応性だけでなく、特定の目的に合わせてコードを実行する能力にもあります。 これは、仮想通貨取引、ロボット工学、自動運転などの複雑な領域に威力を発揮し、数多くのアプリケーションで多用途なツールとして利用できます。
このプロセスは、次の XNUMX つのエージェントに分類できます。
- 執行代理人: システムの中心となるこのエージェントは、タスク処理に OpenAI の API を活用します。 目的とタスクが与えられると、OpenAI の API を呼び出し、タスクの結果を取得します。
- タスク作成エージェント: この機能は、以前の結果と現在の目標に基づいて新しいタスクを作成します。 プロンプトが OpenAI の API に送信され、辞書のリストとして編成された潜在的なタスクが返されます。
- タスク優先順位付けエージェント: 最終フェーズでは、優先順位に基づいてタスクを順序付けします。 このエージェントは OpenAI の API を使用してタスクを並べ替え、最も重要なタスクが最初に実行されるようにします。
OpenAI の言語モデルと連携して、BabyAGI は、コンテキスト中心のタスク結果の保存と取得のために Pinecone の機能を活用します。
以下は、BabyAGI を使用したデモンストレーションです。 このリンク.
まず、有効な OpenAPI キーが必要です。 アクセスを容易にするために、UI には OpenAPI キーを入力できる設定セクションがあります。 さらに、コストを管理したい場合は、反復回数に制限を設定することを忘れないでください。
アプリケーションを構成したら、小さな実験を行ってみました。 私は BabyAGI に次のようなプロンプトを投稿しました。「マイルストーン、課題、継続的な学習の変革力に触れながら、個人の成長の旅に焦点を当てた簡潔なツイート スレッドを作成してください。」
BabyAGI は綿密な計画でこれに応えました。 それは単なる一般的なテンプレートではなく、基盤となる AI がリクエストのニュアンスを実際に理解していることを示す包括的なロードマップでした。
ディープノート AI コパイロット
ディープノート AI コパイロット ノートブックでのデータ探索のダイナミクスを再構築します。 しかし、何が違うのでしょうか?
Deepnote AI の核心は、データ サイエンティストのワークフローを強化することです。 基本的な指示を与えるとすぐに、AI が行動を開始し、戦略を考案し、SQL クエリを実行し、Python を使用してデータを視覚化し、結果を明確に提示します。
Deepnote AI の強みの XNUMX つは、ワークスペースを包括的に把握できることです。 統合スキーマとファイル システムを理解することで、実行計画を組織のコンテキストと完全に一致させ、洞察が常に関連性のあるものになるようにします。
AI とノート媒体の統合により、独自のフィードバック ループが作成されます。 コード出力を積極的に評価し、自己修正に熟達し、結果が設定された目標と一致していることを確認します。
Deepnote AI は透過的なオペレーションで際立っており、そのプロセスに対する明確な洞察を提供します。 コードと出力が絡み合っているため、そのアクションには常に責任があり、再現可能です。
CAMEL
CAMEL AI エージェント間のコラボレーションを促進し、人間の監視を最小限に抑えて効率的にタスクを完了することを目的としたフレームワークです。
そのオペレーションは、次の XNUMX つの主要なエージェント タイプに分けられます。
- AI ユーザー エージェントが指示をレイアウトします。
- AI アシスタント エージェントは、提供されたディレクティブに基づいてタスクを実行します。
CAMEL の目標の XNUMX つは、複数のエージェント間の相乗効果を最適化することを目的として、AI の思考プロセスの複雑さを解明することです。 ロールプレイングや開始プロンプトなどの機能により、AI タスクが人間の目標とシームレスに連携することが保証されます。
ウエストワールド シミュレーション: AI への生命
Unity ソフトウェアなどのインスピレーションから派生し、Python で調整された、 ウエストワールドシミュレーション これは、まるでデジタル社会のように、複数の AI エージェントが相互作用する環境のシミュレーションと最適化への飛躍です。
これらのエージェントは単なるデジタル エンティティではありません。 これらは、日常生活から複雑な社会的相互作用に至るまで、信じられるような人間の行動をシミュレートします。 彼らのアーキテクチャは、経験を保存し、反映し、動的な行動計画に使用するために大規模な言語モデルを拡張します。
ウェストワールドのインタラクティブなサンドボックス環境は、ザ・シムズを彷彿とさせ、生成エージェントが住む町に命を吹き込みます。 ここでユーザーは、これらのエージェントと対話し、監視し、一日を通してガイドし、新たな行動や複雑な社会的力学を観察することができます。
ウエストワールドのシミュレーションは、計算能力と人間のような複雑さの調和のとれた融合を例証しています。 膨大な言語モデルと動的なエージェント シミュレーションを融合することで、現実と見分けがつかないほどの AI エクスペリエンスを作成するための道筋を示します。
まとめ
AI エージェントは信じられないほど多用途であり、業界を形成し、ワークフローを変え、かつては不可能と思われた偉業を可能にしています。 しかし、すべての画期的なイノベーションと同様に、それらにも不完全な点がないわけではありません。
これらのエージェントは、私たちのデジタル存在の構造自体を再構築する力を持っていますが、微妙なシナリオのコンテキストを理解したり、訓練されたデータセットの外側にある問題に取り組んだりするなど、人間が本来持っている課題も含め、依然として特定の課題に取り組んでいます。
次の記事では、AutoGPT と GPT Engineer をさらに詳しく掘り下げ、それらのセットアップ方法と使用方法を検討します。 さらに、これらの AI エージェントがループに陥るなどの問題が発生することがある理由を探っていきます。 乞うご期待!