Artificial Intelligence

Llama 3 について知っておくべきことすべて |これまでで最も強力なオープンソースモデル |概念から使用方法まで

更新中 on 2024 年 4 月 24 日

Meta Llama 3 オープンソース LLM が GPT 4 を上回るパフォーマンス

メタは最近リリースされましたラマ3、最先端のオープンソース大規模言語モデル (LLM) の次世代です。この記事の包括的なレビューで概説されているように、Llama 3 は、前任者によって確立された基盤を基にして、Llama 2 を ChatGPT の重要なオープンソース競合他社として位置づける機能を強化することを目指しています。 Llama 2: ChatGPT に対するオープンソースの挑戦者についての詳細.

この記事では、Llama 3 の背後にある中心的な概念について説明し、その革新的なアーキテクチャとトレーニングプロセスを調査し、この画期的なモデルに責任を持ってアクセス、使用、展開する方法に関する実践的なガイダンスを提供します。あなたが研究者、開発者、または AI 愛好家であっても、この投稿では、プロジェクトやアプリケーションで Llama 3 のパワーを活用するために必要な知識とリソースを得ることができます。

ラマの進化: ラマ 2 からラマ 3 へ

メタ社CEOのマーク・ザッカーバーグ氏は、発表の Meta AI が開発した最新の AI モデルである Llama 3 のデビュー。現在オープンソース化されているこの最先端のモデルは、Messenger や Instagram を含む Meta のさまざまな製品を強化する予定です。ザッカーバーグ氏は、Llama 3がメタAIを最も先進的なものとして位置付けていることを強調した無料で利用できるAIアシスタント.

Llama 3 の詳細について説明する前に、その前身である Llama 2 について簡単に振り返ってみましょう。2022 年に導入された Llama 2 は、オープンソース LLM 環境における重要なマイルストーンであり、消費者向けハードウェアで実行できる強力で効率的なモデルを提供しました。。

ただし、Llama 2 は注目すべき成果でしたが、限界もありました。ユーザーは、誤った拒否 (無害なプロンプトへの応答を拒否するモデル)、有用性の制限、および推論やコード生成などの領域での改善の余地に関する問題を報告しました。

Llama 3 の登場: これらの課題に対するメタの対応とコミュニティのフィードバック。 Meta は、Llama 3 を使用して、責任ある開発と展開の実践を優先しながら、現在利用可能な最上位の独自モデルと同等の最高のオープンソースモデルの構築に着手しました。

ラマ 3: アーキテクチャとトレーニング

Llama 3 の主要な革新の XNUMX つはトークナイザーであり、大幅に拡張された語彙を特徴としています。 128,256トークン (Llama 32,000 の 2 から増加)。このより大きな語彙により、入力と出力の両方でテキストのより効率的なエンコードが可能になり、多言語対応の強化と全体的なパフォーマンスの向上につながる可能性があります。

Llama 3 にも組み込まれています グループ化されたクエリのアテンション (GQA) は、スケーラビリティを強化し、モデルがより長いコンテキストをより効率的に処理できるようにする効率的な表現手法です。の 8B Llama 3 のバージョンは GQA を利用しますが、両方の 8B & 70B モデルは最大でシーケンスを処理できます 8,192トークン.

トレーニングデータとスケーリング

Llama 3 に使用されるトレーニングデータは、パフォーマンス向上の重要な要素です。メタは、以上の大規模なデータセットを厳選しました 15兆 公開されているオンラインソースからのトークンで、ラマ 2 に使用されるデータセットの 5 倍の大きさです。このデータセットには、英語以外の高品質データのかなりの部分 (XNUMX% 以上) も含まれており、 30言語、将来の多言語アプリケーションに備えて。

データ品質を確保するために、Meta はヒューリスティックフィルター、NSFW フィルター、セマンティック重複排除、データ品質を予測するために Llama 2 でトレーニングされたテキスト分類子などの高度なフィルター技術を採用しました。チームはまた、事前トレーニングに最適なデータソースの組み合わせを決定するために広範な実験を実施し、トリビア、STEM、コーディング、歴史的知識を含む幅広いユースケースで Llama 3 が適切に動作することを確認しました。

事前トレーニングのスケールアップは、Llama 3 開発のもう XNUMX つの重要な側面でした。 Meta は、コード生成などの主要なタスクにおける最大のモデルのパフォーマンスを実際にトレーニングする前に予測できるようにするスケーリング則を開発しました。これにより、データの組み合わせとコンピューティングの割り当てに関する決定が行われ、最終的にはより効率的かつ効果的なトレーニングにつながります。

Llama 3 の最大のモデルは、データ並列化、モデル並列化、パイプライン並列化手法の組み合わせを活用して、24,000 つのカスタム構築された 2 GPU クラスターでトレーニングされました。 Meta の高度なトレーニングスタックは、エラーの検出、処理、メンテナンスを自動化し、GPU の稼働時間を最大化し、Llama XNUMX と比較してトレーニング効率を約 XNUMX 倍向上させます。

命令の微調整とパフォーマンス

Llama 3 のチャットおよび対話アプリケーションの可能性を最大限に引き出すために、Meta は命令を微調整するアプローチを革新しました。その手法は、 監視付き微調整 (SFT)、リジェクションサンプリング、 近位ポリシーの最適化 (PPO)、および 直接的な好みの最適化 (DPO)。

SFT で使用されるプロンプトの品質と、PPO および DPO で使用される優先順位ランキングは、調整されたモデルのパフォーマンスにおいて重要な役割を果たしました。 Meta のチームはこのデータを慎重に精選し、人間のアノテーターによって提供されたアノテーションに対して複数回の品質保証を実行しました。

PPO および DPO を介した優先順位のトレーニングにより、推論およびコーディングタスクにおける Llama 3 のパフォーマンスも大幅に向上しました。 Meta は、モデルが推論の質問に直接答えるのに苦労している場合でも、正しい推論トレースを生成できる可能性があることを発見しました。好みのランキングに関するトレーニングにより、モデルはこれらのトレースから正しい答えを選択する方法を学習できるようになりました。

結果はそれ自体を物語っています。Llama 3 は、一般的な業界ベンチマークで多くの利用可能なオープンソースチャットモデルを上回り、8B および 70B パラメータースケールで LLM の新しい最先端のパフォーマンスを確立しました。

責任ある開発と安全性への配慮

Meta は、最先端のパフォーマンスを追求する一方で、Llama 3 の責任ある開発と展開の実践も優先しました。同社はシステムレベルのアプローチを採用し、開発者が運転席に座って設計できるようにする、より広範なエコシステムの一部として Llama 3 モデルを構想しました。特定のユースケースと安全要件に合わせてモデルをカスタマイズします。

Meta は、広範なレッドチーム演習を実施し、敵対的評価を実施し、命令調整モデルの残留リスクを低減するための安全軽減技術を実装しました。ただし、同社は残留リスクが残る可能性が高いことを認めており、開発者が特定のユースケースに照らしてこれらのリスクを評価することを推奨しています。

責任ある展開をサポートするために、Meta は責任ある使用ガイドを更新し、開発者がアプリケーションのモデルおよびシステムレベルの安全性のベストプラクティスを実装するための包括的なリソースを提供します。このガイドでは、コンテンツの管理、リスク評価、Llama Guard 2 や Code Shield などの安全ツールの使用などのトピックを取り上げています。

Llama Guard 2 は、MLCommons 分類法に基づいて構築されており、LLM 入力 (プロンプト) と応答を分類し、安全でないか有害であると考えられるコンテンツを検出するように設計されています。 CyberSecEval 2 は、モデルのコードインタプリタの悪用、攻撃的なサイバーセキュリティ機能、およびプロンプトインジェクション攻撃に対する脆弱性を防止するための対策を追加することにより、前モデルを拡張しています。

Llama 3 で新たに導入された Code Shield は、LLM によって生成された安全でないコードの推論時のフィルタリングを追加し、安全でないコードの提案、コードインタプリタの悪用、安全なコマンド実行に関連するリスクを軽減します。

Llama 3 へのアクセスと使用

Meta AI の Llama 3 のリリースに続いて、Mac、Windows、Linux などのさまざまなオペレーティングシステムでローカルに展開できるいくつかのオープンソースツールが利用可能になりました。このセクションでは、Ollama、Open WebUI、LM Studio という 3 つの注目すべきツールについて詳しく説明します。各ツールは、個人のデバイスで Llama XNUMX の機能を活用するための独自の機能を提供します。

オラマ: Mac、Linux、Windows で利用可能、オラマ堅牢性の低いハードウェアを備えたパーソナルコンピュータでも、Llama 3 やその他の大規模な言語モデルの操作が簡素化されます。これには、モデルを簡単に管理するためのパッケージマネージャーが含まれており、モデルをダウンロードして実行するためのプラットフォーム全体にわたるコマンドがサポートされています。

Docker で WebUI を開く: このツールは、ユーザーフレンドリーな、デッカーMac、Linux、Windows と互換性のある -ベースのインターフェイス。 Ollama レジストリのモデルとシームレスに統合され、ユーザーはローカル Web インターフェイス内で Llama 3 などのモデルを展開して操作できるようになります。

LMスタジオ: Mac、Linux、Windows のユーザーをターゲットとし、 LMスタジオはさまざまなモデルをサポートしており、llama.cpp プロジェクトに基づいて構築されています。チャットインターフェイスを提供し、Llama 3 8B Instruct モデルを含むさまざまなモデルとの直接対話を容易にします。

これらのツールを使用すると、ユーザーは個人のデバイスで Llama 3 を効率的に利用でき、さまざまな技術スキルや要件に対応できます。各プラットフォームはセットアップとモデルの対話のための段階的なプロセスを提供し、開発者や愛好家が高度な AI をより利用しやすくします。

Llama 3 を大規模に導入する

モデルの重みへの直接アクセスを提供することに加えて、Meta はさまざまなクラウドプロバイダー、モデル API サービス、およびハードウェアプラットフォームと提携して、Llama 3 の大規模なシームレスな展開を可能にしました。

Llama 3 の主な利点の 3 つは、新しいトークナイザーのおかげでトークン効率が向上したことです。ベンチマークによると、Llama XNUMX には最大で次のものが必要です。 トークンが 15% 減少 Llama 2 と比較して、より高速でコスト効率の高い推論が可能になります。

Llama 8 の 3B バージョンに Grouped Query Attendance (GQA) が統合されているため、パラメータ数が増加しているにもかかわらず、Llama 7 の 2B バージョンと同等の推論効率を維持できます。

導入プロセスを簡素化するために、Meta は Llama Recipes リポジトリを提供しました。このリポジトリには、微調整、導入、モデル評価などのためのオープンソースコードとサンプルが含まれています。このリポジトリは、アプリケーションで Llama 3 の機能を活用したいと考えている開発者にとって貴重なリソースとして機能します。

Llama 3 のパフォーマンスの探索に興味がある人のために、Meta は最新モデルを Llama 3 テクノロジーで構築された主要な AI アシスタントである Meta AI に統合しました。ユーザーは、Facebook、Instagram、WhatsApp、メッセンジャー、Web などのさまざまなメタアプリを通じてメタ AI と対話して、自分にとって重要なことを実行し、学習し、作成し、接続することができます。

Llama 3 の次の展開は何ですか?

8B および 70B モデルは Llama 3 リリースの始まりを示しますが、Meta はこの画期的な LLM の将来に向けて野心的な計画を持っています。

今後数か月間で、マルチモダリティ (画像やビデオなどのさまざまなデータモダリティを処理および生成する機能)、多言語対応 (複数の言語をサポート)、およびパフォーマンスを向上させるためのはるかに長いコンテキストウィンドウなどの新機能が導入されることが期待されます。広範なコンテキストを必要とするタスク。

さらに、Meta は、400 億を超えるパラメーターを持つモデルを含む、より大きなモデルサイズをリリースする予定であり、現在トレーニング中であり、パフォーマンスと機能の点で有望な傾向が示されています。

この分野をさらに前進させるために、Meta は Llama 3 に関する詳細な研究論文も出版し、その結果と洞察をより広範な AI コミュニティと共有する予定です。

今後の予定のプレビューとして、Meta は、さまざまなベンチマークにおける最大の LLM モデルのパフォーマンスの初期のスナップショットをいくつか共有しました。これらの結果は初期のチェックポイントに基づいており、変更される可能性がありますが、Llama 3 の将来の可能性を垣間見ることができます。

まとめ

Llama 3 は、オープンソースの大規模言語モデルの進化における重要なマイルストーンであり、パフォーマンス、機能、責任ある開発実践の限界を押し広げます。革新的なアーキテクチャ、大規模なトレーニングデータセット、最先端の微調整技術により、Llama 3 は 8B および 70B パラメータスケールで LLM の新しい最先端のベンチマークを確立します。

ただし、Llama 3 は単なる強力な言語モデルではありません。これは、オープンで責任ある AI エコシステムの育成に対する Meta の取り組みの証です。 Meta は、包括的なリソース、安全ツール、ベストプラクティスを提供することで、開発者が Llama 3 の可能性を最大限に活用できるようにすると同時に、特定のユースケースや対象者に合わせた責任ある展開を保証します。

新しい機能、モデルサイズ、研究成果が目前に迫り、Llama 3 の旅が続く中、AI コミュニティは、間違いなくこの画期的な LLM から生まれる革新的なアプリケーションとブレークスルーを心待ちにしています。

あなたが自然言語処理の限界を押し広げる研究者であっても、次世代のインテリジェントアプリケーションを構築する開発者であっても、最新の進歩に興味がある AI 愛好家であっても、Llama 3 はあなたの武器庫の強力なツールとなり、新たな扉を開き、可能性の世界を解き放ちます。

次に

Microsoft が Phi-3 を発表: 小型サイズで最高のパフォーマンスを実現する強力なオープン AI モデル

お見逃しなく

FrugalGPT: 大規模言語モデルのコスト最適化におけるパラダイムシフト

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。