ベスト 5 オープンソース LLM (2024 年 XNUMX 月)

更新中 on 2024 年 5 月 1 日

急速に進化する人工知能 (AI) の世界では、大規模言語モデル (LLM) が基礎として台頭し、イノベーションを推進し、テクノロジーとの関わり方を再構築しています。

これらのモデルがますます洗練されるにつれて、モデルへのアクセスを民主化することがますます重視されています。特にオープンソースモデルは、この民主化において極めて重要な役割を果たしており、研究者、開発者、愛好家にその複雑さを深く掘り下げ、特定のタスクに合わせてモデルを微調整したり、さらにはその基礎を構築したりする機会を同様に提供しています。

このブログでは、AI コミュニティで話題を呼んでいるトップのオープンソース LLM のいくつかを取り上げます。それぞれが独自の強みと機能を発揮します。

Meta の Llama 2 は、同社の AI モデルラインナップへの画期的な追加製品です。これは単なる別のモデルではありません。さまざまな最先端のアプリケーションを促進するように設計されています。 Llama 2 のトレーニングデータは膨大かつ多様であり、前作に比べて大幅に進歩しています。このトレーニングの多様性により、Llama 2 は単なる漸進的な改善ではなく、AI 主導のインタラクションの将来に向けた記念碑的な一歩となることが保証されています。

Meta と Microsoft のコラボレーションにより、Llama 2 の可能性が広がりました。オープンソースモデルは現在、Azure や Windows などのプラットフォームでサポートされており、開発者や組織に AI 主導の生成エクスペリエンスを作成するツールを提供することを目的としています。このパートナーシップは、AI をよりアクセスしやすく、すべての人にとってオープンなものにするという両社の取り組みを強調しています。

Llama 2 は、オリジナルの Llama モデルの単なる後継者ではありません。これはチャットボット分野におけるパラダイムシフトを表しています。最初の Llama モデルはテキストとコードの生成において革新的でしたが、悪用を防ぐためにその可用性は制限されていました。一方、Llama 2 はより幅広い視聴者に届く予定です。 AWS、Azure、Hugging Face の AI モデルホスティングプラットフォームなどのプラットフォーム向けに最適化されています。さらに、Meta と Microsoft の協力により、Llama 2 は Windows だけでなく、Qualcomm の Snapdragon システムオンチップを搭載したデバイスでもその名を残す準備が整っています。

Llama 2 の設計の中心は安全です。 GPT のような初期の大規模言語モデルが直面した課題は、誤解を招くコンテンツや有害なコンテンツを生成する場合があったことを認識し、Meta は Llama 2 の信頼性を確保するために広範な対策を講じてきました。モデルは、「幻覚」、誤った情報、偏見を最小限に抑えるために厳しいトレーニングを受けています。

LLaMa 2 の主な機能:

多様なトレーニングデータ: Llama 2 のトレーニングデータは広範かつ多様であり、包括的な理解とパフォーマンスを保証します。
マイクロソフトとのコラボレーション: Llama 2 は Azure や Windows などのプラットフォームでサポートされており、アプリケーションの範囲が広がります。
オープンな可用性: 前作とは異なり、Llama 2 はより幅広いユーザーが利用でき、複数のプラットフォームで微調整することができます。
安全性を重視した設計: Meta は安全性を重視し、Llama 2 が有害な出力を最小限に抑えながら正確で信頼性の高い結果を生成することを保証します。
最適化されたバージョン: Llama 2 には、Llama 2 と Llama 2-Chat の 7 つの主要なバージョンがあり、後者は双方向の会話用に特別に設計されています。これらのバージョンの複雑さは 70 億から XNUMX 億のパラメーターに及びます。
強化されたトレーニング: ラマ 2 は、オリジナルのラマの 1.4 兆 XNUMX 億トークンから大幅に増加した XNUMX 万トークンでトレーニングされました。

2. ブルーム

2022 年、70 か国以上のボランティアとハギングフェイスの専門家が参加した世界的な共同作業を経て、BLOOM プロジェクトが発表されました。この大規模言語モデル (LLM) は、XNUMX 年間にわたる取り組みを通じて作成され、自己回帰テキスト生成用に設計されており、特定のテキストプロンプトを拡張できます。これは、相当な計算能力を利用して、テキストデータの膨大なコーパスでトレーニングされました。

BLOOM のデビューは、生成 AI テクノロジーをよりアクセスしやすくするための重要な一歩でした。オープンソース LLM として 176 億のパラメータを誇り、このクラスでは最も強力なものの 46 つとなります。 BLOOM は、13 の言語と XNUMX のプログラミング言語にわたって一貫性のある正確なテキストを生成する能力を備えています。

このプロジェクトは透明性を重視しており、ソースコードとトレーニングデータへの一般のアクセスを許可しています。このオープン性により、モデルの継続的な検討、利用、強化が促されます。

Hugging Face プラットフォームを通じて無料でアクセスできる BLOOM は、AI における共同イノベーションの証です。

ブルームの主な機能:

多言語機能： BLOOM は 46 の言語と 13 のプログラミング言語でテキストを生成することに熟達しており、その幅広い言語範囲を示しています。
オープンソースへのアクセス: モデルのソースコードとトレーニングデータは公開されており、透明性と協力的な改善が促進されます。
自己回帰テキスト生成: BLOOM は、特定のプロンプトからテキストを継続するように設計されており、テキストシーケンスを拡張して完成させることに優れています。
膨大なパラメータ数: 176 億のパラメータを備えた BLOOM は、現存する最も強力なオープンソース LLM の XNUMX つです。
グローバルなコラボレーション: 70 か国以上のボランティアとハギングフェイスの研究者からの貢献により、XNUMX 年間のプロジェクトを通じて開発されました。
無料のアクセシビリティ: ユーザーは、Hugging Face エコシステムを通じて BLOOM に無料でアクセスして利用できるため、AI 分野における民主化が強化されます。
産業規模のトレーニング: このモデルは、大量の計算リソースを使用して膨大な量のテキストデータでトレーニングされ、堅牢なパフォーマンスを保証します。

3. MPT-7B

MosaicML Foundations は、最新のオープンソース LLM である MPT-7B の導入により、この分野に多大な貢献をしました。 MPT-7B は MosaicML Pretrained Transformer の頭字語で、GPT スタイルのデコーダー専用トランスフォーマーモデルです。このモデルには、パフォーマンスが最適化されたレイヤーの実装や、トレーニングの安定性を高めるためのアーキテクチャの変更など、いくつかの機能強化が施されています。

MPT-7B の際立った特徴は、1 兆個のテキストとコードのトークンで構成される大規模なデータセットでのトレーニングです。この厳しいトレーニングは、MosaicML プラットフォーム上で 9.5 日間にわたって実行されました。

MPT-7B はオープンソースであるため、商用アプリケーションにとって価値のあるツールとして位置付けられています。これは、企業や組織の予測分析と意思決定プロセスに大きな影響を与える可能性を秘めています。

基本モデルに加えて、MosaicML Foundations は、短い形式の指示に従うための MPT-7B-Instruct、ダイアログ生成のための MPT-7B-Chat、MPT-7B-StoryWriter-65k+ など、特定のタスクに合わせた特殊なモデルもリリースしています。長編小説作成に。

MPT-7B の開発は包括的なもので、MosaicML チームはデータの準備から展開までのすべての段階を数週間以内に管理しました。データはさまざまなリポジトリから取得され、チームは EleutherAI の GPT-NeoX や 20B トークナイザーなどのツールを活用して、多様で包括的なトレーニングミックスを確保しました。

MPT-7B の主な機能の概要:

商用ライセンス： MPT-7B は商用利用が許可されているため、企業にとって貴重な資産となります。
広範なトレーニングデータ: このモデルは、1 兆トークンの膨大なデータセットでのトレーニングを誇ります。
長い入力の処理: MPT-7B は、非常に長い入力を妥協することなく処理できるように設計されています。
速度と効率: モデルは迅速なトレーニングと推論のために最適化されており、タイムリーな結果が保証されます。
オープンソースコード: MPT-7B には効率的なオープンソーストレーニングコードが付属しており、透明性と使いやすさを促進します。
比較優秀性: MPT-7B は、LLaMA-7B と同等の品質を備え、20B ～ 7B 範囲の他のオープンソースモデルよりも優れていることが実証されています。

4. ファルコン

Falcon LLM は、LLM 階層の頂点に急速に上り詰めたモデルです。 Falcon LLM、特に Falcon-40B は、40 億のパラメーターを備えた基礎的な LLM であり、3 兆という驚異的なトークンでトレーニングされています。これは自己回帰デコーダ専用モデルとして動作します。これは本質的に、前のトークンに基づいてシーケンス内の後続のトークンを予測することを意味します。このアーキテクチャは GPT モデルを彷彿とさせます。特に、Falcon のアーキテクチャは GPT-75 よりも優れたパフォーマンスを実証し、トレーニングコンピューティング予算のわずか XNUMX% でこの偉業を達成し、推論中に必要なコンピューティングを大幅に削減しました。

Technology Innovation Institute のチームは、Falcon の開発中にデータ品質を重視しました。 LLM がトレーニングデータの品質に敏感であることを認識し、数万の CPU コアに拡張できるデータパイプラインを構築しました。これにより、広範なフィルタリングと重複排除プロセスを通じて、Web からの迅速な処理と高品質コンテンツの抽出が可能になりました。

Falcon-40B に加えて、TII は、7 億のパラメーターを持ち、7 兆 1,500 億のトークンでトレーニングされた Falcon-40B など、他のバージョンも導入しました。特定のタスクに合わせて調整された、Falcon-7B-Instruct や Falcon-XNUMXB-Instruct のような特殊なモデルもあります。

Falcon-40B の訓練は広範囲にわたるプロセスでした。モデルは、TII によって構築された大規模な英語の Web データセットである RefinedWeb データセットでトレーニングされました。このデータセットは CommonCrawl 上に構築され、品質を確保するために厳格なフィルタリングを受けました。モデルが準備されると、EAI Harness、HELM、BigBench などのいくつかのオープンソースベンチマークに対して検証されました。

Falcon LLM の主な機能の概要:

広範なパラメータ: Falcon-40B には 40 億のパラメータが装備されており、包括的な学習とパフォーマンスを保証します。
自己回帰デコーダのみのモデル: このアーキテクチャにより、Falcon は GPT モデルと同様に、前のトークンに基づいて後続のトークンを予測できます。
優れた性能： Falcon は、トレーニングコンピューティング予算の 3% のみを利用しながら、GPT-75 よりも優れたパフォーマンスを発揮します。
高品質のデータパイプライン: TII のデータパイプラインは、モデルのトレーニングに不可欠な高品質のコンテンツを Web から確実に抽出します。
さまざまなモデル: Falcon-40B に加えて、TII は Falcon-7B と、Falcon-40B-Instruct や Falcon-7B-Instruct などの特殊なモデルも提供しています。
オープンソースの可用性: Falcon LLM はオープンソース化されており、AI ドメインにおけるアクセシビリティと包括性を促進しています。

5. ビクーニャ-13B

LMSYS ORG は、Vicuna-13B の導入により、オープンソース LLM の分野で大きな足跡を残しました。このオープンソースチャットボットは、ShareGPT をソースとするユーザー共有の会話で LLaMA を微調整することによって細心の注意を払ってトレーニングされています。 GPT-4 が審査員として機能する予備評価では、Vicuna-13B が OpenAI ChatGPT や Google Bard などの有名なモデルの 90% 以上の品質を達成していることが示されています。

印象的なことに、Vicuna-13B は、90% 以上のケースで、LLaMA や Stanford Alpaca などの他の著名なモデルよりも優れたパフォーマンスを示します。 Vicuna-13B のトレーニングプロセス全体は、約 300 ドルの費用で実行されました。その機能の探索に興味がある人のために、コード、重み、およびオンラインデモが非営利目的で公開されています。

Vicuna-13B モデルは、ユーザーが共有する 70 件の ChatGPT 会話で微調整されており、より詳細で適切に構造化された応答を生成できるようになりました。これらの応答の品質は ChatGPT に匹敵します。ただし、チャットボットの評価は複雑な作業です。 GPT-4 の進歩に伴い、ベンチマーク生成とパフォーマンス評価のための自動評価フレームワークとして機能する GPT-4 の可能性についての関心が高まっています。初期の調査結果は、チャットボットの応答を比較する際に、GPT-4 が一貫したランクと詳細な評価を生成できることを示唆しています。 GPT-90 に基づく予備評価では、Vicuna が Bard/ChatGPT などのモデルの XNUMX% の能力を達成していることが示されています。

Vicuna-13B の主な機能の概要: