スタブ 多言語 LLM の現状: 英語を超えて - Unite.AI
私達と接続

Artificial Intelligence

多言語 LLM の現状: 英語を超えて

mm

公開済み

 on

多言語 LLM ブログの画像

Microsoft の調査によると、およそ 世界の言語の 88%、1.2 億人が話しているが、アクセスできない 大規模言語モデル(LLM)。これは、ほとんどの LLM が英語中心であるためです。つまり、ほとんどが英語データを使用して英語話者向けに構築されているためです。この英語の優位性は LLM 開発にも蔓延しており、デジタル言語のギャップをもたらし、潜在的にほとんどの人が LLM 開発から排除されています。 LLM の利点。 LLM のこの問題を解決するには、さまざまな言語でトレーニングし、さまざまな言語でタスクを実行できる LLM が必要です。多言語 LLM に参入しましょう!

多言語 LLM とは何ですか?

多言語 LLM は、複数の言語のテキストを理解して生成できます。彼らはさまざまな言語を含むデータセットでトレーニングされており、ユーザーのプロンプトから複数の言語でさまざまなタスクを実行できます。

多言語 LLM アプリケーションは膨大で、文学を現地の方言に翻訳したり、リアルタイムの多言語コミュニケーション、多言語コンテンツの作成などが含まれます。言語に関係なく、誰もが情報にアクセスし、簡単に会話できるようになります。

また、多言語 LLM は、文化的なニュアンスや文脈の欠如、トレーニング データの制限、翻訳中の潜在的な知識損失などの課題にも対処します。

多言語 LLM はどのように機能しますか?

多言語 LLM を構築するには、さまざまな言語でバランスの取れたテキストのコーパスを慎重に準備し、モデルをトレーニングするための適切なアーキテクチャとトレーニング手法を選択する必要があります。 変圧器モデル、多言語学習に最適です。

多言語 LLM を構築する手順

出典: 著者による画像

1 つの手法は、さまざまな言語間で単語の意味論的な意味を捕捉するエンベディングを共有することです。これにより、LLM は各言語の類似点と相違点を学習し、異なる言語をよりよく理解できるようになります。

この知識により、LLM は言語の翻訳、さまざまなスタイルでの記述など、さまざまな言語タスクに適応できるようになります。使用されるもう 1 つのテクニックは次のとおりです。 異言語転移学習、モデルは特定のタスクで微調整される前に、多言語データの大規模なコーパスで事前トレーニングされます。

この 2 段階のプロセスにより、モデルに多言語理解における強力な基盤が確保され、さまざまな下流アプリケーションに適応できるようになります。

多言語大規模言語モデルの例

多言語LLM比較表

情報源: Ruder.io

多言語 LLM の注目すべき例がいくつか登場しており、それぞれが特定の言語ニーズと文化的背景に対応しています。そのうちのいくつかを見てみましょう:

1. ブルーム

咲く は、多様な言語とアクセシビリティを優先するオープンアクセスの多言語 LLM です。 176 億のパラメーターを備えた BLOOM は、46 の自然言語と 13 のプログラミング言語でタスクを処理でき、最大かつ最も多様な LLM の XNUMX つとなっています。

BLOOM のオープンソースの性質により、研究者、開発者、言語コミュニティはその機能から恩恵を受け、BLOOM の改善に貢献できます。

2. ヤイ2

YAYI 2 は、この地域の複雑さと文化的ニュアンスを考慮して、アジア言語専用に設計されたオープンソース LLM です。これは、16 兆 2.65 億のフィルタリングされたトークンを含む XNUMX を超えるアジア言語の多言語コーパスでゼロから事前トレーニングされました。

これにより、モデルはアジアの言語と文化の特定の要件を満たし、より良い結果を得ることができます。

3.ポリLM

PolyLM は、適応機能を提供することで低リソース言語の課題に対処することに重点を置いたオープンソースの「ポリグロット」LLM です。約 640 億トークンのデータセットでトレーニングされ、1.7B と 13B の 16 つのモデル サイズで利用できます。 PolyLM は XNUMX を超える言語を理解しています。

これにより、高リソース言語でトレーニングされたモデルを、データが限られた低リソース言語向けに微調整することができます。この柔軟性により、LLM はさまざまな言語状況やタスクにおいてさらに便利になります。

4.XGLM

XGLM は 7.5 億のパラメータを誇り、数ショット学習技術を使用して 20 以上の言語の多様なセットをカバーするコーパスでトレーニングされた多言語 LLM です。これは、テキストとコードの膨大なデータセットでトレーニングされた大規模な多言語 LLM ファミリーの一部です。

多くの言語を完全にカバーすることを目的としており、そのため包括性と言語の多様性に重点を置いています。 XGLM は、さまざまな言語コミュニティのニーズに応えるモデルを構築できる可能性を示しています。

5.mT5

  mT5 (大規模多言語 Text-to-Text Transfer Transformer) は Google AI によって開発されました。で訓練を受けました 共通のクロール データセット、 mt5 は、広く話されているスペイン語や中国語から、バスク語やケチュア語などのリソースの少ない言語に至るまで、101 の言語を処理できる最先端の多言語 LLM です。

翻訳、要約、質問応答などの多言語タスクにも優れています。

ユニバーサル LLM は可能ですか?

特定の言語に偏ることなく言語を理解して生成できる、言語中立的な LLM の概念は興味深いものです。

真にユニバーサルな LLM の開発はまだ遠いですが、現在の多言語 LLM は大きな成功を収めています。完全に開発されれば、過小評価されている言語や多様なコミュニティのニーズに応えることができます。

例えば、 研究 は、ほとんどの多言語 LLM が、タスク固有のトレーニング データなしで、リソースが豊富な言語からリソースに乏しい言語へのゼロショットの言語間転送を容易にできることを示しています。

また、特定の言語とコミュニティに焦点を当てた YAYI や BLOOM のようなモデルは、進歩と包括性を推進する上で言語中心のアプローチの可能性を実証しました。

ユニバーサル LLM を構築するか、現在の多言語 LLM を改善するには、個人および組織は次のことを行う必要があります。

  • コミュニティへの参加と言語データセットのキュレーションのためにネイティブ スピーカーをクラウドソーシングします。
  • 多言語研究開発へのオープンソースへの貢献と資金提供に関するコミュニティの取り組みを支援します。

多言語 LLM の課題

ユニバーサル多言語 LLM の概念には大きな期待が寄せられていますが、その恩恵を受ける前に解決しなければならないいくつかの課題にも直面しています。

1. データ量

多言語モデルでは、単言語モデルよりも多くの言語でトークンを表現するためにより多くの語彙が必要ですが、多くの言語には大規模なデータセットが不足しています。このため、これらのモデルを効果的にトレーニングすることが困難になります。

2. データ品質に関する懸念

複数の言語にわたる多言語 LLM 出力の正確性と文化的適切性を確保することは、重大な懸念事項です。モデルは、偏見や不正確さを避けるために、言語的および文化的ニュアンスに細心の注意を払いながらトレーニングおよび微調整する必要があります。

3. リソースの制限

多言語モデルのトレーニングと実行には、強力な GPU (NVIDIA A100 GPU など) などの大量の計算リソースが必要です。このコストの高さは、特にリソースの少ない言語や、計算インフラストラクチャへのアクセスが制限されているコミュニティにとって課題となります。

4. モデルのアーキテクチャ

多様な言語構造と複雑さに対応するためにモデル アーキテクチャを適応させることは、継続的な課題です。モデルは、高いパフォーマンスと効率を維持しながら、異なる語順、形態変化、および書記体系を持つ言語を処理できなければなりません。

5. 評価の複雑さ

英語のベンチマークを超えて多言語 LLM のパフォーマンスを評価することは、その真の有効性を測定するために重要です。文化的なニュアンス、言語の特殊性、ドメイン固有の要件を考慮する必要があります。

多言語 LLM は、言語の壁を打ち破り、リソースが不足している言語を強化し、多様なコミュニティ間での効果的なコミュニケーションを促進する可能性を秘めています。

AI と ML の最新ニュースと分析をお見逃しなく – をご覧ください。 ユナイトアイ