Artificial Intelligence

多言語 LLM の現状: 英語を超えて

公開済み

3ヶ月前

2024 年 2 月 10 日

Microsoft の調査によると、およそ世界の言語の 88%、1.2 億人が話しているが、アクセスできない大規模言語モデル（LLM）。これは、ほとんどの LLM が英語中心であるためです。つまり、ほとんどが英語データを使用して英語話者向けに構築されているためです。この英語の優位性は LLM 開発にも蔓延しており、デジタル言語のギャップをもたらし、潜在的にほとんどの人が LLM 開発から排除されています。 LLM の利点。 LLM のこの問題を解決するには、さまざまな言語でトレーニングし、さまざまな言語でタスクを実行できる LLM が必要です。多言語 LLM に参入しましょう!

多言語 LLM とは何ですか?

多言語 LLM は、複数の言語のテキストを理解して生成できます。彼らはさまざまな言語を含むデータセットでトレーニングされており、ユーザーのプロンプトから複数の言語でさまざまなタスクを実行できます。

多言語 LLM アプリケーションは膨大で、文学を現地の方言に翻訳したり、リアルタイムの多言語コミュニケーション、多言語コンテンツの作成などが含まれます。言語に関係なく、誰もが情報にアクセスし、簡単に会話できるようになります。

また、多言語 LLM は、文化的なニュアンスや文脈の欠如、トレーニングデータの制限、翻訳中の潜在的な知識損失などの課題にも対処します。

多言語 LLM はどのように機能しますか?

多言語 LLM を構築するには、さまざまな言語でバランスの取れたテキストのコーパスを慎重に準備し、モデルをトレーニングするための適切なアーキテクチャとトレーニング手法を選択する必要があります。変圧器モデル、多言語学習に最適です。

多言語 LLM を構築する手順

出典: 著者による画像

1 つの手法は、さまざまな言語間で単語の意味論的な意味を捕捉するエンベディングを共有することです。これにより、LLM は各言語の類似点と相違点を学習し、異なる言語をよりよく理解できるようになります。

この知識により、LLM は言語の翻訳、さまざまなスタイルでの記述など、さまざまな言語タスクに適応できるようになります。使用されるもう 1 つのテクニックは次のとおりです。異言語転移学習、モデルは特定のタスクで微調整される前に、多言語データの大規模なコーパスで事前トレーニングされます。

この 2 段階のプロセスにより、モデルに多言語理解における強力な基盤が確保され、さまざまな下流アプリケーションに適応できるようになります。

多言語大規模言語モデルの例

多言語LLM比較表

情報源： Ruder.io

多言語 LLM の注目すべき例がいくつか登場しており、それぞれが特定の言語ニーズと文化的背景に対応しています。そのうちのいくつかを見てみましょう:

1. ブルーム

咲くは、多様な言語とアクセシビリティを優先するオープンアクセスの多言語 LLM です。 176 億のパラメーターを備えた BLOOM は、46 の自然言語と 13 のプログラミング言語でタスクを処理でき、最大かつ最も多様な LLM の XNUMX つとなっています。

BLOOM のオープンソースの性質により、研究者、開発者、言語コミュニティはその機能から恩恵を受け、BLOOM の改善に貢献できます。

2. ヤイ2

YAYI 2 は、この地域の複雑さと文化的ニュアンスを考慮して、アジア言語専用に設計されたオープンソース LLM です。これは、16 兆 2.65 億のフィルタリングされたトークンを含む XNUMX を超えるアジア言語の多言語コーパスでゼロから事前トレーニングされました。

これにより、モデルはアジアの言語と文化の特定の要件を満たし、より良い結果を得ることができます。

3.ポリLM

PolyLM は、適応機能を提供することで低リソース言語の課題に対処することに重点を置いたオープンソースの「ポリグロット」LLM です。約 640 億トークンのデータセットでトレーニングされ、1.7B と 13B の 16 つのモデルサイズで利用できます。 PolyLM は XNUMX を超える言語を理解しています。

これにより、高リソース言語でトレーニングされたモデルを、データが限られた低リソース言語向けに微調整することができます。この柔軟性により、LLM はさまざまな言語状況やタスクにおいてさらに便利になります。

4.XGLM

XGLM は 7.5 億のパラメータを誇り、数ショット学習技術を使用して 20 以上の言語の多様なセットをカバーするコーパスでトレーニングされた多言語 LLM です。これは、テキストとコードの膨大なデータセットでトレーニングされた大規模な多言語 LLM ファミリーの一部です。

多くの言語を完全にカバーすることを目的としており、そのため包括性と言語の多様性に重点を置いています。 XGLM は、さまざまな言語コミュニティのニーズに応えるモデルを構築できる可能性を示しています。

5.mT5

　 mT5 (大規模多言語 Text-to-Text Transfer Transformer) は Google AI によって開発されました。で訓練を受けました共通のクロールデータセット、 mt5 は、広く話されているスペイン語や中国語から、バスク語やケチュア語などのリソースの少ない言語に至るまで、101 の言語を処理できる最先端の多言語 LLM です。

翻訳、要約、質問応答などの多言語タスクにも優れています。