人工知能
LoRa, QLoRA, QA-LoRA: 大規模言語モデルにおける低ランク行列分解を用いた効率的な適応性

大規模言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力を提供することで、独自のニッチを切り開いています。LLMの力は、その巨大なサイズに由来し、しばしば数十億のパラメータを持っています。ただし、この巨大なスケールは、特定のタスクまたはドメインへのモデルの適応時に、特に課題をもたらします。LLMの従来の管理方法、たとえばすべてのパラメータのファインチューニング、は、計算と金銭的な負担をもたらします。したがって、実際のアプリケーションにおけるLLMの広範な採用の障壁となります。
以前の記事では、特定の要件に合わせて大規模言語モデル(LLM)をファインチューニングする方法について説明しました。インストラクションベースのファインチューニング、シングルタスクファインチューニング、パラメータ効率的なファインチューニング(PEFT)などのさまざまなファインチューニング方法を探究し、それぞれが異なるタスクに最適化されたLLMを提供するための独自のアプローチについて説明しました。議論の中心は、LLMの背骨であるトランスフォーマーアーキテクチャと、ファインチューニング時の膨大な数のパラメータの計算とメモリの要求によってもたらされる課題でした。

上の画像は、パラメータの数で並べられたさまざまな大規模言語モデルのスケールを表しています。特に注目すべきは、PaLM、BLOOMなどです。
今年、さらに大きなモデルが開発されました。しかし、標準システムでこれらの巨大なオープンソースモデルをチューニングすることは、特殊な最適化手法を使用せずに実行することはできません。
ここで、この論文でマイクロソフトによって導入された低ランク適応(LoRA)が登場します。LoRAは、これらの課題を軽減し、LLMをよりアクセスしやすく、適応可能にすることを目的としています。
LoRAの核心は、モデルの再トレーニングの複雑さに立ち入ることなく、モデルの適応にアプローチする方法にあります。従来のファインチューニングとは異なり、すべてのパラメータが変更されるのではなく、LoRAは事前トレーニング済みモデルの重みを凍結し、トランスフォーマーアーキテクチャの各層にトレーニング可能なランク分解行列を導入します。このアプローチにより、トレーニング可能なパラメータの数が大幅に削減され、適応プロセスがより効率的に実行されます。
… (以下、同じ形式で続きます)












