Connect with us

LoRa, QLoRA, QA-LoRA: 大規模言語モデルにおける低ランク行列分解を用いた効率的な適応性

人工知能

LoRa, QLoRA, QA-LoRA: 大規模言語モデルにおける低ランク行列分解を用いた効率的な適応性

mm
LoRA : Low-Rank Adaptation of Large Language Models

大規模言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力を提供することで、独自のニッチを切り開いています。LLMの力は、その巨大なサイズに由来し、しばしば数十億のパラメータを持っています。ただし、この巨大なスケールは、特定のタスクまたはドメインへのモデルの適応時に、特に課題をもたらします。LLMの従来の管理方法、たとえばすべてのパラメータのファインチューニング、は、計算と金銭的な負担をもたらします。したがって、実際のアプリケーションにおけるLLMの広範な採用の障壁となります。

以前の記事では、特定の要件に合わせて大規模言語モデル(LLM)をファインチューニングする方法について説明しました。インストラクションベースのファインチューニング、シングルタスクファインチューニング、パラメータ効率的なファインチューニング(PEFT)などのさまざまなファインチューニング方法を探究し、それぞれが異なるタスクに最適化されたLLMを提供するための独自のアプローチについて説明しました。議論の中心は、LLMの背骨であるトランスフォーマーアーキテクチャと、ファインチューニング時の膨大な数のパラメータの計算とメモリの要求によってもたらされる課題でした。

LLMのパラメータ https://huggingface.co/blog/hf-bitsandbytes-integration

上の画像は、パラメータの数で並べられたさまざまな大規模言語モデルのスケールを表しています。特に注目すべきは、PaLMBLOOMなどです。

今年、さらに大きなモデルが開発されました。しかし、標準システムでこれらの巨大なオープンソースモデルをチューニングすることは、特殊な最適化手法を使用せずに実行することはできません。

ここで、この論文でマイクロソフトによって導入された低ランク適応(LoRA)が登場します。LoRAは、これらの課題を軽減し、LLMをよりアクセスしやすく、適応可能にすることを目的としています。

LoRAの核心は、モデルの再トレーニングの複雑さに立ち入ることなく、モデルの適応にアプローチする方法にあります。従来のファインチューニングとは異なり、すべてのパラメータが変更されるのではなく、LoRAは事前トレーニング済みモデルの重みを凍結し、トランスフォーマーアーキテクチャの各層にトレーニング可能なランク分解行列を導入します。このアプローチにより、トレーニング可能なパラメータの数が大幅に削減され、適応プロセスがより効率的に実行されます。

… (以下、同じ形式で続きます)

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することにつながりました。私の継続的な好奇心は、私がさらに探究したい分野である自然言語処理にも私を引き寄せました。