AI ツール 101

NVIDIA GPU と CUDA を使用した LLM のトレーニング、微調整、推論の設定

公開済み

1年前

2024 年 6 月 21 日

アーユシュ・ミタル

Ubuntu の Nvidia GPU GPU 並列コンピューティングの基礎 GPU ベースの LLM トレーニングマシン

人工知能 (AI) の分野は近年目覚ましい進歩を遂げており、その中核にはグラフィックスプロセッシングユニット (GPU) と並列コンピューティングプラットフォームの強力な組み合わせがあります。

などのモデル GPT、BERT、最近ではラマ, ミストラルこれまでにない流暢さと一貫性で、人間のようなテキストを理解し、生成することができます。ただし、これらのモデルのトレーニングには膨大な量のデータと計算リソースが必要であり、この取り組みには GPU と CUDA が不可欠なツールとなります。

この包括的なガイドでは、NVIDIA ドライバー、CUDA Toolkit、cuDNN、PyTorch などの重要なソフトウェアコンポーネントのインストールを含め、Ubuntu で NVIDIA GPU をセットアップするプロセスを順を追って説明します。

CUDA アクセラレーション AI フレームワークの台頭

GPUアクセラレーションによるディープラーニングは、CUDAを活用して効率的な計算を行う人気のAIフレームワークの開発によって推進されてきました。 TensorFlow, パイトーチ, MXNet CUDA のサポートが組み込まれており、GPU アクセラレーションをディープラーニングパイプラインにシームレスに統合できます。

による NVIDIA データセンターディープラーニング製品パフォーマンス調査CUDA アクセラレーションによるディープラーニングモデルは、CPU ベースの実装に比べて最大 100 倍高速なパフォーマンスを実現できます。

Ampere アーキテクチャで導入された NVIDIA のマルチインスタンス GPU (MIG) テクノロジにより、単一の GPU を複数の安全なインスタンスに分割し、それぞれに専用のリソースを持たせることができます。この機能により、複数のユーザーまたはワークロード間で GPU リソースを効率的に共有できるため、使用率が最大化され、全体的なコストが削減されます。

NVIDIA TensorRT による LLM 推論の高速化

GPU は LLM のトレーニングに役立っていますが、これらのモデルを実稼働環境に展開するには、効率的な推論も同様に重要です。 NVIDIA TensorRTは、高性能なディープラーニング推論オプティマイザーおよびランタイムであり、CUDA 対応 GPU での LLM 推論を高速化する上で重要な役割を果たします。

NVIDIA のベンチマークによると、TensorRT は、GPT-8 のような大規模な言語モデルの場合、CPU ベースの推論と比較して最大 5 倍高速な推論パフォーマンスと 3 倍低い総所有コストを実現できます。

NVIDIAのオープンソースイニシアチブへの取り組みは、AI研究コミュニティにおけるCUDAの広範な採用の原動力となっています。クドン, キュブラス, NCCL オープンソースライブラリとして利用可能であり、研究者や開発者は CUDA の可能性を最大限に活用してディープラーニングを行うことができます。

インストール

AI開発を設定する場合、最新のドライバーとライブラリを使用することが常に最善の選択とは限りません。たとえば、最新のNVIDIAドライバー（545.xx）はCUDA 12.3をサポートしていますが、PyTorchやその他のライブラリはまだこのバージョンをサポートしていない可能性があります。そのため、 CUDA 535.146.02 のドライバーバージョン 12.2 互換性を確保するため。

インストール手順

1. NVIDIAドライバーをインストールする

まず、GPUモデルを特定します。このガイドでは、NVIDIA GPUを使用します。 NVIDIA ドライバーダウンロードページ、GPU に適したドライバーを選択し、ドライバーのバージョンをメモします。

Ubuntu でビルド済みの GPU パッケージを確認するには、次のコマンドを実行します。

sudo ubuntu-drivers list --gpgpu

コンピュータを再起動してインストールを確認します。

nvidia-smi

2. CUDAツールキットをインストールする

CUDA ツールキットは、高性能の GPU アクセラレーションアプリケーションを作成するための開発環境を提供します。

LLM/ディープラーニング以外のセットアップでは、以下を使用できます。

sudo apt install nvidia-cuda-toolkit

However, to ensure compatibility with BitsAndBytes, we will follow these steps:

[code language="BASH"]

git clone https://github.com/TimDettmers/bitsandbytes.git
cd bitsandbytes/
bash install_cuda.sh 122 ~/local 1

インストールを確認します。

~/local/cuda-12.2/bin/nvcc --version

環境変数を設定します。

export CUDA_HOME=/home/roguser/local/cuda-12.2/
export LD_LIBRARY_PATH=/home/roguser/local/cuda-12.2/lib64
export BNB_CUDA_VERSION=122
export CUDA_VERSION=122

3. cuDNNをインストールする

ダウンロード cuDNN パッケージ NVIDIA 開発者ウェブサイト次のコマンドでインストールします:

sudo apt install ./cudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb

キーリングを追加するには、次の手順に従ってください。

sudo cp /var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn-local-08A7D361-keyring.gpg /usr/share/keyrings/

cuDNN ライブラリをインストールします。

sudo apt update
sudo apt install libcudnn8 libcudnn8-dev libcudnn8-samples

4. Python仮想環境をセットアップする

Ubuntu 22.04 には Python 3.10 が付属しています。venv をインストールします。

sudo apt-get install python3-pip
sudo apt install python3.10-venv

仮想環境を作成してアクティブ化します。

cd
mkdir test-gpu
cd test-gpu
python3 -m venv venv
source venv/bin/activate

5. ソースからBitsAndBytesをインストールする

BitsAndBytes ディレクトリに移動し、ソースからビルドします。

cd ~/bitsandbytes
CUDA_HOME=/home/roguser/local/cuda-12.2/ \
LD_LIBRARY_PATH=/home/roguser/local/cuda-12.2/lib64 \
BNB_CUDA_VERSION=122 \
CUDA_VERSION=122 \
make cuda12x

CUDA_HOME=/home/roguser/local/cuda-12.2/ \
LD_LIBRARY_PATH=/home/roguser/local/cuda-12.2/lib64 \
BNB_CUDA_VERSION=122 \
CUDA_VERSION=122 \
python setup.py install

6. PyTorchをインストールする

次のコマンドで PyTorch をインストールします。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

7. ハギングフェイスとトランスフォーマーをインストールする

トランスフォーマーと高速化ライブラリをインストールします。

pip install transformers
pip install accelerate

並列処理の威力

GPU は本質的に、数千の同時スレッドを効率的に処理するように設計された高度な並列プロセッサです。このアーキテクチャにより、GPU は LLM を含むディープラーニングモデルのトレーニングに伴う計算集約型のタスクに最適です。NVIDIA が開発した CUDA プラットフォームは、開発者がこれらの GPU の潜在能力を最大限に活用できるソフトウェア環境を提供し、ハードウェアの並列処理機能を活用できるコードを記述できるようにします。
加速する LLM GPU と CUDA を使用したトレーニング。

大規模言語モデルのトレーニングは、膨大な量のテキストデータを処理し、多数の行列演算を実行する必要がある、計算負荷の高いタスクです。数千のコアと高いメモリ帯域幅を備えた GPU は、これらのタスクに最適です。CUDA を活用することで、開発者はコードを最適化して GPU の並列処理機能を活用し、LLM のトレーニングに必要な時間を大幅に短縮できます。

例えば、 GPTこれまでで最大の言語モデルの 3 つである CUDA に最適化されたコードを実行する数千の NVIDIA GPU を使用することで実現しました。これにより、モデルは前例のない量のデータでトレーニングできるようになり、自然言語タスクで優れたパフォーマンスを発揮します。

import torch
import torch.nn as nn
import torch.optim as optim
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Load pre-trained GPT-2 model and tokenizer
model = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# Move model to GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# Define training data and hyperparameters
train_data = [...] # Your training data
batch_size = 32
num_epochs = 10
learning_rate = 5e-5

# Define loss function and optimizer
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Training loop
for epoch in range(num_epochs):
for i in range(0, len(train_data), batch_size):
# Prepare input and target sequences
inputs, targets = train_data[i:i+batch_size]
inputs = tokenizer(inputs, return_tensors="pt", padding=True)
inputs = inputs.to(device)
targets = targets.to(device)

# Forward pass
outputs = model(**inputs, labels=targets)
loss = outputs.loss

# Backward pass and optimization
optimizer.zero_grad()
loss.backward()
optimizer.step()

print(f'Epoch {epoch+1}/{num_epochs}, Loss: {loss.item()}')

このサンプルコードスニペットでは、 GPT-2 PyTorch と CUDA 対応 GPU を使用した言語モデル。モデルは GPU (使用可能な場合) にロードされ、トレーニングループは GPU の並列処理を活用して効率的な順方向パスと逆方向パスを実行し、トレーニングプロセスを加速します。

ディープラーニングのための CUDA アクセラレーションライブラリ

CUDA プラットフォーム自体に加えて、NVIDIA とオープンソースコミュニティは、LLM を含むディープラーニングモデルの効率的な実装を可能にするさまざまな CUDA アクセラレーションライブラリを開発しました。これらのライブラリは、行列乗算、畳み込み、活性化関数などの一般的な演算の最適化された実装を提供するため、開発者は低レベルの最適化ではなく、モデルアーキテクチャとトレーニングプロセスに集中できます。

そのようなライブラリの 1 つが cuDNN (CUDA Deep Neural Network ライブラリ) です。これは、ディープニューラルネットワークで使用される標準ルーチンの高度に調整された実装を提供します。cuDNN を活用することで、開発者はモデルのトレーニングと推論を大幅に高速化し、CPU ベースの実装と比較して最大数桁のパフォーマンス向上を実現できます。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.cuda.amp import autocast

class ResidualBlock(nn.Module):
def __init__(self, in_channels, out_channels, stride=1):
super().__init__()
self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)
self.bn1 = nn.BatchNorm2d(out_channels)
self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(out_channels)
self.shortcut = nn.Sequential()
if stride != 1 or in_channels != out_channels:
self.shortcut = nn.Sequential(
nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False),
nn.BatchNorm2d(out_channels))

def forward(self, x):
with autocast():
out = F.relu(self.bn1(self.conv1(x)))
out = self.bn2(self.conv2(out))
out += self.shortcut(x)
out = F.relu(out)
return out

このコードスニペットでは、PyTorch を使用して畳み込みニューラルネットワーク (CNN) の残差ブロックを定義します。PyTorch の Automatic Mixed Precision (AMP) の自動キャストコンテキストマネージャーを使用して混合精度トレーニングを有効にします。これにより、CUDA 対応 GPU で高い精度を維持しながら大幅なパフォーマンス向上を実現できます。F.relu 関数は cuDNN によって最適化され、GPU での効率的な実行が保証されます。

スケーラビリティのためのマルチGPUと分散トレーニング

LLM とディープラーニングモデルのサイズと複雑さが増大するにつれて、これらのモデルをトレーニングするための計算要件も増大します。この課題に対処するために、研究者と開発者は、複数のマシンにわたる複数の GPU の複合処理能力を活用できるマルチ GPU と分散トレーニング技術に目を向けています。

CUDA と、NCCL (NVIDIA Collective Communications Library) などの関連ライブラリは、複数の GPU 間でシームレスなデータ転送と同期を可能にする効率的な通信プリミティブを提供し、これまでにない規模での分散トレーニングを可能にします。

</pre>
import torch.distributed as dist

from torch.nn.parallel import DistributedDataParallel as DDP

# Initialize distributed training
dist.init_process_group(backend='nccl', init_method='...')
local_rank = dist.get_rank()
torch.cuda.set_device(local_rank)

# Create model and move to GPU
model = MyModel().cuda()

# Wrap model with DDP
model = DDP(model, device_ids=[local_rank])

# Training loop (distributed)
for epoch in range(num_epochs):
for data in train_loader:
inputs, targets = data
inputs = inputs.cuda(non_blocking=True)
targets = targets.cuda(non_blocking=True)

outputs = model(inputs)
loss = criterion(outputs, targets)

optimizer.zero_grad()
loss.backward()
optimizer.step()

この例では、PyTorch の DistributedDataParallel (DDP) モジュールを使用した分散トレーニングを示します。モデルは DDP でラップされており、NCCL を使用してデータの並列処理、勾配同期、複数の GPU 間の通信を自動的に処理します。このアプローチにより、複数のマシン間でのトレーニングプロセスの効率的なスケーリングが可能になり、研究者や開発者はより大規模で複雑なモデルを妥当な時間内にトレーニングできるようになります。

CUDA を使用したディープラーニングモデルのデプロイ

GPUとCUDAは主にディープラーニングモデルのトレーニングに使用されていますが、効率的な展開と推論にも不可欠です。ディープラーニングモデルがますます複雑になり、リソースを大量に消費するようになるにつれて、GPUアクセラレーションは実稼働環境でリアルタイムのパフォーマンスを実現する.

NVIDIAのTensorRTは、高性能なディープラーニング推論オプティマイザーとランタイムであり、低遅延と高スループット CUDA 対応 GPU での推論。TensorRT は、TensorFlow、PyTorch、MXNet などのフレームワークでトレーニングされたモデルを最適化および高速化できるため、組み込みシステムからデータセンターまで、さまざまなプラットフォームに効率的に展開できます。

import tensorrt as trt

# Load pre-trained model
model = load_model(...)

# Create TensorRT engine
logger = trt.Logger(trt.Logger.INFO)
builder = trt.Builder(logger)
network = builder.create_network()
parser = trt.OnnxParser(network, logger)

# Parse and optimize model
success = parser.parse_from_file(model_path)
engine = builder.build_cuda_engine(network)

# Run inference on GPU
context = engine.create_execution_context()
inputs, outputs, bindings, stream = allocate_buffers(engine)

# Set input data and run inference
set_input_data(inputs, input_data)
context.execute_async_v2(bindings=bindings, stream_handle=stream.ptr)

# Process output
# ...

この例では、TensorRT を使用して、CUDA 対応 GPU に事前トレーニング済みのディープラーニングモデルを展開する方法を示します。モデルは最初に TensorRT によって解析および最適化され、特定のモデルとハードウェアに合わせて高度に最適化された推論エンジンが生成されます。このエンジンを使用して GPU で効率的な推論を実行し、CUDA を活用して計算を高速化できます。

まとめ：

GPU と CUDA の組み合わせは、大規模言語モデル、コンピュータービジョン、音声認識、およびディープラーニングのさまざまな他の領域における進歩を促進する上で重要な役割を果たしてきました。GPU の並列処理機能と CUDA が提供する最適化されたライブラリを活用することで、研究者や開発者はますます複雑化するモデルを高い効率でトレーニングおよび展開できます。

AI 分野が進化し続けるにつれて、GPU と CUDA の重要性は高まるばかりです。さらに強力なハードウェアとソフトウェアの最適化により、AI システムの開発と展開においてさらなる進歩が見られ、可能性の限界が押し上げられることが期待できます。

関連トピック：AI開発 CUDA CUDAツールキット効率的な計算 GPT GPU NVIDIA 並列処理パイトーチ

次に

Facetune レビュー: 自撮り写真を編集する究極の AI 写真アプリ

お見逃しなく

CreatorsJet レビュー: コンテンツクリエイターのための究極のツール?

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。