AI Araçları 101

Master CUDA: Makine Öğrenme Mühendisleri İçin

Yayınlanan Eylül 3, 2024

Güncellenmiş 15 Kasım 2024

Aayush Mittal Mittal

Master CUDA: Makine Öğrenme Mühendisleri İçin

Hesaplama gücü, makine öğreniminde mümkün olanın sınırlarını zorlamada kritik bir faktör haline geldi. Modeller daha karmaşık hale geldikçe ve veri kümeleri katlanarak büyüdükçe, geleneksel CPU tabanlı bilgi işlem genellikle modern makine öğrenimi görevlerinin gereksinimlerini karşılamakta yetersiz kalıyor. İşte tam da bu noktada, makine öğrenimi iş akışlarını hızlandırmaya yönelik bir yaklaşım olan CUDA (Hesaplama Birleşik Cihaz Mimarisi) devreye giriyor.

CUDANVIDIA tarafından geliştirilen, Grafik İşleme Birimlerinin (GPU'lar) muazzam hesaplama gücünden yararlanan paralel bir hesaplama platformu ve programlama modelidir. GPU'lar başlangıçta grafikleri işlemek için tasarlanmış olsa da, mimarileri onları birçok makine öğrenme algoritmasının paralel işleme gereksinimleri için son derece uygun hale getirir.

Bu makalede, CUDA'nın temel kavramlarını, mimarisini ve pratik uygulamalarını derinlemesine inceleyerek makine öğrenimi projelerinizde nasıl devrim yaratabileceğini inceleyeceğiz. İster iş akışlarınızı optimize etmek isteyen deneyimli bir makine öğrenimi mühendisi olun, ister GPU hesaplamanın gücünden yararlanmak isteyen yeni başlayan biri olun, bu kılavuz size makine öğrenimi çalışmalarınızı bir üst seviyeye taşımanız için gereken bilgiyi sağlayacaktır.

Paralel Hesaplama ve CUDA'yı Anlamak

Ayrıntıları konuşmadan önce CUDAParalel hesaplamanın temel kavramını anlamak çok önemlidir. Özünde, paralel hesaplama birçok hesaplamanın aynı anda gerçekleştirildiği bir hesaplama biçimidir. İlke basit ama güçlüdür: Büyük problemler genellikle daha küçük problemlere bölünebilir ve bunlar daha sonra aynı anda çözülebilir.

Görevlerin birbiri ardına gerçekleştirildiği geleneksel ardışık programlama, bir otoyoldaki tek bir şeride benzetilebilir. Öte yandan paralel hesaplama, o otoyola birden fazla şerit eklemek gibidir ve daha fazla trafiğin (veya bizim durumumuzda, hesaplamaların) aynı anda akmasına olanak tanır.

CUDA bu kavramı alır ve GPU'ların benzersiz mimarisine uygular. Karmaşık kontrol mantığıyla çok çeşitli görevleri ele almak üzere tasarlanmış CPU'ların aksine, GPU'lar paralel olarak çok sayıda basit, benzer işlem gerçekleştirmek için optimize edilmiştir. Bu, onları matris çarpımları ve evrişimler gibi makine öğreniminde yaygın olan hesaplama türleri için ideal hale getirir.

Bazı temel kavramları inceleyelim:

İş parçacıkları ve İş parçacığı Hiyerarşisi

CUDA'da bir iş parçacığı, yürütmenin en küçük birimidir. Nispeten ağır olan CPU iş parçacıklarının aksine, GPU iş parçacıkları son derece hafiftir. Tipik bir CUDA programı aynı anda binlerce hatta milyonlarca iş parçacığı başlatabilir.

CUDA, iş parçacıklarını bir hiyerarşiye göre düzenler:

İş parçacıkları bloklar halinde gruplandırılır
Bloklar bir ızgara şeklinde düzenlenmiştir

Bu hiyerarşik yapı, farklı GPU mimarileri arasında verimli ölçeklendirmeye olanak tanır. İşte basit bir görselleştirme:

|-- Block (0,0)
| |-- Thread (0,0)
| |-- Thread (0,1)
| |-- ...
|-- Block (0,1)
| |-- Thread (0,0)
| |-- Thread (0,1)
| |-- ...
|-- ...

Bellek Hiyerarşisi

CUDA, her biri kendine özgü özelliklere sahip farklı bellek türleri sağlar:

Küresel Bellek: Tüm iş parçacıkları tarafından erişilebilir, ancak daha yüksek gecikme süresiyle
Paylaşılan Bellek: Bir iş parçacığı bloğu içinde paylaşılan hızlı bellek
Yerel Bellek: Her iş parçacığına özel
Sabit Bellek: Sabit veriler için salt okunur bellek

Bu bellek hiyerarşisini anlamak ve etkili bir şekilde kullanmak CUDA programlarını optimize etmek için çok önemlidir.

çekirdekleri

CUDA'da çekirdek, GPU'da çalışan bir fonksiyondur. Birçok iş parçacığı tarafından paralel olarak yürütülür. İşte basit bir CUDA çekirdeği örneği:

__global__ void vectorAdd(float *a, float *b, float *c, int n)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i &lt; n)
        c[i] = a[i] + b[i];
}

Bu çekirdek iki vektörü eleman bazında ekler. __global__ anahtar sözcüğü bu fonksiyonun bir CUDA çekirdeği olduğunu gösterir.

CUDA Bellek Modeli

CUDA bellek modelini anlamak, verimli GPU kodu yazmak için çok önemlidir. CUDA bellek modeli, ana bilgisayar (CPU) ve cihaz (GPU) bellek sistemlerini birleştirir ve tam bellek hiyerarşisini ortaya çıkararak geliştiricilerin optimum performans için veri yerleşimini açıkça kontrol etmelerine olanak tanır.

Bellek Hiyerarşisinin Faydaları

GPU'lar da dahil olmak üzere modern bilgi işlem sistemleri, performansı optimize etmek için bir bellek hiyerarşisi kullanır. Bu hiyerarşi, farklı gecikmelere, bant genişliklerine ve kapasitelere sahip birden fazla bellek seviyesinden oluşur. Yerellik ilkesi burada önemli bir rol oynar:

Geçici Yerellik: Bir veri konumuna referans verilmişse, yakın zamanda tekrar referans verilmesi muhtemeldir.
Mekansal Yerellik: Bir bellek konumuna başvurulursa, yakındaki konumlara da başvurulması muhtemeldir.

Bu tür yerellikleri anlayıp bunlardan yararlanarak, bellek erişim sürelerini en aza indiren ve verimi en üst düzeye çıkaran CUDA programları yazabilirsiniz.

CUDA Bellek Türlerinin Ayrıntılı Ayrımı

CUDA'nın bellek modeli, her biri farklı kapsamlara, kullanım ömürlerine ve performans özelliklerine sahip çeşitli bellek türlerini ortaya koyar. En sık kullanılan CUDA bellek türlerine genel bir bakış:

Kayıtlar: CUDA iş parçacıklarının kullanabileceği en hızlı bellektir ve değişkenleri depolamak için kullanılır.
Paylaşılan Bellek: Aynı blok içindeki iş parçacıkları arasında paylaşılan bellek. Küresel bellekten daha düşük gecikmeye sahiptir ve iş parçacıklarını senkronize etmek için kullanışlıdır.
Yerel Bellek: Her iş parçacığına özel bellek, kayıtların yetersiz olduğu durumlarda kullanılır.
Küresel Bellek: Tüm iş parçacıkları tarafından erişilebilen en büyük bellek alanı. Daha yüksek gecikme süresine sahiptir ve genellikle birden fazla iş parçacığı tarafından erişilmesi gereken verileri depolamak için kullanılır.
Sabit Bellek: Verimlilik için önbelleğe alınan salt okunur bellek, sabitleri depolamak için kullanılır.
Doku Hafızası: Belirli erişim düzenleri için optimize edilmiş, genellikle grafik uygulamalarında kullanılan, özel salt okunur bellek.

Makine Öğrenmesi için CUDA: Pratik Uygulamalar

Bir CUDA C/C++ uygulamasının yapısı, ana bilgisayar (CPU) kodunun aygıt (GPU) üzerindeki paralel kodun yürütülmesini yönettiği yerdir.

Ana bilgisayar (CPU) kodunun, aygıt (GPU) üzerindeki paralel kodun yürütülmesini yönettiği bir CUDA C/C++ uygulamasının yapısı.

Artık temelleri ele aldığımıza göre, CUDA'nın yaygın makine öğrenimi görevlerine nasıl uygulanabileceğini inceleyelim.

Matris Çarpımı

Matris çarpımı, birçok makine öğrenimi algoritmasında, özellikle de sinir ağlarında temel bir işlemdir. CUDA bu işlemi önemli ölçüde hızlandırabilir. İşte basit bir uygulama:

__global__ void matrixMulKernel(float *A, float *B, float *C, int N)
{
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    float sum = 0.0f;
    
    if (row &amp;lt; N &amp;amp;&amp;amp; col &amp;lt; N) {
        for (int i = 0; i &amp;lt; N; i++) {
            sum += A[row * N + i] * B[i * N + col];
        }
        C[row * N + col] = sum;
    }
}

// Host function to set up and launch the kernel
void matrixMul(float *A, float *B, float *C, int N)
{
    dim3 threadsPerBlock(16, 16);
    dim3 numBlocks((N + threadsPerBlock.x - 1) / threadsPerBlock.x, 
                   (N + threadsPerBlock.y - 1) / threadsPerBlock.y);
    
    matrixMulKernelnumBlocks, threadsPerBlock(A, B, C, N);
}

Bu uygulama, çıktı matrisini bloklara böler ve her iş parçacığı sonucun bir öğesini hesaplar. Bu temel sürüm, büyük matrisler için bir CPU uygulamasından daha hızlı olsa da, paylaşımlı bellek ve diğer teknikler kullanılarak optimizasyon için alan vardır.

Evrişim İşlemleri

Evrişimli Sinir Ağları (CNN'ler) Evrişim işlemlerine büyük ölçüde güvenir. CUDA bu hesaplamaları önemli ölçüde hızlandırabilir. İşte basitleştirilmiş bir 2 boyutlu evrişim çekirdeği:

__global__ void convolution2DKernel(float *input, float *kernel, float *output, 
                                    int inputWidth, int inputHeight, 
                                    int kernelWidth, int kernelHeight)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    
    if (x < inputWidth && y < inputHeight) {
        float sum = 0.0f;
        for (int ky = 0; ky < kernelHeight; ky++) {
            for (int kx = 0; kx < kernelWidth; kx++) {
                int inputX = x + kx - kernelWidth / 2;
                int inputY = y + ky - kernelHeight / 2;
                if (inputX >= 0 && inputX < inputWidth && inputY >= 0 && inputY < inputHeight) {
                    sum += input[inputY * inputWidth + inputX] * 
                           kernel[ky * kernelWidth + kx];
                }
            }
        }
        output[y * inputWidth + x] = sum;
    }
}

Bu çekirdek, her iş parçacığının bir çıktı pikselini hesapladığı 2B bir evrişim gerçekleştirir. Pratikte, daha karmaşık uygulamalar, küresel bellek erişimlerini azaltmak ve çeşitli çekirdek boyutları için optimizasyon yapmak amacıyla paylaşımlı belleği kullanır.

Stokastik Gradyan İnişi (SGD)

SGD, makine öğreniminde temel bir optimizasyon algoritmasıdır. CUDA, birden fazla veri noktasındaki gradyanların hesaplanmasını paralel hale getirebilir. İşte doğrusal regresyon için basitleştirilmiş bir örnek:

__global__ void sgdKernel(float *X, float *y, float *weights, float learningRate, int n, int d)
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) {
        float prediction = 0.0f;
        for (int j = 0; j < d; j++) {
            prediction += X[i * d + j] * weights[j];
        }
        float error = prediction - y[i];
        for (int j = 0; j < d; j++) {
            atomicAdd(&weights[j], -learningRate * error * X[i * d + j]);
        }
    }
}

void sgd(float *X, float *y, float *weights, float learningRate, int n, int d, int iterations)
{
    int threadsPerBlock = 256;
    int numBlocks = (n + threadsPerBlock - 1) / threadsPerBlock;
    
    for (int iter = 0; iter < iterations; iter++) {
        sgdKernel<<<numBlocks, threadsPerBlock>>>(X, y, weights, learningRate, n, d);
    }
}

Bu uygulama, her veri noktası için ağırlıkları paralel olarak günceller. atomicAdd fonksiyonu ağırlıklara yapılan eş zamanlı güncellemeleri güvenli bir şekilde işlemek için kullanılır.

Makine Öğrenmesi için CUDA'yı Optimize Etme

Yukarıdaki örnekler, makine öğrenimi görevleri için CUDA kullanımının temellerini gösterse de performansı daha da artırabilecek birkaç optimizasyon tekniği vardır:

Birleşik Bellek Erişimi

GPU'lar, warp'taki iş parçacıkları bitişik bellek konumlarına eriştiğinde en yüksek performansa ulaşır. Veri yapılarınızın ve erişim kalıplarınızın birleşik bellek erişimini desteklediğinden emin olun.

Paylaşılan Bellek Kullanımı

Paylaşılan bellek, küresel bellekten çok daha hızlıdır. Bunu, bir iş parçacığı bloğu içinde sık erişilen verileri önbelleğe almak için kullanın.

CUDA ile çalışırken bellek hiyerarşisini anlamak çok önemlidir

CUDA ile bellek hiyerarşisini anlama

Bu diyagram, paylaşımlı belleğe sahip çok işlemcili bir sistemin mimarisini göstermektedir. Her işlemcinin kendi önbelleği vardır ve bu da sık kullanılan verilere hızlı erişim sağlar. İşlemciler, onları daha büyük bir paylaşımlı bellek alanına bağlayan paylaşımlı bir veri yolu üzerinden iletişim kurar.

Örneğin matris çarpımında:

__global__ void matrixMulSharedKernel(float *A, float *B, float *C, int N)
{
    __shared__ float sharedA[TILE_SIZE][TILE_SIZE];
    __shared__ float sharedB[TILE_SIZE][TILE_SIZE];
    
    int bx = blockIdx.x; int by = blockIdx.y;
    int tx = threadIdx.x; int ty = threadIdx.y;
    
    int row = by * TILE_SIZE + ty;
    int col = bx * TILE_SIZE + tx;
    
    float sum = 0.0f;
    
    for (int tile = 0; tile < (N + TILE_SIZE - 1) / TILE_SIZE; tile++) {
        if (row < N && tile * TILE_SIZE + tx < N)
            sharedA[ty][tx] = A[row * N + tile * TILE_SIZE + tx];
        else
            sharedA[ty][tx] = 0.0f;
        
        if (col < N && tile * TILE_SIZE + ty < N)
            sharedB[ty][tx] = B[(tile * TILE_SIZE + ty) * N + col];
        else
            sharedB[ty][tx] = 0.0f;
        
        __syncthreads();
        
        for (int k = 0; k < TILE_SIZE; k++)
            sum += sharedA[ty][k] * sharedB[k][tx];
        
        __syncthreads();
    }
    
    if (row < N && col < N)
        C[row * N + col] = sum;
}

Bu optimize edilmiş sürüm, küresel bellek erişimlerini azaltmak için paylaşımlı belleği kullanır ve büyük matrisler için performansı önemli ölçüde artırır.

Asenkron İşlemler

CUDA, veri aktarımıyla hesaplamayı örtüştürmenize olanak tanıyan asenkron işlemleri destekler. Bu, özellikle geçerli veri grubu işlenirken bir sonraki veri grubunu hazırlayabileceğiniz makine öğrenimi hatlarında faydalıdır.

cudaStream_t stream1, stream2;
cudaStreamCreate(&stream1);
cudaStreamCreate(&stream2);

// Asynchronous memory transfers and kernel launches
cudaMemcpyAsync(d_data1, h_data1, size, cudaMemcpyHostToDevice, stream1);
myKernel<<<grid, block, 0, stream1>>>(d_data1, ...);

cudaMemcpyAsync(d_data2, h_data2, size, cudaMemcpyHostToDevice, stream2);
myKernel<<<grid, block, 0, stream2>>>(d_data2, ...);

cudaStreamSynchronize(stream1);
cudaStreamSynchronize(stream2);

Tensör Çekirdekleri

Makine öğrenimi iş yükleri için, NVIDIA'nın Tensör Çekirdekleri (daha yeni GPU mimarilerinde mevcuttur) matris çarpımı ve evrişim işlemleri için önemli hızlanmalar sağlayabilir. cuDNN ve cuBLAS, mevcut olduğunda Tensör Çekirdeklerini otomatik olarak kullanır.

Zorluklar ve Düşünceler

CUDA makine öğrenimi için muazzam faydalar sunarken, olası zorlukların da farkında olmak önemlidir:

Bellek Yönetimi: GPU belleği sistem belleğine kıyasla sınırlıdır. Verimli bellek yönetimi, özellikle büyük veri kümeleri veya modellerle çalışırken çok önemlidir.
Veri Aktarımı Ek Yükü: Verilerin arasında aktarılması CPU ve GPU darboğaz olabilir. Transferleri en aza indirin ve mümkün olduğunda asenkron işlemleri kullanın.
Hassas: GPU'lar geleneksel olarak tek hassasiyetli (FP32) hesaplamalarda üstün performans gösterir. Çift hassasiyetli (FP64) hesaplamalar için destek gelişmiş olsa da, genellikle daha yavaştır. Birçok makine öğrenimi görevi, modern GPU'ların çok verimli bir şekilde işlediği daha düşük hassasiyetle (örneğin, FP16) iyi çalışabilir.
Kod Karmaşıklığı: Verimli CUDA kodu yazmak, CPU kodundan daha karmaşık olabilir. Aşağıdaki gibi kütüphanelerden yararlanarak cuDNN, cuBLAS ve TensorFlow veya PyTorch gibi çerçeveler bu karmaşıklığın bir kısmını soyutlamanıza yardımcı olabilir.

Çoklu GPU'lara Geçiş

Makine öğrenimi modelleri boyut ve karmaşıklık açısından büyüdükçe, tek bir GPU iş yükünü idare etmek için artık yeterli olmayabilir. CUDA, uygulamanızı tek bir düğüm içinde veya bir küme genelinde birden fazla GPU'ya ölçeklendirmenizi mümkün kılar.

Birden Fazla GPU Kullanmanın Nedenleri

Sorun Alan Boyutu: Veri kümeniz veya modeliniz tek bir GPU'nun belleğine sığmayacak kadar büyük olabilir.
Verim ve Verimlilik: Tek bir görev tek bir GPU'ya sığsa bile, birden fazla GPU kullanmak, birden fazla görevi aynı anda işleyerek verimi artırabilir.

CUDA Programlama Yapısı

CUDA'yı etkili bir şekilde kullanmak için, çekirdekleri (GPU'da çalışan işlevler) yazmayı ve ana bilgisayar (CPU) ile aygıt (GPU) arasındaki belleği yönetmeyi içeren programlama yapısını anlamak önemlidir.

Ana Bilgisayar ve Aygıt Belleği

CUDA'da bellek, ana bilgisayar ve aygıt için ayrı ayrı yönetilir. Bellek yönetimi için kullanılan birincil işlevler şunlardır:

cudaMalloc: Cihazda bellek ayırır.
cudaMemcpy: Verileri ana bilgisayar ve cihaz arasında kopyalar.
cudaÜcretsiz: Cihazdaki hafızayı boşaltır.

Örnek: İki Dizinin Toplanması

CUDA kullanarak iki dizinin toplamını alan bir örneğe bakalım:

__global__ void sumArraysOnGPU(float *A, float *B, float *C, int N) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < N) C[idx] = A[idx] + B[idx];
}

int main() {
    int N = 1024;
    size_t bytes = N * sizeof(float);

    float *h_A, *h_B, *h_C;
    h_A = (float*)malloc(bytes);
    h_B = (float*)malloc(bytes);
    h_C = (float*)malloc(bytes);

    float *d_A, *d_B, *d_C;
    cudaMalloc(&d_A, bytes);
    cudaMalloc(&d_B, bytes);
    cudaMalloc(&d_C, bytes);

    cudaMemcpy(d_A, h_A, bytes, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, bytes, cudaMemcpyHostToDevice);

    int blockSize = 256;
    int gridSize = (N + blockSize - 1) / blockSize;

    sumArraysOnGPU<<<gridSize, blockSize>>>(d_A, d_B, d_C, N);

    cudaMemcpy(h_C, d_C, bytes, cudaMemcpyDeviceToHost);

    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);

    free(h_A);
    free(h_B);
    free(h_C);

    return 0;
}

Bu örnekte, hem ana bilgisayarda hem de aygıtta bellek tahsis edilir, veriler aygıta aktarılır ve hesaplamayı gerçekleştirmek için çekirdek başlatılır.

Sonuç

CUDA, modellerini hızlandırmak ve daha büyük veri kümelerini işlemek isteyen makine öğrenimi mühendisleri için güçlü bir araçtır. CUDA bellek modelini anlayarak, bellek erişimini optimize ederek ve birden fazla GPU'dan yararlanarak makine öğrenimi uygulamalarınızın performansını önemli ölçüde artırabilirsiniz.

Bu makalede temel bilgileri ve bazı ileri düzey konuları ele aldık, ancak CUDA sürekli gelişen geniş bir alandır. Bu güçlü teknolojiden en iyi şekilde yararlanmak için en yeni CUDA sürümleri, GPU mimarileri ve makine öğrenimi kütüphaneleri hakkında güncel kalın.

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.

Unite.AI

Master CUDA: Makine Öğrenme Mühendisleri İçin

Paralel Hesaplama ve CUDA'yı Anlamak

İş parçacıkları ve İş parçacığı Hiyerarşisi

Bellek Hiyerarşisi

çekirdekleri

CUDA Bellek Modeli

Bellek Hiyerarşisinin Faydaları

CUDA Bellek Türlerinin Ayrıntılı Ayrımı

Makine Öğrenmesi için CUDA: Pratik Uygulamalar

Matris Çarpımı

Evrişim İşlemleri

Stokastik Gradyan İnişi (SGD)

Makine Öğrenmesi için CUDA'yı Optimize Etme

Birleşik Bellek Erişimi

Paylaşılan Bellek Kullanımı

Asenkron İşlemler

Tensör Çekirdekleri