Yapay Zekâ
ChatGPT Gibi Büyük Dil Modellerini Yarısı Maliyetle Oluşturabilir misiniz?

Büyük Dil Modelleri (LLMs) gibi GPT-3 ve ChatGPT, Doğal Dil Anlama ve içerik oluşturma yetenekleri sunarak AI’yi devrimleştiriyor. Ancak geliştirilmeleri büyük bir maliyetle geliyor ve erişilebilirliği ve daha fazla araştırmayı sınırlıyor. Araştırmacılar, GPT-3’ü eğitmenin OpenAI’ye yaklaşık $5 milyon maliyetine mal olduğunu tahmin ediyor. Buna rağmen, Microsoft potansiyeli tanıdı ve 2019’da $1 milyar ve 2023’te $10 milyar OpenAI’nin GPT-3 ve ChatGPT girişimine yatırım yaptı.
LLM’ler, NLP uygulamaları için geniş metin verilerine dayalı olarak eğitilen makine öğrenimi modelleridir. Transformer mimarisi temelinde oluşturulmuşlar ve soru-cevap, makine çevirisi, duygu analizi gibi NLP görevleri için dikkat mekanizmalarını kullanıyorlar.
Soru ortaya çıkıyor: Bu büyük modellerin verimliliği artırılırken aynı zamanda hesaplama maliyeti ve eğitim süresi azaltılabilir mi?
Birkaç yaklaşım, İlerleyici Sinir Ağları, Ağ Morfizmi, katman içi model paralelliği, bilgi mirası gibi, sinir ağlarını eğitmek için hesaplama maliyetini azaltmak amacıyla geliştirildi. Tartışacağımız yeni LiGO (Linear Growth Operator) yaklaşımı, yeni bir standart belirliyor. LLM’leri eğitmek için hesaplama maliyetini yarıya indiriyor.
Bu tekniği tartışmadan önce, LLM’lerin yüksek maliyetine katkıda bulunan faktörleri incelemek önemlidir.
Büyük Dil Modellerini Oluşturmanın Maliyeti
LLM’leri geliştirmek için üç büyük gider vardır:
1. Hesaplama Kaynakları
Büyük Dil Modellerini oluşturmak için büyük veri kümeleri üzerinde eğitilmek için büyük hesaplama kaynaklarına ihtiyaç duyulur. Milyarlarca parametre işleyip büyük metin verisinden karmaşık kalıplar öğrenmelidirler.
Özel donanım gibi Grafik İşleme Birimleri (GPU’lar) ve Tensor İşleme Birimleri (TPU’lar) yatırımına ihtiyaç duyulur. Büyük Dil Modellerini oluşturmak ve eğitmek için devlet-sanayisi performansına ulaşmak için gereklidir.
Örneğin, GPT-3, 10000 entreprise-düzeyinde GPU (H100 ve A100) ve 285.000 CPU çekirdeğine sahip bir süper bilgisayar üzerinde eğitildi.
2. Enerji Tüketimi
Büyük Dil Modellerini oluşturmak için gereken yoğun hesaplama kaynakları, önemli enerji tüketimine neden olur. Örneğin, 175 milyar parametreli GPT-3’ü eğitmek, 14,8 gün sürdü ve 10.000 V100 GPU ile yapıldı, bu da 3,55 milyon GPU saatiyle eşdeğerdi. Bu düzeydeki enerji tüketimi, önemli çevresel etkileri de beraberinde getirir.
3. Veri Depolama ve Yönetimi
Büyük Dil Modelleri, büyük veri kümeleri üzerinde eğitilir. Örneğin, GPT-3, Common Crawl, WebText2, Books1, Books2 ve Wikipedia gibi kaynaklar dahil olmak üzere geniş bir metin verisi kümesi üzerinde eğitildi. Bu veri kümelerini toplamak, düzenlemek ve depolamak için önemli altyapı yatırımı gereklidir.
Ayrıca, bulut depolamaya veri depolama için ve veri ön işleme ve sürüm kontrolü için insan uzmanlığına ihtiyaç duyulur. Ayrıca, veri stratejisinin GDPR gibi düzenlemelere uygunluğunu sağlamak da maliyeti artırır.
LiGO Tekniği: Büyük Dil Modellerini Oluşturmanın Maliyetini Yarısına İndir
LiGO (Linear Growth Operator), MIT’de araştırmacılar tarafından LLM’leri eğitmek için hesaplama maliyetini %50 azaltmak amacıyla geliştirilen yeni bir tekniktir. Yöntem, daha büyük modellerin ağırlıklarını daha küçük önceden eğitilmiş modellerden başlatmayı içerir, bu da sinir ağlarının verimli bir şekilde ölçeklenmesini sağlar.

Makaledeki Görüntü: Önceden Eğitilmiş Modelleri Etkin Transformer Eğitimi için Büyütmeyi Öğrenme
Yoon Kim, makalenin senior yazarı, diyor:
“ChatGPT’nin çalıştığı ölçekteki modelleri eğitmek için milyonlarca dolarlık bir maliyetin Necessary olduğu tahmin ediliyor. Bu eğitim yöntemlerinin verimliliğini artırabilir miyiz, böylece daha az zamanda ve daha az para ile iyi modeller elde edebiliriz? Daha önce eğitilmiş küçük dil modellerini kullanarak bunu öneriyoruz.”
Bu yöntem, daha büyük modellerin performans avantajlarını korurken, hesaplama maliyetini ve eğitim süresini azaltır. LiGO, optimum performans için derinlik ve genişlik operatörlerini birleştiren veri odaklı bir linear büyüme operatörü kullanır.
Makale, deneysel çalışmalar için çeşitli veri kümelerini kullandı, Bunlar arasında BERT ve RoBERTa modellerini eğitmek için İngilizce Wikipedia korpusu ve GPT2’yi eğitmek için C4 veri kümesi yer aldı.
LiGO tekniği deneysel çalışması, BERT-Small’u BERT-Base’e, BERT-Base’i BERT-Large’a, RoBERTaSmall’u RoBERTa-Base’e, GPT2-Base’i GPT2-Medium’a ve CaiT-XS’i CaiT-S’ye büyütmeyi içeriyordu.
Araştırmacılar, yaklaşımını several diğer referans noktaları ile karşılaştırdı, Bunlar arasında sıfırdan eğitim, ilerleyici eğitim, bert2BERT ve KI yer aldı.
LiGO tekniği, BERT-Base modelini sıfırdan eğitmeye kıyasla %44,7’lik FLOPs (saniye başına işlem sayısı) tasarrufu ve %40,7’lik duvar saati tasarrufu sağladı. LiGO büyüme operatörü, StackBERT, MSLT, bert2BERT ve KI’yi-efficient eğitimde geride bıraktı.
LiGO Tekniği Gibi Eğitim Optimizasyonu Tekniklerinin Avantajları
LiGO, çeşitli avantajlara sahip verimli bir sinir ağı eğitimi yöntemidir:
1. Daha Hızlı Eğitim
Önceden bahsedildiği gibi, LiGO tekniğinin ana avantajı daha hızlı eğitimdir. LLM’leri yarı zamanında eğitiyor, üretkenliği artırıyor ve maliyetleri azaltıyor.
2. Kaynak Verimliliği
LiGO, duvar saatini ve FLOPs’ı minimize ettiği için kaynak verimlidir, bu da daha maliyet efektif ve çevre dostu bir yaklaşım sağlar.
3. Genellemeler
LiGO tekniği, hem dil hem de görme dönüşümlerinin performansını iyileştirdi, bu da çeşitli görevlerde uygulanabilir bir teknik olduğu anlamına geliyor.
Ticari AI ürünleri oluşturmak, AI sistemleriyle ilgili maliyetlerin sadece bir yönü. AI sistemlerinin günlük operasyonlarından gelen maliyetler de önemli bir bileşendir. Örneğin, OpenAI’ye ChatGPT ile sorguları yanıtlamak yaklaşık $700,000 maliyetine mal oluyor. Araştırmacıların, eğitim ve çalışma zamanında daha maliyet efektif LLM’ler geliştirmeye devam etmeleri bekleniyor.
Daha fazla AI ile ilgili içerik için, unite.ai ziyaret edin.












