Bizimle iletişime geçin

Yapay Zeka

Yarı Maliyetle ChatGPT Gibi Büyük Dil Modelleri Oluşturabilir misiniz?

mm

Büyük Dil Modelleri GPT-3 ve ChatGPT gibi (LLM'ler), Doğal Dil Anlama ve içerik oluşturma yetenekleri sunarak yapay zekada devrim yarattı. Ancak geliştirmeleri, erişilebilirliği ve daha fazla araştırmayı sınırlayan ağır bir bedelle geliyor. Araştırmacılar, GPT-3 eğitiminin OpenAI'ye yaklaşık olarak maliyeti olduğunu tahmin ediyor $ 5 milyon. Yine de, Microsoft potansiyeli fark etti ve yatırım yaptı. $ 1 milyar 2019 ve $ 10 milyar 2023'te OpenAI'nin GPT-3 ve ChatGPT girişiminde.

LLM'ler, NLP uygulamaları için kapsamlı metinsel veriler üzerinde eğitilmiş makine öğrenimi modelleridir. Dönüştürücü mimarisine dayanırlar ve soru cevaplama, makine çevirisi, duygu analizi vb. gibi NLP görevleri için dikkat mekanizmalarını kullanırlar.

Şu soru ortaya çıkıyor: Bu büyük modellerin verimliliği artırılırken aynı anda hesaplama maliyeti ve eğitim süresi azaltılabilir mi?

gibi çeşitli yaklaşımlar Aşamalı Sinir Ağları, Ağ Morfizmi, katman içi model paralelliği, bilgi mirasıvb. sinir ağlarını eğitmenin hesaplama maliyetini azaltmak için geliştirilmiştir. Roman LİGO (Doğrusal Büyüme Operatörü) yaklaşımı, yeni bir kriter belirlemektir. LLM eğitiminin hesaplama maliyetini yarıya indirir.

Bu tekniği tartışmadan önce, LLM yapmanın yüksek fiyatına katkıda bulunan faktörlerin incelenmesi esastır.

Büyük Dil Modelleri Oluşturmanın Maliyeti

LLM'leri geliştirmek için üç ana harcama aşağıdaki gibidir:

1. Hesaplamalı Kaynaklar

LLM'ler oluşturmak, büyük veri kümeleri üzerinde eğitim vermek için çok büyük hesaplama kaynakları gerektirir. Milyarlarca parametreyi işlemeleri ve devasa metinsel verilerden karmaşık kalıpları öğrenmeleri gerekiyor.

Grafik İşleme Birimleri gibi özel donanımlara yatırım (GPU'lar) ve Tensör İşleme Birimleri (TPU'lar), en gelişmiş performansa ulaşmak için LLM'leri oluşturmak ve eğitmek için gereklidir.

Örneğin GPT-3, bir Süper bilgisayar 10000 kurumsal sınıf GPU (H100 ve A100) ve 285,000 CPU çekirdeği ile.

2. Enerji Tüketimi

LLM'ler oluşturmak için gereken yoğun hesaplama kaynakları, önemli miktarda enerji tüketimine neden olur. Örneğin, GPT-175'ün 3 milyar parametreyi eğitmesi 14.8 gün 10,000 milyon GPU saatine eşdeğer 100 V3.55 GPU kullanarak. Bu kadar yüksek bir enerji tüketiminin önemli çevresel etkileri de vardır.

3. Veri Depolama ve Yönetimi

LLM'ler büyük veri kümeleri üzerinde eğitilir. Örneğin, GPT-3 geniş bir metinsel veri külliyatı üzerinde eğitildi. veri, diğer kaynakların yanı sıra Common Crawl, WebText2, Books1, Books2 ve Wikipedia dahil. Bu veri kümelerini toplamak, düzenlemek ve depolamak için önemli altyapı yatırımı gerekir.

Ayrıca, veri depolama için bulut depolama ve veri ön işleme ve sürüm kontrolü için insan uzmanlığı gereklidir. Ayrıca, veri stratejinizin GDPR gibi düzenlemelere uygun olmasını sağlamak da maliyeti artırır.

LiGO Tekniği: Büyük Dil Modelleri Oluşturma Maliyetini Yarıya Düşürün

LiGO (Doğrusal Büyüme Operatörü), LLM'lerin eğitim hesaplama maliyetini %50 azaltmak için MIT'deki araştırmacılar tarafından geliştirilen yeni bir tekniktir. Yöntem, daha küçük önceden eğitilmiş modellerden daha büyük modellerin ağırlıklarının başlatılmasını içerir ve sinir ağlarının verimli bir şekilde ölçeklenmesini sağlar.

Yoon Kim, makalenin kıdemli yazarı diyor ki:

"ChatGPT'nin çalıştırılacağı varsayılan ölçekteki eğitim modellerinin yalnızca tek bir eğitim çalıştırması için milyonlarca dolar alabileceği tahmin ediliyor. İyi modelleri daha kısa sürede ve daha az parayla elde edebilmek için bu eğitim yöntemlerinin verimliliğini artırabilir miyiz? Bunu, önceden eğitilmiş daha küçük dil modellerinden yararlanarak yapmayı öneriyoruz."

Bu yöntem, büyük bir modeli sıfırdan eğitmeye kıyasla daha düşük hesaplama maliyeti ve eğitim süresi ile daha büyük modellerin performans avantajlarını korur. LiGO, optimum performans için derinlik ve genişlik operatörlerini birleştiren, veri odaklı bir doğrusal büyüme operatörü kullanır.

Makale, BERT ve RoBERTa modellerini eğitmek için İngilizce Wikipedia korpusu ve GPT4'yi eğitmek için C2 veri kümesini içeren metin tabanlı deneyler yapmak için çeşitli veri kümeleri kullandı.

LiGO tekniği deneyi, BERT-Small'dan BERT-Base'e, BERT-Base'den BERT-Large'a, RoBERTaSmall'dan RoBERTa-Base'e, GPT2-Base'den GPT2-Medium'a ve CaiT-XS'den CaiT-S'ye büyütmeyi içeriyordu.

Araştırmacılar yaklaşımlarını sıfırdan eğitim, aşamalı eğitim, bert2BERT ve KI dahil olmak üzere diğer bazı temellerle karşılaştırdı.

LiGO tekniği, BERT-Small modelini yeniden kullanarak BERT-Base'i sıfırdan eğitmeye kıyasla FLOP'larda (saniyede kayan nokta işlemleri) %44.7 ve duvar süresinde %40.7 tasarruf sağladı. LiGO büyüme operatörü, verimli eğitimde StackBERT, MSLT, bert2BERT ve KI'den daha iyi performans gösterir.

LiGO Gibi Bir Antrenman Optimizasyonu Tekniği Kullanmanın Faydaları

LiGO, aşağıda listelenen çeşitli faydaları olan verimli bir sinir ağı eğitim yöntemidir:

1. Daha Hızlı Eğitim

Daha önce belirtildiği gibi, daha hızlı eğitim LiGO tekniğinin ana avantajıdır. LLM'leri yarı sürede eğiterek üretkenliği artırır ve maliyetleri düşürür.

2. Kaynak Verimliliği

LiGO, duvar süresini ve FLOP'ları en aza indirdiği için kaynak açısından verimlidir, bu da büyük trafo modellerini eğitmek için daha uygun maliyetli ve çevre dostu bir yaklaşıma yol açar.

3. Genelleme

LiGO tekniği, hem dil hem de görüntü dönüştürücülerinin performansını geliştirmiştir, bu da onun çeşitli görevlere uygulanabilen genelleştirilebilir bir teknik olduğunu düşündürmektedir.

Ticari yapay zeka ürünleri oluşturmak, yapay zeka sistemleriyle ilişkili genel giderlerin yalnızca bir yönüdür. Maliyetlerin bir diğer önemli bileşeni de günlük operasyonlardan kaynaklanmaktadır. Örneğin, OpenAI'ye maliyeti yaklaşık $700,000 ChatGPT kullanarak sorguları yanıtlamak için her gün. Araştırmacıların, LLM'leri eğitim sırasında uygun maliyetli ve çalışma zamanında daha erişilebilir hale getiren yaklaşımları keşfetmeye devam etmesi bekleniyor.

AI ile ilgili daha fazla içerik için şu adresi ziyaret edin: birleştirmek.ai.

Hazika AI ve SaaS şirketleri için teknik içerik yazma konusunda kapsamlı deneyime sahip bir Veri Bilimcisidir.