Yapay Zeka

Verimli Büyük Dil Modelleri için Uzman Karmasının Yükselişi

Yayınlanan 21 Mart, 2024

Güncellenmiş 23 Nisan 2024

Aayush Mittal Mittal

Doğal dil işleme (NLP) dünyasında, daha büyük ve daha yetenekli dil modelleri oluşturma arayışı, son gelişmelerin çoğunun arkasında itici güç olmuştur. Bununla birlikte, bu modellerin boyutları büyüdükçe, eğitim ve çıkarımlara yönelik hesaplama gereksinimleri giderek daha zorlu hale geliyor ve mevcut donanım kaynaklarının sınırlarını zorluyor.

Bu hesaplama yükünü hafifletmeyi ve daha büyük ve daha güçlü dil modellerinin eğitimini mümkün kılmayı vaat eden bir teknik olan Uzman Karışımı (MoE) devreye giriyor. Aşağıda MoE'yi ele alacak, kökenlerini, iç işleyişini ve transformatör tabanlı dil modellerindeki uygulamalarını inceleyeceğiz.

Uzman Karmasının Kökenleri

Uzman Karması (MEB) kavramının kökeni, araştırmacıların bir sinir ağının bazı bölümlerinin girdi verilerine göre seçici olarak etkinleştirildiği koşullu hesaplama fikrini keşfettiği 1990'ların başlarına kadar uzanabilir. Bu alandaki öncü çalışmalardan biri de “Yerel Uzmanların Uyarlanabilir Karışımı” Jacobs ve arkadaşlarının makalesi. 1991'de, her biri girdi alanının farklı bir bölgesinde uzmanlaşmış bir sinir ağları topluluğu için denetimli bir öğrenme çerçevesi öneren.

MoE'nin arkasındaki temel fikir, her biri girdi verilerinin bir alt kümesini işlemekten sorumlu olan birden fazla "uzman" ağa sahip olmaktır. Bir geçit mekanizması, genellikle bir sinir ağının kendisi, belirli bir girdiyi hangi uzmanın/uzmanların işlemesi gerektiğini belirler. Bu yaklaşım, her girdi için tam model kapasitesini kullanmak yerine, her girdi için yalnızca ilgili uzmanları etkinleştirerek modelin hesaplama kaynaklarını daha verimli bir şekilde tahsis etmesine olanak tanır.

Yıllar geçtikçe, çeşitli araştırmacılar koşullu hesaplama fikrini araştırdı ve genişletti; bu, hiyerarşik MoE'ler, koşullu hesaplama için düşük dereceli yaklaşımlar ve stokastik nöronlar ve zor eşikli aktivasyon fonksiyonları aracılığıyla gradyanları tahmin etmeye yönelik teknikler gibi gelişmelere yol açtı.

Transformatörlerde Uzmanların Karması

Uzmanların Karışımı

İken fikri MEB onlarca yıldır ortalıkta olmasına rağmen dönüştürücü tabanlı dil modellerine uygulanması nispeten yenidir. En son teknolojiye sahip dil modelleri için fiili standart haline gelen transformatörler, her biri bir öz-dikkat mekanizması ve bir ileri beslemeli sinir ağı (FFN) içeren çok sayıda katmandan oluşur.

MoE'nin transformatörlere uygulanmasındaki en önemli yenilik, yoğun FFN katmanlarını, her biri birden fazla uzman FFN'den ve bir geçit mekanizmasından oluşan seyrek MoE katmanlarıyla değiştirmektir. Geçitleme mekanizması, her bir giriş jetonunu hangi uzmanın/uzmanların işlemesi gerektiğini belirler ve modelin, belirli bir giriş dizisi için yalnızca bir uzman alt kümesini seçici olarak etkinleştirmesini sağlar.

MoE'nin transformatörlerdeki potansiyelini ortaya koyan ilk çalışmalardan biri, Shazeer ve arkadaşlarının "Çılgın Büyük Sinir Ağları: Seyrek Geçitli Uzman Karışımı Katmanı" makalesiydi. Bu çalışma, uzman seçim sürecine seyreklik ve gürültü ekleyen ve her girdi için yalnızca bir uzman alt kümesinin etkinleştirilmesini sağlayan bir geçit mekanizması kullanan seyrek kapılı MoE katmanı kavramını tanıttı.

O zamandan beri, diğer bazı çalışmalar MoE'nin transformatörlere uygulanmasını daha da geliştirerek eğitim kararsızlığı, yük dengeleme ve verimli çıkarım gibi zorlukları ele aldı. Dikkate değer örnekler şunları içerir: Anahtar Transformatörü (Fedus ve diğerleri, 2021), ST-MoE (Zoph ve diğerleri, 2022) ve Işıltı (Du ve diğerleri, 2022).

Dil Modelleri için Uzman Karmasının Faydaları

Dil modellerinde MoE kullanmanın birincil faydası, çıkarım sırasında nispeten sabit bir hesaplama maliyetini korurken model boyutunu büyütme yeteneğidir. MoE modelleri, her girdi belirteci için yalnızca bir uzman alt kümesini seçici olarak etkinleştirerek, önemli ölçüde daha az hesaplama gerektirirken çok daha büyük yoğun modellerin ifade gücüne ulaşabilir.

Örneğin, 7 milyar parametreden oluşan yoğun bir FFN katmanına sahip bir dil modelini düşünün. Bu katmanın yerine her biri 7 milyar parametreden oluşan sekiz uzmandan oluşan bir MEB katmanı koyarsak toplam parametre sayısı 56 milyara çıkıyor. Ancak çıkarım sırasında, jeton başına yalnızca iki uzmanı etkinleştirirsek, hesaplama maliyeti, 14 milyar parametreli iki matris çarpımını hesapladığı için 7 milyar parametre yoğun bir modele eşdeğer olur.

Çıkarım sırasındaki bu hesaplama verimliliği, mobil cihazlar veya uç bilgi işlem ortamları gibi kaynakların sınırlı olduğu dağıtım senaryolarında özellikle değerlidir. Ek olarak, eğitim sırasında azaltılan hesaplama gereksinimleri, sürdürülebilir yapay zeka uygulamalarına artan vurguyla uyumlu olarak önemli miktarda enerji tasarrufu ve daha düşük karbon ayak izi sağlayabilir.

Zorluklar ve Düşünceler

MoE modelleri etkileyici faydalar sunarken, bunların benimsenmesi ve uygulanması da çeşitli zorlukları ve hususları beraberinde getiriyor:

Eğitim İstikrarsızlığı: MoE modellerinin yoğun muadillerine göre eğitim istikrarsızlıklarına daha yatkın olduğu bilinmektedir. Bu sorun, uzman aktivasyonlarının seyrek ve koşullu doğasından kaynaklanmakta olup, bu da gradyan yayılımı ve yakınsama konusunda zorluklara yol açabilmektedir. Bu kararsızlıkları azaltmak için yönlendirici z-kaybı (Zoph ve diğerleri, 2022) gibi teknikler önerilmiştir, ancak hala daha fazla araştırmaya ihtiyaç vardır.
İnce Ayarlama ve Aşırı Uyum: MoE modelleri, özellikle aşağı yönlü görev nispeten küçük bir veri kümesine sahip olduğunda, ince ayar sırasında daha kolay aşırı uyum sağlama eğilimindedir. Bu davranış, eğitim verileri üzerinde aşırı uzmanlaşmaya yol açabilecek MEB modellerinin artan kapasitesi ve seyrekliğine bağlanmaktadır. Bu sorunu azaltmak için dikkatli düzenleme ve ince ayar stratejileri gereklidir.
Bellek Gereksinimleri: MoE modelleri çıkarım sırasında hesaplama maliyetlerini azaltabilirken, benzer boyuttaki yoğun modellerle karşılaştırıldığında genellikle daha yüksek bellek gereksinimlerine sahiptirler. Bunun nedeni, her giriş için yalnızca bir alt kümenin etkinleştirilmesine rağmen tüm uzman ağırlıklarının belleğe yüklenmesinin gerekmesidir. Bellek kısıtlamaları, MoE modellerinin kaynak kısıtlı cihazlardaki ölçeklenebilirliğini sınırlayabilir.
Yük dengeleme: Optimum hesaplama verimliliğine ulaşmak için, uzmanlar arasındaki yükü dengelemek, hiçbir uzmanın aşırı yüklenmemesini ve diğerlerinin yeterince kullanılmamasını sağlamak çok önemlidir. Bu yük dengeleme genellikle eğitim sırasındaki yardımcı kayıplar ve her bir uzmana atanabilecek maksimum token sayısını belirleyen kapasite faktörünün dikkatli bir şekilde ayarlanması yoluyla sağlanır.
İletişim Ek Yükü: Dağıtılmış eğitim ve çıkarım senaryolarında MoE modelleri, farklı cihazlarda veya hızlandırıcılarda ikamet eden uzmanlar arasında aktivasyon ve gradyan bilgilerinin paylaşılması ihtiyacı nedeniyle ek iletişim yükü getirebilir. Bu yükü azaltmak için verimli iletişim stratejileri ve donanıma duyarlı model tasarımı çok önemlidir.

Bu zorluklara rağmen, MoE modellerinin daha büyük ve daha yetenekli dil modellerini mümkün kılmadaki potansiyel faydaları, bu sorunları ele almak ve hafifletmek için önemli araştırma çabalarını teşvik etmiştir.

Örnek: Mixtral 8x7B ve GLaM

MoE'nin dil modellerinde pratik uygulamasını göstermek için iki önemli örneği ele alalım: Mixtral 8x7B ve GLaM.

Mixtral 8x7B, MoE'nin bir çeşididir. Mistral dil modeliAntropik tarafından geliştirilmiştir. Her biri 7 milyar parametreden oluşan ve toplam 56 milyar parametreye sahip sekiz uzmandan oluşur. Bununla birlikte, çıkarım sırasında, jeton başına yalnızca iki uzman etkinleştirilir ve bu da hesaplama maliyetini 14 milyar parametre yoğun bir modelin maliyetine etkili bir şekilde düşürür.

Mixtral 8x7B, çok daha hızlı çıkarım süreleri sunarken 70 milyar parametreli Llama modelinden daha iyi performans göstererek etkileyici bir performans sergiledi. Mixtral 8x7B'nin Mixtral-8x7B-Instruct-v0.1 adı verilen talimat ayarlı bir sürümü de piyasaya sürüldü ve doğal dil talimatlarını takip etme yeteneklerini daha da geliştirdi.

Dikkate değer bir diğer örnek ise Google tarafından geliştirilen büyük ölçekli bir MoE modeli olan GLaM'dir (Google Dil Modeli). GLaM, yalnızca kod çözücüye yönelik bir transformatör mimarisi kullanır ve 1.6 trilyonluk devasa bir token veri kümesi üzerinde eğitilmiştir. Model, GPT-3'ü eğitmek için gereken enerjinin yalnızca üçte birini kullanırken, birkaç atışlı ve tek atışlı değerlendirmelerde GPT-3'ün kalitesiyle eşleşerek etkileyici bir performans elde ediyor.

GLaM'ın başarısı, çok sayıda parametreye sahip bir modelin makul hesaplama gereksinimlerini koruyarak eğitilmesine olanak tanıyan verimli MoE mimarisine bağlanabilir. Model ayrıca, MoE modellerinin yoğun muadillerine kıyasla daha enerji verimli ve çevresel olarak sürdürülebilir olma potansiyelini de göstermiştir.

Grok-1 Mimarisi

GROK UZMAN KARIŞIMI

Grok-1 Verimliliği ve performansı en üst düzeye çıkarmak için tasarlanmış benzersiz bir mimariye sahip, trafo tabanlı bir MoE modelidir. Temel özelliklerine bir göz atalım:

Parametreler: Şaşırtıcı 314 milyar parametreyle Grok-1 bugüne kadarki en büyük açık LLM'dir. Ancak MoE mimarisi sayesinde ağırlıkların yalnızca %25'i (yaklaşık 86 milyar parametre) herhangi bir zamanda aktif olup, işlem yeteneklerini artırır.
mimari: Grok-1, her bir tokenin çıkarım sırasında iki uzman tarafından işlendiği bir 8 Uzman Karması mimarisini kullanır.
Katmanlar: Model, her biri çok kafalı dikkat ve yoğun blokları bünyesinde barındıran 64 transformatör katmanından oluşmaktadır.
dizgeciklere: Grok-1, kelime dağarcığı boyutu 131,072 jeton olan bir SentencePiece jetonlayıcı kullanır.
Gömmeler ve Konumsal Kodlama: Modelde 6,144 boyutlu yerleştirmeler bulunur ve geleneksel sabit konumsal kodlamalara kıyasla verilerin daha dinamik bir şekilde yorumlanmasına olanak tanıyan döner konumsal yerleştirmeler kullanılır.
Dikkat: Grok-1, sorgular için 48 dikkat kafası ve anahtarlar ve değerler için her biri 8 boyutunda 128 dikkat kafası kullanır.
Bağlam Uzunluğu: Model, verimli hesaplama için bfloat8,192 hassasiyetini kullanarak 16 token uzunluğa kadar dizileri işleyebilir.

Performans ve Uygulama Detayları

Grok-1, %2'lük MMLU puanıyla LLaMa 70 8B ve Mixtral 7x73B'den daha iyi performans göstererek etkileyici bir performans sergiledi ve çeşitli testlerde verimliliğini ve doğruluğunu sergiledi.

Ancak, Grok-1'in devasa boyutu nedeniyle önemli GPU kaynakları gerektirdiğini belirtmek önemlidir. Açık kaynaklı sürümdeki mevcut uygulama, modelin doğruluğunu doğrulamaya odaklanıyor ve özel çekirdeklere ihtiyaç duymamak için verimsiz bir MoE katman uygulaması kullanıyor.

Bununla birlikte model, performansı optimize edebilen ve bellek gereksinimlerini azaltabilen aktivasyon parçalamayı ve 8 bit nicelemeyi destekler.

Dikkat çekici bir hamleyle, xAI, Grok-1'i piyasaya sürdü Apache 2.0 lisansı altında, ağırlıklarını ve mimarisini kullanım ve katkılar için küresel topluluğun erişimine açık hale getiriyor.

Açık kaynaklı sürüm, Grok-1 modelinin nasıl yüklenip çalıştırılacağını gösteren bir JAX örnek kod deposu içerir. Kullanıcılar, bir torrent istemcisi kullanarak veya doğrudan HuggingFace Hub aracılığıyla kontrol noktası ağırlıklarını indirebilir ve bu çığır açan bu modele kolay erişimi kolaylaştırır.

Dil Modellerinde Uzman Karmasının Geleceği

Daha büyük ve daha yetenekli dil modellerine olan talep artmaya devam ettikçe MoE tekniklerinin benimsenmesinin daha da ivme kazanması bekleniyor. Devam eden araştırma çabaları, eğitim stabilitesinin iyileştirilmesi, ince ayar sırasında aşırı uyumun azaltılması ve bellek ve iletişim gereksinimlerinin optimize edilmesi gibi geri kalan zorlukların ele alınmasına odaklanmaktadır.

Gelecek vaat eden yönlerden biri, her uzmanın birden fazla alt uzmandan oluştuğu hiyerarşik MoE mimarilerinin araştırılmasıdır. Bu yaklaşım, büyük modellerin ifade gücünü korurken potansiyel olarak daha fazla ölçeklenebilirlik ve hesaplama verimliliği sağlayabilir.

Ayrıca MEB modelleri için optimize edilmiş donanım ve yazılım sistemlerinin geliştirilmesi de aktif bir araştırma alanıdır. MoE modellerinin seyrek ve koşullu hesaplama modellerini verimli bir şekilde ele almak üzere tasarlanmış özel hızlandırıcılar ve dağıtılmış eğitim çerçeveleri, performanslarını ve ölçeklenebilirliklerini daha da artırabilir.

Ayrıca, MoE tekniklerinin dil modellemedeki seyrek dikkat mekanizmaları, etkili tokenizasyon stratejileri ve çok modlu temsiller gibi diğer ilerlemelerle entegrasyonu, çok çeşitli görevlerin üstesinden gelebilen daha güçlü ve çok yönlü dil modellerinin ortaya çıkmasına yol açabilir.

Sonuç

Uzmanların Karması tekniği, daha büyük ve daha yetenekli dil modelleri arayışında güçlü bir araç olarak ortaya çıkmıştır. MoE modelleri, girdi verilerine dayalı olarak uzmanları seçerek etkinleştirerek, yoğun modellerin ölçeğinin büyütülmesiyle ilgili hesaplama zorluklarına umut verici bir çözüm sunar. Eğitim kararsızlığı, aşırı uyum ve bellek gereksinimleri gibi hâlâ aşılması gereken zorluklar olsa da, MoE modellerinin hesaplama verimliliği, ölçeklenebilirlik ve çevresel sürdürülebilirlik açısından potansiyel faydaları, onları heyecan verici bir araştırma ve geliştirme alanı haline getiriyor.

Doğal dil işleme alanı mümkün olanın sınırlarını zorlamaya devam ederken, MoE tekniklerinin benimsenmesinin yeni nesil dil modellerinin etkinleştirilmesinde önemli bir rol oynaması muhtemeldir. MoE'yi model mimarisi, eğitim teknikleri ve donanım optimizasyonundaki diğer gelişmelerle birleştirerek, insanları gerçekten anlayabilen ve onlarla doğal ve kusursuz bir şekilde iletişim kurabilen daha güçlü ve çok yönlü dil modellerini sabırsızlıkla bekleyebiliriz.

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.

Unite.AI