Yapay Zeka
BlackMamba: Durum-Uzay Modelleri için Uzmanların Karması
Yalnızca kod çözücü transformatör modellerinden oluşturulan Büyük Dil Modellerinin (LLM'ler) geliştirilmesi, Doğal Dil İşleme (NLP) alanının dönüştürülmesinde ve ayrıca aşağıdakiler de dahil olmak üzere çeşitli derin öğrenme uygulamalarını geliştirmede önemli bir rol oynamıştır. takviye öğrenme, zaman serisi analizi, görüntü işleme ve çok daha fazlası. Ancak ölçeklenebilirliklerine ve güçlü performanslarına rağmen, yalnızca kod çözücü transformatör modellerinden oluşturulan LLM'ler hala önemli eksikliklerle karşı karşıyadır. Anlamlı olmasına rağmen, transformatörden türetilen LLM'lerdeki dikkat mekanizması, hem çıkarım hem de eğitim sırasında yüksek hesaplama kaynakları gerektirir; bu da dizi uzunluğu ve ikinci dereceden FLOP'lar için önemli miktarda bellek gerektirir. Bu yüksek hesaplama gereksinimi, transformatör modellerinin bağlam uzunluğunu sınırlandırarak, otoregresif üretim görevlerini ölçekle orantılı olarak pahalı hale getirir ve sürekli veri akışlarından öğrenmeyi ve gerçek anlamda sınırsız dizi işleme yeteneğini engeller.
Son zamanlarda, Durum Uzay Modelleri (SSM'ler), dizi uzunluğu ve doğrusal zamanın bir fonksiyonu olarak bellek karmaşıklığına ulaşırken, büyük ölçekli modelleme kıyaslamalarında transformatör mimarisi modelleriyle rekabet ederek olağanüstü yetenekler ve performans sergilemiştir. Üstelik yakın zamanda piyasaya sürülen Durum Uzay Modeli Mamba, bir dizi dil modelleme ve uzun dizili işleme görevlerinde olağanüstü performans gösterdi. Eş zamanlı olarak, Uzman Karışımı (MoE) modelleri de etkileyici bir performans sergilerken, daha büyük bellek alanı pahasına da olsa, çıkarımın gecikmesini ve hesaplama maliyetlerini önemli ölçüde azalttı. Mamba ve MoE modellerini temel alan bu makalede, her iki çerçevenin sunduğu avantajlardan yararlanmak için Mamba Durum Uzay Modelini MoE modelleriyle birleştiren yeni bir mimari olan BlackMamba tartışılacaktır. BlackMamba üzerinde yapılan deneyler, hem FLOP eğitimlerinde hem de çıkarımlarda mevcut Mamba çerçevesinden ve transformatör temellerinden daha iyi performans gösterme yeteneğini göstermiştir. BlackMamba çerçevesinin olağanüstü performansı, Mamba ve MoE çerçevelerinin yeteneklerini etkili bir şekilde birleştirebildiğini ve Mamba'dan doğrusal karmaşıklık oluşturma ile MoE'den hızlı ve uygun maliyetli çıkarım sunabildiğini göstermektedir.
Bu makale, BlackMamba çerçevesini derinlemesine ele almayı amaçlamaktadır. Çerçevenin mekanizmasını, metodolojisini ve mimarisini inceliyor ve en son teknoloji görüntü ve video oluşturma çerçeveleriyle karşılaştırıyoruz. Haydi başlayalım.
BlackMamba: Durum Uzayı Modelleri için MoE'ye Giriş
Büyük Dil Modellerinin (LLM'ler), özellikle de yalnızca kod çözücü transformatör mimarilerine dayalı olanların ilerlemesi, Doğal Dil İşleme (NLP) takviyeli öğrenme, zaman serisi analizi, görüntü işleme ve ötesi dahil olmak üzere çeşitli derin öğrenme uygulamalarına genişletildi. Bununla birlikte, ölçeklenebilirliklerine ve sağlam performanslarına rağmen, bu yalnızca kod çözücüye dayalı transformatör tabanlı LLM'ler dikkate değer zorluklarla karşı karşıyadır. Transformatör tabanlı eğitimin temel özelliği olan dikkat mekanizması LLM'lers, hem çıkarım hem de eğitim için kapsamlı hesaplama kaynakları gerektirir. Bu, dizi uzunluğuyla birlikte büyüyen bir bellek ve ikinci dereceden artan hesaplama işlemleri (FLOP'lar) ihtiyacını içerir. Bu tür yoğun hesaplama gereksinimleri, modellerin bağlam uzunluğunu kısıtlar, model ölçeklendikçe otoregresif üretim görevlerinin maliyetlerini artırır ve modellerin sürekli veri akışlarından öğrenme veya sınırsız uzunluktaki dizileri verimli bir şekilde işleme becerisini engeller.
Son birkaç yılda bu sınırlamaların üstesinden gelmek için önemli çabalar sarf edilmiş ve dikkat, kanonik yoğun dikkat dönüştürücü modellerine mimari alternatifler geliştirmeye kaydırılmıştır; SSM'ler ve MoE modelleri en umut verici aday mimarilerdir. Dönüştürücü mimari modelleri yerine Durum Uzayı Modellerini tercih etmenin sağladığı temel fayda, dönüştürücülerin sunduğu ikinci dereceden karmaşıklığın aksine, SSM'lerin sunduğu giriş dizisi uzunluğuna göre doğrusal hesaplama karmaşıklığıdır. Teorik olarak, giriş dizisi uzunluğuna göre doğrusal hesaplama karmaşıklığı, Durum Uzayı Modellerinin belirli bir FLOPS veya saniye başına kayan nokta işlemleri bütçesi için dönüştürücü mimarisi modellerinden daha büyük dizileri işlemesini ve KV önbelleği olmadan hesaplamada otoregresif üretimi sabit hale getirmesini sağlar. Mamba, RetNet ve birkaç başkası dahil olmak üzere yakın zamanda geliştirilen Durum Uzayı Modelleri, benzer ölçekleme özelliklerine sahip dönüştürücülerle rekabetçi dil modelleme görevi performansının yanı sıra verimli uzun dizi çıkarımı ve eğitimi göstermiştir. Öte yandan, Uzman Karışımı model mimarileri, yoğun bir modele benzer bir kalite elde etmek için gerekli olan çıkarım ve FLOP eğitiminde önemli bir azalma sağladığı için yoğun dönüştürücülere alternatif olarak popülerlik kazanmaktadır. MoE (Uzman Karışımı) modelleri, tek bir ileri geçiş sırasında toplam parametrelerin yalnızca seyrek bir seçimini etkinleştirerek çalışır. Verilen bağlama göre hangi "uzmanların" harekete geçirileceğini belirlemek için bir yönlendirme işlevi kullanırlar. Bu yaklaşım, çıkarımın hesaplama maliyeti ile toplam parametre sayısı arasında bir ayrım yaratarak, sabit bir çıkarım bütçesi dahilinde, daha fazla parametre ve daha fazla bellek gereksinimiyle de olsa, gelişmiş performans sağlar.
Mimarideki bu ilerleme, geleneksel transformatörlere göre kayda değer faydalar sunmakta ve daha fazla gelişme için heyecan verici bir yönü temsil etmektedir. Bu geliştirmelerin birleşik bir Mamba-MoE modeline entegre edilmesinin, dil modelleme yeteneklerini ve verimliliğini standart transformatör modellerinin ötesinde önemli ölçüde hızlandırabileceğini düşünüyoruz. Geleneksel yoğun transformatör modeline kıyasla Mamba-MoE mimarisinin beklenen avantajları şunlardır:
Mamba: Hem eğitim hem de çıkarım aşamaları için giriş dizisi uzunluğuna göre doğrusal hesaplama karmaşıklığına ulaşır. Otoregresif oluşturmanın sabit bir zaman çerçevesinde ve sabit bellek kullanımıyla gerçekleşmesini sağlar.
MoE: Daha küçük, yoğun bir temel modelle karşılaştırılabilir çıkarım hızı ve eğitim hesaplama verimliliği sunarken, daha yoğun sürümle eşdeğer sayıda parametreye sahip bir modelinkine rakip olan bir model kalitesi düzeyini korur.
Bununla birlikte, transformatör mimari modellerinin hala en ileri teknoloji olduğunu ve dil modelleme görevleri ve sıra işleme görevlerinde tutarlı ve dikkate değer güçlü performans sergilediğini belirtmek önemlidir. Transformatör mimarisi, özünde, farklı belirteçlerin bir diziye yerleştirilmesi arasındaki nokta çarpım benzerliklerinin ikinci dereceden genel bir karşılaştırmasını gerçekleştiren ve bir çıktı vektörüne doğrusal bir harita gerçekleştiren öz-dikkati kullanır. Transformatör modeli, MLP veya Çok Katmanlı Perceptron blokları arasında istiflenmiş ve ayrıca belirli bir aktivasyon fonksiyonuna sahip iki katmanlı bir MLP'den oluşan öz dikkat bloklarından oluşur.
BlackMamba : Mimarlık ve Metodoloji
Durum Uzay Modelleri
Durum Uzayı Modelleri, giriş dizisinin uzunluğuna göre doğrusal karmaşıklığa sahip dizi modelleri grubuna aittir. Durum Uzayı Modellerinin mimarisi, dikkat temelli mimariden ziyade Tekrarlayan Sinir Ağları ve Evrişimli Sinir Ağları ile daha fazla uyum sağlar ve örtülü bir gizli uzay yoluyla 1 boyutlu bir işlevi haritalayan sürekli bir dinamik sistemden ilham alır. Doğrusal bir dinamik sistem, ilişkisel veya evrişim taraması kullanarak paralel hesaplamaları verimli hale getirir. Pratik senaryolarda, Durum Uzay Modellerinin yinelenen doğası, GPU'lar gibi oldukça paralel yapay zeka donanımlarında hala benimsenmesinin nedeni olmuştur. Ancak RWKV gibi SSM'lerin ortaya çıkışı ve Mamba Tekrarlanan işlemleri GPU'lara verimli bir şekilde eşlemek için paralel tarama çekirdekleri kullandılar, böylece transformatör modelleriyle elde edilenlerle karşılaştırılabilecek verimlilikte yeni mimarilerin eğitimini kolaylaştırdılar.
Transformatörlerdeki dizi uzunluğuna ilişkin doğal ikinci dereceden karmaşıklık, çok uzun bağlamlarda akıl yürütmeyi ve kavramayı engelleyen, iyi bilinen bir sınırlamadır. Son yenilikler, bağlam uzunluğunun genişletilmesi fikrini sunarak transformatörlerin çıkarım sırasında çok daha uzun bağlamlara uygulanmadan önce uygun bir ölçekte eğitilmesine olanak tanıdı. Bu gelişmelere rağmen, çıkarım süreci, özellikle Anahtar-Değer (KV) önbelleğinin bakımı için hala önemli miktarda hesaplama kaynağı ve bellek gerektiriyor ve bu da onu kaynak yoğun bir çaba haline getiriyor. Son zamanlardaki araştırma çabaları, dikkat mekanizmalarında bulunan Sorgu, Anahtar, Değer (QKV) matrislerine benzer şekilde girdiye bağlı geçiş mekanizmalarını birleştirerek durum-uzay modellerinin ifade yeteneklerini geliştirmeye odaklanmıştır.
Bu çabalar, durum-uzay yinelemesinin doğası gereği doğrusal ilerleyişini korumayı amaçlayarak, evrişim veya seçici bir tarama işlemi yoluyla verimli yürütmeye olanak tanır. Bu yaklaşım, pratik uygulamalarda transformatörlerle olan performans eşitsizliğini önemli ölçüde daraltır. Bu gelişmeler arasında Mamba, önceki araştırmaların hedeflerini yansıtan, 2.8 milyar parametreye kadar ölçeklerde transformatörlerle karşılaştırılabilecek etkileyici performans seviyeleri gösteren bir durum-uzay modeli olarak öne çıkıyor. Bunu, durum-uzay modeli (SSM) özyinelemesinin girişlerine girdiye bağlı geçit uygulayarak ve aynı zamanda özel seçici tarama çekirdeklerinin kullanımı yoluyla verimli hesaplama sağlayarak başarır.
Uzman Modellerin Karışımı
Uzman Karışımı (MoE) modelleri, ileri geçiş sırasında parametreleri seçici olarak etkinleştirerek çıkarım maliyeti ile toplam parametre sayısı arasında bir ayrım sağlar. Bu modeller, tüm parametreleri kullanmak yerine belirteçleri belirli Çok Katmanlı Algılayıcı (MLP) uzmanlarına yönlendirir. İdeal olarak, her uzman, her bir token için en uygun uzmanı belirleyen, esasen kompakt bir sinir ağı olan bir yönlendirme mekanizmasıyla belirli bir girdi türünü işleyecek şekilde uyarlanır. Bu yaklaşım, daha yoğun bir konfigürasyonda eşdeğer sayıda parametreye sahip, ancak önemli ölçüde azaltılmış hesaplama gereksinimlerine sahip bir modelin kapsamlı ifade gücünü korumayı amaçlamaktadır. Tipik olarak yönlendirici, her uzmanın basitçe standart bir transformatör Çok Katmanlı Perceptron olduğu, jetonlardan uzman endekslerine kadar doğrusal katmanların bir eşlemesidir. Bununla birlikte, uzman atama sorunu ayırt edilemediğinden ve Uzman Karması modelleri genellikle donanım verimliliği için farklı uzmanlar arasında yük dengeleme ve eğitim istikrarı konusunda zorluk yaşadığından, geliştiriciler yönlendirici için en uygun eğitim yöntemini henüz çözemediler.
mimari
BlackMamba özünde, aralıklı MLP bloklarından ve bir artık akış boyunca sırayla eklenen dikkat bloklarından oluşan standart bir transformatör modelini kullanır. Artık Uzman Karışımı modellerinin çoğunluğu, çok katmanlı algılayıcı bloklarını yönlendirilmiş bir uzman katmanıyla değiştiriyor. Öte yandan, BlackMamba çerçevesi yalnızca transformatördeki çok katmanlı algılayıcı bloğunu yönlendirilmiş bir uzman katmanla değiştirmekle kalmıyor, aynı zamanda dikkat katmanını da bir Mamba Durum Uzay Modeli katmanıyla değiştiriyor. BlackMamba çerçevesinin mimarisi aşağıdaki şekilde gösterilmektedir.
Eğitim ve Veri Kümesi
BlackMamba modeli, özel bir veri kümesindeki 300 milyardan fazla jetonla eğitilir ve uzman çok katmanlı algılayıcılar için SwiGLU aktivasyon fonksiyonunu kullanır. Çerçeve, geliştiricilerin doğru dengeyi bulduğu ve modelin bellek ayak izi ile çıkarım maliyeti arasında denge kurduğu 8 uzmanla eğitim veriyor. BlackMamba çerçevesini eğitmek için kullanılan özel veri kümesi, Starcoder, SlimPajama, Pile ve daha fazlasını içeren halihazırda mevcut açık kaynaklı veri kümelerinin bir karışımından oluşur. Aşağıdaki tablo, BlackMamba çerçevesini eğitmek için kullanılan her bir veri kümesinin ağırlıklarını göstermektedir. Genel olarak veri setinde 1.8 trilyon token bulunuyor.
BlackMamba : Sonuçlar
Mamba ve BlackMamba arasında adil bir karşılaştırma sağlamak için geliştiriciler, her iki modeli de aynı eğitim verileri üzerinde aynı eğitim parametreleriyle eğitti. BlackMamba çerçevesi, çıkarım zamanında aynı ileri geçiş modeli boyutu ve saniye başına Kayan nokta işlemleri eğitimi açısından hem Mamba hem de transformatör modellerinden daha iyi performans gösterebilir. Aşağıdaki şekil, dizi uzunluğunun bir fonksiyonu olarak, başlangıçtaki tek belirteçli bir komut isteminden belirli bir uzunluktaki bir diziyi otoregresif olarak oluşturmak için geçen süreyi gösterir.

Ayrıca, Mixture of Expert ve Mamba modellerinin gecikme avantajları BlackMamba çerçevesinde bir araya getirilerek transformatör modelleri, saf Mamba modelleri ve MoE modelleriyle karşılaştırıldığında önemli ölçüde daha hızlı çıkarım süreleri elde edilir. Ayrıca, BlackMamba çerçevesinin çıkarım avantajı dizi uzunluklarıyla doğru orantılıdır ve bu da BlackMamba'yı uzun dizi oluşturmada son derece etkili kılar. Devam edersek, aşağıdaki şekil sırasıyla 340 milyon ve 640 milyon parametreyle BlackMamba modellerine atanan token sayısını göstermektedir. Görüldüğü üzere katmanların çoğunluğu, BlackMamba modellerinin uyguladığı geliştirilmiş Sinkhorn algoritmasının bir sonucu olarak yüksek seviyede uzman dengesi göstermektedir.

Aşağıdaki tablo, BlackMamba çerçevesinin çeşitli açık kaynaklı, önceden eğitilmiş dil modelleriyle karşılaştırılan değerlendirme puanlarını içermektedir. Gözlemlenebileceği gibi, BlackMamba çerçevesi tüm temellerde çerçevelerin çoğunluğuyla rekabet edebilmekte ve onlardan daha iyi performans gösterebilmektedir. Ayrıca, BlackMamba'dan daha iyi performans gösteren modellerin oldukça yüksek sayıda parametreye sahip olması ve performans farkının minimum düzeyde olması, BlackMamba çerçevesinin daha az parametreyle yeteneğini gösterdiğini belirtmekte fayda var.

Son Düşüncelerimiz
Bu makalede, her iki çerçevenin sunduğu avantajlardan yararlanmak için Mamba Durum Uzay Modelini Uzman Karması modelleriyle birleştiren yeni bir mimari olan BlackMamba'dan bahsettik. BlackMamba üzerinde yapılan deneyler, hem FLOP eğitimlerinde hem de çıkarımlarda mevcut Mamba çerçevesinden ve transformatör temellerinden daha iyi performans gösterdiğini göstermiştir. BlackMamba çerçevesinin olağanüstü performansı, MoE'den ucuz ve hızlı çıkarımı Mamba'dan doğrusal karmaşıklık üretimiyle birleştirdiğinden, Mamba ve MoE çerçevelerinin yeteneklerini olağanüstü derecede iyi bir şekilde devralabildiğini ve birleştirebildiğini göstermektedir. BlackMamba çerçevesinin mimarisinin, FLOP'ların eğitimi ve çıkarım maliyeti açısından güçlü eğitilmiş Büyük Dil Modellerinden, mevcut Mamba çerçevesinden ve Uzman Karması modellerinden nasıl daha iyi performans gösterebildiğinden bahsettik. Ayrıca, BlackMamba çerçevesi aynı zamanda hem Uzman Karışımı modellerinden hem de Mamba çerçevesinden nesil FLOP'ları ve azaltılmış eğitimi devralır.












