Yapay Zekâ
xLSTM: Uzatılmış Uzun Kısa Süreli Hafıza Kapsamında Kapsamlı Bir Rehber
Kökenleri Anlama: LSTM’in Sınırlılıkları
xLSTM dünyasına dalmadan önce, geleneksel LSTM mimarilerinin karşılaştığı sınırlılıkları anlamak önemlidir. Bu sınırlılıklar, xLSTM ve diğer alternatif yaklaşımların geliştirilmesinin arkasındaki itici güç olmuştur.
- Depolanan Bilgileri Gözden Geçirememe: LSTM’in birincil sınırlılıklarından biri, depolanan değerleri daha benzer bir vektörle karşılaşıldığında gözden geçirememesidir. Bu, depolanan bilgilere dinamik güncellemeler gerektiren görevlerde alt düzey performanslara yol açabilir.
- Sınırlı Hafıza Kapasiteleri: LSTMs, bilgileri skaler hücre durumlarına sıkıştırır, bu da nadir tokenlerle veya uzun menzilli bağımlılıklarla başa çıkmada etkili bir şekilde depolama ve geri alma yeteneklerini sınırlayabilir.
- Paralelleştirme Eksikliği: LSTMs’deki hafıza karıştırma mekanizması, zaman adımları arasındaki gizli-gizli bağlantılar nedeniyle sıralı işleme zorlar ve hesaplamaların paralelleştirilmesini engeller, bu da ölçeklenebilirliği sınırlar.
Bu sınırlılıklar, özellikle daha büyük modellere ölçeklenirken, belirli yönlerde LSTMs’i aşan Transformer ve diğer mimarilerin ortaya çıkmasına yol açmıştır.
xLSTM Mimarisi
xLSTM’in çekirdeğinde, geleneksel LSTM çerçevesine iki ana değişiklik bulunmaktadır: üssü geçit ve yeni hafıza yapıları. Bu geliştirmeler, sLSTM (skaler LSTM) ve mLSTM (matris LSTM) olarak bilinen iki yeni LSTM varyantını tanıtır.
- sLSTM: Skaler LSTM ile Üssü Geçit ve Hafıza Karışması
- Üssü Geçit: sLSTM, girdi ve unutma kapıları için üssü aktivasyon fonksiyonlarını içerir, böylece bilgi akışını daha esnek bir şekilde kontrol edebilir.
- Normalleştirme ve Kararlılık: Sayısal kararsızlıkları önlemek için, sLSTM bir normalleştirici durum tanır, bu durum girdi kapılarının ve gelecek unutma kapılarının ürününü izler.
- Hafıza Karışması: sLSTM, birden fazla hafıza hücresi destekler ve hafıza karışmasını tekrarlayan bağlantılar aracılığıyla sağlar, böylece karmaşık desenlerin çıkarılması ve durum takibi yetenekleri ermöglicht.
- mLSTM: Matris LSTM ile Geliştirilmiş Depolama Kapasiteleri
- Matris Hafızası: mLSTM, skaler bir hafıza hücresi yerine bir matris hafızası kullanır, bu da depolama kapasitesini artırır ve bilgi geri alınmasını daha verimli hale getirir.
- Kovaryans Güncelleme Kuralı: mLSTM, Bidirectional Associative Memories (BAMs)’den esinlenen bir kovaryans güncelleme kuralı kullanır, böylece anahtar-değer çiftlerini verimli bir şekilde depolayabilir ve geri alabilir.
- Paralelleştirme: Hafıza karıştırmasını terk ederek, mLSTM tam paralelleştirme sağlar, modern hızlandırıcılar上的 verimli hesaplamaları ermöglicht ve daha büyük modellere ölçeklenebilirliği sağlar.
Bu iki varyant, sLSTM ve mLSTM, artıklar blokları olarak birleştirilebilir, böylece xLSTM blokları oluşturulur. Bu xLSTM bloklarını artıklarla yığarak, araştırmacılar, belirli görevler ve uygulama alanları için güçlü xLSTM mimarileri oluşturabilir.
Matematik
Geleneksel LSTM:
Orijinal LSTM mimarisi, sürekli hata karnavalı ve geçit mekanizmalarını, tekrarlayan sinir ağlarındaki kaybolan gradyan sorununu aşmak için tanıttı.

LSTM’deki tekrarlayan modül – Kaynak
LSTM hafıza hücresi güncellemeleri aşağıdaki denklemlerle yönetilir:
Hücre Durumu Güncellemesi: ct = ft ⊙ ct-1 + it ⊙ zt
Gizli Durum Güncellemesi: ht = ot ⊙ tanh(ct)
Nerede:
- 𝑐𝑡 zaman 𝑡deki hücre durumu vektörüdür
- 𝑓𝑡 unutma kapısı vektörüdür
- 𝑖𝑡 girdi kapısı vektörüdür
- 𝑜𝑡 çıktı kapısı vektörüdür
- 𝑧𝑡 girdi kapısı tarafından modüle edilen girdidir
- ⊙ öğe öğe çarpımı temsil eder
Kapılardaki ft, it ve ot, hücre durumundan ne kadar bilgi depolanacağı, unutulacağı ve çıkarılacağına karar verir, böylece kaybolan gradyan sorununu hafifletir.
xLSTM ile Üssü Geçit:
xLSTM mimarisi, bilgi akışını daha esnek bir şekilde kontrol etmeyi sağlayan üssü geçidi tanıtır. sLSTM varyantı için:
Hücre Durumu Güncellemesi: ct = ft ⊙ ct-1 + it ⊙ zt
Normalleştirici Durum Güncellemesi: nt = ft ⊙ nt-1 + it
Gizli Durum Güncellemesi: ht = ot ⊙ (ct / nt)
Girdi ve Unutma Kapıları: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) veya ft = exp(W_f xt + R_f ht-1 + b_f)
Girdi (it) ve unutma (ft) kapıları için üssü aktivasyon fonksiyonları, birlikte normalleştirici durum nt ile, depolanan bilgilere daha etkili bir şekilde müdahale etmeyi ve gözden geçirmeyi sağlar.
xLSTM’in Ana Özellikleri ve Avantajları
- Depolanan Bilgileri Gözden Geçirebilme: Üssü geçit sayesinde, xLSTM depolanan değerleri daha ilgili bir vektörle karşılaşıldığında etkili bir şekilde gözden geçirebilir, böylece geleneksel LSTMs’in önemli bir sınırlılığını aşar.
- Geliştirilmiş Depolama Kapasiteleri: mLSTM’deki matris hafızası, depolama kapasitesini artırır, böylece xLSTM nadir tokenlerle, uzun menzilli bağımlılıklarla ve karmaşık veri desenleriyle daha etkili bir şekilde başa çıkabilir.
- Paralelleştirme: mLSTM varyantı tam paralelleştirme sağlar, modern hızlandırıcılar上的 verimli hesaplamaları ermöglicht ve daha büyük modellere ölçeklenebilirliği sağlar.
- Hafıza Karışması ve Durum Takibi: sLSTM varyantı, geleneksel LSTMs’in hafıza karıştırma yeteneklerini korur, böylece durum takibi sağlar ve belirli görevlerde Transformer ve Durum Uzayı Modellerinden daha ifade edici olur.
- Ölçeklenebilirlik: Büyük Dil Modellerinden (LLMs) ödünç alınan teknikleri kullanarak, xLSTM milyarlarca parametreyle ölçeklenebilir, böylece dil modelleme ve dizin işleme görevlerinde yeni olanaklar sağlar.
Deneysel Değerlendirme: xLSTM’in Yeteneklerini Vurgulama
Araştırma makalesi, xLSTM’in çeşitli görevler ve benchmark’ler üzerindeki performansını kapsamlı bir şekilde değerlendirmektedir. İşte bazı ana bulgular:
- Sentetik Görevler ve Uzun Menzil Arena:
- xLSTM, durum takibi gerektiren formal dil görevlerinde üstünlük sağlar, Transformer, Durum Uzayı Modelleri ve diğer RNN mimarilerini geride bırakır.
- Çoklu Sorgu İlişkisel Geri Çağırma görevinde, xLSTM geliştirilmiş hafıza kapasitelerini gösterir, non-Transformer modellerini geride bırakır ve Transformerlerin performansını yakalar.
- Uzun Menzil Arena benchmark’ünde, xLSTM tutarlı bir şekilde güçlü performans gösterir, uzun bağlam sorunlarını işleme yeteneğini vurgular.
- Dil Modelleme ve Aşağı Akım Görevler:
- SlimPajama veri setinden 15B tokenle eğitildiğinde, xLSTM mevcut yöntemleri, včetně Transformer, Durum Uzayı Modelleri ve diğer RNN varyantlarını, doğrulama karmaşıklığı açısından geride bırakır.
- Modeller büyütüldükçe, xLSTM performans avantajını korur, olumlu ölçeklenebilirlik davranışını gösterir.
- Aşağı akım görevlerde, zoals ortak sentido akıl yürütme ve soru cevaplama, xLSTM çeşitli model büyüklüklerinde en iyi yöntem olarak ortaya çıkar, state-of-the-art yaklaşımları geride bırakır.
- PALOMA Dil Görevlerinde Performans:
- PALOMA dil benchmark’ünde 571 metin alanında değerlendirilen xLSTM[1:0] (sLSTM varyantı), diğer yöntemlere kıyasla %99,5’inde daha düşük karmaşıklık değerleri elde eder, Mamba’ya kıyasla %85,1 ve Llama’ya kıyasla %99,8.
- Ölçekleme Yasaları ve Uzunluk Extrapolasyonu:
- SlimPajama’dan 300B tokenle eğitildiğinde, xLSTM olumlu ölçekleme yasalarını gösterir, model büyüklüğü arttıkça daha iyi performans anlamına gelir.
- Dizin uzunluğu extrapolasyonu deneylerinde, xLSTM modelleri eğitim sırasında görmedikleri daha uzun bağlamlarda düşük karmaşıklık değerlerini korur, diğer yöntemleri geride bırakır.
Bu deneysel sonuçlar, xLSTM’in dil modelleme, konuşma tanıma ve diğer görevlerdeki etkileyici yeteneklerini vurgular, onu güçlü bir aday olarak konumlandırır.
Gerçek Dünya Uygulamaları ve Gelecek Yönleri
xLSTM’in potansiyel uygulamaları, doğal dil işleme ve oluşturmadan dizin modellemesine, zaman serisi analizine ve ötesine kadar geniş bir yelpazeyi kapsar. İşte xLSTM’in önemli bir etkiye sahip olabileceği bazı heyecan verici alanlar:
- Dil Modelleme ve Metin Oluşturma: Geliştirilmiş hafıza kapasiteleri ve depolanan bilgileri gözden geçirme yeteneğiyle, xLSTM dil modelleme ve metin oluşturma görevlerinde devrim yaratabilir, daha tutarlı, bağlamsal ve akıcı metin oluşturmayı ermöglicht.
- Makine Çevirisi: xLSTM’in durum takibi yetenekleri, makine çevirisi görevlerinde kritik öneme sahip olan bağlamı koruma ve uzun menzilli bağımlılıkları anlama yeteneği sağlar.
- Konuşma Tanıma ve Oluşturma: xLSTM’in paralelleştirme ve ölçeklenebilirlik özellikleri, konuşma tanıma ve oluşturma uygulamalarında uzun dizilerin verimli işlenmesine olanak tanır.
- Zaman Serisi Analizi ve Tahmini: xLSTM’in uzun menzilli bağımlılıkları işleme ve karmaşık desenleri depolama yeteneği, zaman serisi analizi ve tahmini görevlerinde önemli iyileştirmeler sağlar.
- Pekiştirmeli Öğrenme ve Kontrol Sistemleri: xLSTM’in geliştirilmiş hafıza kapasiteleri ve durum takibi yetenekleri, pekiştirmeli öğrenme ve kontrol sistemlerinde daha akıllı karar alma ve kontrol ermöglicht.
















