Yapay Zekâ

xLSTM: Uzatılmış Uzun Kısa Süreli Hafıza Kapsamında Kapsamlı Bir Rehber

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Yaklaşık iki thập kỷdır, Sepp Hochreiter‘in öncü Uzun Kısa Süreli Hafıza (LSTM) mimarisi, birçok derin öğrenme atılımlarında ve gerçek dünya uygulamalarında önemli bir rol oynamıştır. Doğal dil oluşturmaktan konuşma tanıma sistemlerini güçlendirmeye kadar, LSTMs, AI devriminin arkasındaki itici güç olmuştur.

Ancak, LSTMs’in yaratıcısı dahi, onların gerçekleştirebilecekleri potansiyelinin önünde engel olan içsel sınırlılıklarını tanımıştır. Depolanan bilgiyi gözden geçirememe, sınırlı hafıza kapasiteleri ve paralelleştirme eksikliği, LSTMs’i daha karmaşık dil görevleri için Transformer ve diğer modellerin önüne geçmelerine yol açmıştır.

Fakat son gelişmelerde, Hochreiter ve NXAI‘daki ekibi, bu uzun süredir devam eden sorunları ele alan yeni bir varyant olan Uzatılmış LSTM (xLSTM) tanıttı. Son bir araştırma makalesinde sunulan xLSTM, LSTMs’in güçlü olduğu temel fikirleri üzerine kurulurken, mimari yenilikler sayesinde ana zayıflıklarını aşmaktadır.

xLSTM’in çekirdeğinde iki yeni bileşen bulunmaktadır: üssü geçit ve geliştirilmiş hafıza yapıları. Üssü geçit, bilgi akışını daha esnek bir şekilde kontrol etmeyi sağlar, böylece xLSTMs yeni bağlam遇ulandığında kararları etkili bir şekilde gözden geçirebilir. Aynı zamanda, matris hafızasının tanıtılması, geleneksel skaler LSTMs’e kıyasla depolama kapasitesini önemli ölçüde artırır.

Ancak iyileştirmeler burada bitmiyor. Büyük dil modellerinden ödünç alınan paralelleştirme ve artıkların bloklarının yığınlaşması gibi teknikleri kullanarak, xLSTMs milyarlarca parametreyle verimli bir şekilde ölçeklenebilir. Bu, son derece uzun dizileri ve bağlam pencerelerini modelleme yeteneğini kilitleyerek, karmaşık dil anlama için kritik bir yetenek sağlar.

Hochreiter’in son yaratıcılığının sonuçları devasa. Sanal asistanların saatlerce süren konuşmalarda bağlamı güvenilir bir şekilde takip edebileceğini hayal edin. Ya da dil modellerinin geniş veri setlerinde eğitimden sonra yeni alanlara daha güçlü bir şekilde genelleştirebileceğini düşünün. Uygulamalar, LSTMs’in etkili olduğu her yere uzanmaktadır – sohbet botları, çeviri, konuşma arayüzleri, program analizi ve daha fazlası – ancak şimdi xLSTM’in atılımlarının yetenekleriyle turboşarj edilmiştir.

Bu derin teknik kılavuzda, xLSTM’in mimari ayrıntılarına dalacağız, skaler ve matris LSTMs, üssü geçit mekanizmaları, hafıza yapıları ve daha fazlası gibi yeni bileşenlerini değerlendireceğiz. Deneysel sonuçlardan elde edilen içgörüler sayesinde, xLSTM’in state-of-the-art mimarilere ve son tekrarlayan modellere kıyasla etkileyici performans kazançlarını göreceksiniz.

Kökenleri Anlama: LSTM’in Sınırlılıkları

xLSTM dünyasına dalmadan önce, geleneksel LSTM mimarilerinin karşılaştığı sınırlılıkları anlamak önemlidir. Bu sınırlılıklar, xLSTM ve diğer alternatif yaklaşımların geliştirilmesinin arkasındaki itici güç olmuştur.

Depolanan Bilgileri Gözden Geçirememe: LSTM’in birincil sınırlılıklarından biri, depolanan değerleri daha benzer bir vektörle karşılaşıldığında gözden geçirememesidir. Bu, depolanan bilgilere dinamik güncellemeler gerektiren görevlerde alt düzey performanslara yol açabilir.
Sınırlı Hafıza Kapasiteleri: LSTMs, bilgileri skaler hücre durumlarına sıkıştırır, bu da nadir tokenlerle veya uzun menzilli bağımlılıklarla başa çıkmada etkili bir şekilde depolama ve geri alma yeteneklerini sınırlayabilir.
Paralelleştirme Eksikliği: LSTMs’deki hafıza karıştırma mekanizması, zaman adımları arasındaki gizli-gizli bağlantılar nedeniyle sıralı işleme zorlar ve hesaplamaların paralelleştirilmesini engeller, bu da ölçeklenebilirliği sınırlar.

Bu sınırlılıklar, özellikle daha büyük modellere ölçeklenirken, belirli yönlerde LSTMs’i aşan Transformer ve diğer mimarilerin ortaya çıkmasına yol açmıştır.

xLSTM Mimarisi

Uzatılmış LSTM (xLSTM) ailesi

xLSTM’in çekirdeğinde, geleneksel LSTM çerçevesine iki ana değişiklik bulunmaktadır: üssü geçit ve yeni hafıza yapıları. Bu geliştirmeler, sLSTM (skaler LSTM) ve mLSTM (matris LSTM) olarak bilinen iki yeni LSTM varyantını tanıtır.

sLSTM: Skaler LSTM ile Üssü Geçit ve Hafıza Karışması
- Üssü Geçit: sLSTM, girdi ve unutma kapıları için üssü aktivasyon fonksiyonlarını içerir, böylece bilgi akışını daha esnek bir şekilde kontrol edebilir.
- Normalleştirme ve Kararlılık: Sayısal kararsızlıkları önlemek için, sLSTM bir normalleştirici durum tanır, bu durum girdi kapılarının ve gelecek unutma kapılarının ürününü izler.
- Hafıza Karışması: sLSTM, birden fazla hafıza hücresi destekler ve hafıza karışmasını tekrarlayan bağlantılar aracılığıyla sağlar, böylece karmaşık desenlerin çıkarılması ve durum takibi yetenekleri ermöglicht.
mLSTM: Matris LSTM ile Geliştirilmiş Depolama Kapasiteleri
- Matris Hafızası: mLSTM, skaler bir hafıza hücresi yerine bir matris hafızası kullanır, bu da depolama kapasitesini artırır ve bilgi geri alınmasını daha verimli hale getirir.
- Kovaryans Güncelleme Kuralı: mLSTM, Bidirectional Associative Memories (BAMs)’den esinlenen bir kovaryans güncelleme kuralı kullanır, böylece anahtar-değer çiftlerini verimli bir şekilde depolayabilir ve geri alabilir.
- Paralelleştirme: Hafıza karıştırmasını terk ederek, mLSTM tam paralelleştirme sağlar, modern hızlandırıcılar上的 verimli hesaplamaları ermöglicht ve daha büyük modellere ölçeklenebilirliği sağlar.

Bu iki varyant, sLSTM ve mLSTM, artıklar blokları olarak birleştirilebilir, böylece xLSTM blokları oluşturulur. Bu xLSTM bloklarını artıklarla yığarak, araştırmacılar, belirli görevler ve uygulama alanları için güçlü xLSTM mimarileri oluşturabilir.

Matematik

Geleneksel LSTM:

Orijinal LSTM mimarisi, sürekli hata karnavalı ve geçit mekanizmalarını, tekrarlayan sinir ağlarındaki kaybolan gradyan sorununu aşmak için tanıttı.

LSTM’deki tekrarlayan modül – Kaynak

LSTM hafıza hücresi güncellemeleri aşağıdaki denklemlerle yönetilir:

Hücre Durumu Güncellemesi: ct = ft ⊙ ct-1 + it ⊙ zt

Gizli Durum Güncellemesi: ht = ot ⊙ tanh(ct)

Nerede:

zaman $t$ deki hücre durumu vektörüdür
unutma kapısı vektörüdür
girdi kapısı vektörüdür
çıktı kapısı vektörüdür
girdi kapısı tarafından modüle edilen girdidir
öğe öğe çarpımı temsil eder

Kapılardaki ft, it ve ot, hücre durumundan ne kadar bilgi depolanacağı, unutulacağı ve çıkarılacağına karar verir, böylece kaybolan gradyan sorununu hafifletir.

xLSTM ile Üssü Geçit:

xLSTM mimarisi, bilgi akışını daha esnek bir şekilde kontrol etmeyi sağlayan üssü geçidi tanıtır. sLSTM varyantı için:

Hücre Durumu Güncellemesi: ct = ft ⊙ ct-1 + it ⊙ zt

Normalleştirici Durum Güncellemesi: nt = ft ⊙ nt-1 + it

Gizli Durum Güncellemesi: ht = ot ⊙ (ct / nt)

Girdi ve Unutma Kapıları: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) veya ft = exp(W_f xt + R_f ht-1 + b_f)

Girdi (it) ve unutma (ft) kapıları için üssü aktivasyon fonksiyonları, birlikte normalleştirici durum nt ile, depolanan bilgilere daha etkili bir şekilde müdahale etmeyi ve gözden geçirmeyi sağlar.

xLSTM ile Matris Hafızası:

mLSTM varyantı için, geliştirilmiş depolama kapasitesiyle:

Hücre Durumu Güncellemesi: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normalleştirici Durum Güncellemesi: nt = ft ⊙ nt-1 + it ⊙ kt

Gizli Durum Güncellemesi: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Nerede:

$matris hücre durumudur$
ve değer ve anahtar vektörleridir
geri alma için kullanılan sorgu vektörüdür

Bu anahtar denklemler, orijinal LSTM formülasyonunun üssü geçit ve matris hafızası ile nasıl genişletildiğini vurgular, böylece geleneksel LSTMs’in sınırlılıklarını aşar.

xLSTM’in Ana Özellikleri ve Avantajları

Depolanan Bilgileri Gözden Geçirebilme: Üssü geçit sayesinde, xLSTM depolanan değerleri daha ilgili bir vektörle karşılaşıldığında etkili bir şekilde gözden geçirebilir, böylece geleneksel LSTMs’in önemli bir sınırlılığını aşar.
Geliştirilmiş Depolama Kapasiteleri: mLSTM’deki matris hafızası, depolama kapasitesini artırır, böylece xLSTM nadir tokenlerle, uzun menzilli bağımlılıklarla ve karmaşık veri desenleriyle daha etkili bir şekilde başa çıkabilir.
Paralelleştirme: mLSTM varyantı tam paralelleştirme sağlar, modern hızlandırıcılar上的 verimli hesaplamaları ermöglicht ve daha büyük modellere ölçeklenebilirliği sağlar.
Hafıza Karışması ve Durum Takibi: sLSTM varyantı, geleneksel LSTMs’in hafıza karıştırma yeteneklerini korur, böylece durum takibi sağlar ve belirli görevlerde Transformer ve Durum Uzayı Modellerinden daha ifade edici olur.
Ölçeklenebilirlik: Büyük Dil Modellerinden (LLMs) ödünç alınan teknikleri kullanarak, xLSTM milyarlarca parametreyle ölçeklenebilir, böylece dil modelleme ve dizin işleme görevlerinde yeni olanaklar sağlar.

Deneysel Değerlendirme: xLSTM’in Yeteneklerini Vurgulama

Araştırma makalesi, xLSTM’in çeşitli görevler ve benchmark’ler üzerindeki performansını kapsamlı bir şekilde değerlendirmektedir. İşte bazı ana bulgular:

Sentetik Görevler ve Uzun Menzil Arena:
- xLSTM, durum takibi gerektiren formal dil görevlerinde üstünlük sağlar, Transformer, Durum Uzayı Modelleri ve diğer RNN mimarilerini geride bırakır.
- Çoklu Sorgu İlişkisel Geri Çağırma görevinde, xLSTM geliştirilmiş hafıza kapasitelerini gösterir, non-Transformer modellerini geride bırakır ve Transformerlerin performansını yakalar.
- Uzun Menzil Arena benchmark’ünde, xLSTM tutarlı bir şekilde güçlü performans gösterir, uzun bağlam sorunlarını işleme yeteneğini vurgular.
Dil Modelleme ve Aşağı Akım Görevler:
- SlimPajama veri setinden 15B tokenle eğitildiğinde, xLSTM mevcut yöntemleri, včetně Transformer, Durum Uzayı Modelleri ve diğer RNN varyantlarını, doğrulama karmaşıklığı açısından geride bırakır.
- Modeller büyütüldükçe, xLSTM performans avantajını korur, olumlu ölçeklenebilirlik davranışını gösterir.
- Aşağı akım görevlerde, zoals ortak sentido akıl yürütme ve soru cevaplama, xLSTM çeşitli model büyüklüklerinde en iyi yöntem olarak ortaya çıkar, state-of-the-art yaklaşımları geride bırakır.
PALOMA Dil Görevlerinde Performans:
- PALOMA dil benchmark’ünde 571 metin alanında değerlendirilen xLSTM[1:0] (sLSTM varyantı), diğer yöntemlere kıyasla %99,5’inde daha düşük karmaşıklık değerleri elde eder, Mamba’ya kıyasla %85,1 ve Llama’ya kıyasla %99,8.
Ölçekleme Yasaları ve Uzunluk Extrapolasyonu:
- SlimPajama’dan 300B tokenle eğitildiğinde, xLSTM olumlu ölçekleme yasalarını gösterir, model büyüklüğü arttıkça daha iyi performans anlamına gelir.
- Dizin uzunluğu extrapolasyonu deneylerinde, xLSTM modelleri eğitim sırasında görmedikleri daha uzun bağlamlarda düşük karmaşıklık değerlerini korur, diğer yöntemleri geride bırakır.

Bu deneysel sonuçlar, xLSTM’in dil modelleme, konuşma tanıma ve diğer görevlerdeki etkileyici yeteneklerini vurgular, onu güçlü bir aday olarak konumlandırır.

Gerçek Dünya Uygulamaları ve Gelecek Yönleri

xLSTM’in potansiyel uygulamaları, doğal dil işleme ve oluşturmadan dizin modellemesine, zaman serisi analizine ve ötesine kadar geniş bir yelpazeyi kapsar. İşte xLSTM’in önemli bir etkiye sahip olabileceği bazı heyecan verici alanlar:

Dil Modelleme ve Metin Oluşturma: Geliştirilmiş hafıza kapasiteleri ve depolanan bilgileri gözden geçirme yeteneğiyle, xLSTM dil modelleme ve metin oluşturma görevlerinde devrim yaratabilir, daha tutarlı, bağlamsal ve akıcı metin oluşturmayı ermöglicht.
Makine Çevirisi: xLSTM’in durum takibi yetenekleri, makine çevirisi görevlerinde kritik öneme sahip olan bağlamı koruma ve uzun menzilli bağımlılıkları anlama yeteneği sağlar.
Konuşma Tanıma ve Oluşturma: xLSTM’in paralelleştirme ve ölçeklenebilirlik özellikleri, konuşma tanıma ve oluşturma uygulamalarında uzun dizilerin verimli işlenmesine olanak tanır.
Zaman Serisi Analizi ve Tahmini: xLSTM’in uzun menzilli bağımlılıkları işleme ve karmaşık desenleri depolama yeteneği, zaman serisi analizi ve tahmini görevlerinde önemli iyileştirmeler sağlar.
Pekiştirmeli Öğrenme ve Kontrol Sistemleri: xLSTM’in geliştirilmiş hafıza kapasiteleri ve durum takibi yetenekleri, pekiştirmeli öğrenme ve kontrol sistemlerinde daha akıllı karar alma ve kontrol ermöglicht.

Mimari Optimizasyonları ve Hiperparametre Ayarları

Mevcut sonuçlar umut verici olsa da, xLSTM mimarisini optimize etme ve hiperparametrelerini ayarlamak için hala alan vardır. Araştırmacılar, sLSTM ve mLSTM bloklarının farklı kombinasyonlarını, oranlarını ve yerleştirilmelerini探索 edebilir, ayrıca daha büyük modeller için sistematik bir hiperparametre araması gerçekleştirebilir.

Donanım-Aware Optimizasyonlar: xLSTM’in, özellikle mLSTM varyantının, paralelleştirme yeteneklerini tam olarak kullanmak için, araştırmacılar specific GPU mimarileri veya diğer hızlandırıcılar için donanım-aware optimizasyonları探索 edebilir. Bu, CUDA çekirdeklerinin optimizasyonu, bellek yönetimi stratejileri ve özel talimatlar veya kütüphanelerin kullanımı gibi matris işlemleri için verimli olabilecek yöntemleri içerebilir.

Diğer Sinir Ağsı Bileşenlerle Entegrasyon: xLSTM’i diğer sinir ağsı bileşenlerle, zoals dikkat mekanizmaları, konvolüsyonel katmanlar veya öz-üstlü öğrenme teknikleriyle birleştirmek, hibrit mimarilerin geliştirilmesine yol açabilir. Bu hibrit modeller, farklı yaklaşımların güçlü yönlerini birleştirebilir ve daha geniş bir görev yelpazesi üzerinde daha iyi performans gösterebilir.

Az-Atış ve Transfer Öğrenimi: xLSTM’in az-atış ve transfer öğrenimi senaryolarında kullanımını探索 etmek, gelecekteki bir araştırma alanı olabilir. xLSTM’in geliştirilmiş hafıza kapasiteleri ve durum takibi yetenekleri, sınırlı eğitim verisi ile yeni görevlere veya alanlara hızlı ve etkili bir şekilde adapte olma yeteneği sağlar.

Yorumlanabilirlik ve Açıklanabilirlik: xLSTM gibi derin öğrenme modellerinin iç işleyişini yorumlamak ve açıklamak zor olabilir. xLSTM’in karar alma süreçlerini yorumlama ve açıklama teknikleri geliştirmek, daha şeffaf ve güvenilir modellerin geliştirilmesine katkıda bulunabilir, özellikle kritik uygulamalarda.

Verimli ve Ölçeklenebilir Eğitim Stratejileri: Modeller büyüdükçe, verimli ve ölçeklenebilir eğitim stratejileri giderek daha önemli hale gelir. Araştırmacılar, model paralelleştirme, veri paralelleştirme ve dağıtılmış eğitim yaklaşımaları gibi xLSTM mimarilerine özgü teknikleri探索 edebilir, daha büyük modellerin eğitilmesini ermöglicht ve hesaplamalı maliyetleri azaltabilir.

Bu, xLSTM ile gelecekteki bazı potansiyel araştırma yönleri ve keşfedilecek alanlardır.

Sonuç

xLSTM’in tanıtılması, dil modelleme ve dizin işleme mimarilerinin geliştirilmesinde önemli bir adımdır. Geleneksel LSTMs’in sınırlılıklarını adresleyerek ve üssü geçit, matris hafızası gibi yenilikçi teknikleri kullanarak, xLSTM etkileyici bir performans göstermiştir. Ancak bu yolculuk burada bitmiyor. xLSTM, gerçek dünya uygulamalarında daha da fazla keşfedilmeyi ve geliştirilmeyi bekliyor.

Araştırmacılar xLSTM’in sınırlarını ittikçe, doğal dil işleme ve yapay zeka alanlarında daha da fazla ilerleme bekleyebiliriz. xLSTM, dil modelleme, konuşma tanıma ve daha fazlasında yeni olanaklar sunmaya hazır bir güçlü araç olarak ortaya çıkıyor.

Aayush Mittal

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.