Kecerdasan buatan
xLSTM : Panduan Komprehensif untuk Extended Long Short-Term Memory
Memahami Asal: Keterbatasan LSTM
Sebelum kita menyelami dunia xLSTM, penting untuk memahami keterbatasan yang dihadapi arsitektur LSTM tradisional. Keterbatasan ini telah menjadi pendorong di balik pengembangan xLSTM dan pendekatan alternatif lain.
- Ketidakmampuan Merevisi Keputusan Penyimpanan: Salah satu keterbatasan utama LSTM adalah kesulitannya merevisi nilai yang disimpan ketika vektor yang lebih mirip ditemui. Ini dapat menyebabkan kinerja suboptimal dalam tugas yang memerlukan pembaruan dinamis informasi yang disimpan.
- Kapasitas Penyimpanan yang Terbatas: LSTMs mengompresi informasi ke dalam keadaan sel skalar, yang dapat membatasi kemampuan mereka untuk secara efektif menyimpan dan mengambil pola data kompleks, terutama ketika menangani token yang jarang atau ketergantungan jangka panjang.
- Kurangnya Paralelisasi: Mekanisme pencampuran memori di LSTMs, yang melibatkan koneksi tersembunyi-tersembunyi antara langkah waktu, memaksa pemrosesan berurutan, menghambat paralelisasi perhitungan, dan membatasi skalabilitas.
Keterbatasan ini telah membuka jalan bagi munculnya Transformer dan arsitektur lain yang telah mengungguli LSTMs dalam beberapa aspek, terutama ketika diperbesar ke model yang lebih besar.
Arsitektur xLSTM
Di inti xLSTM terdapat dua modifikasi utama dari kerangka kerja LSTM tradisional: exponential gating dan struktur memori baru. Peningkatan ini memperkenalkan dua varian LSTM baru, yang dikenal sebagai sLSTM (LSTM skalar) dan mLSTM (LSTM matriks).
- sLSTM: LSTM Skalar dengan Exponential Gating dan Pencampuran Memori
- Exponential Gating: sLSTM mengintegrasikan fungsi aktivasi eksponensial untuk gerbang input dan lupa, memungkinkan kontrol yang lebih fleksibel atas aliran informasi.
- Normalisasi dan Stabilisasi: Untuk mencegah ketidakstabilan numerik, sLSTM memperkenalkan keadaan normalizer yang melacak produk gerbang input dan gerbang lupa masa depan.
- Pencampuran Memori: sLSTM mendukung beberapa sel memori dan memungkinkan pencampuran memori melalui koneksi berulang, memungkinkan ekstraksi pola kompleks dan kemampuan pelacakan keadaan.
- mLSTM: LSTM Matriks dengan Kapasitas Penyimpanan yang Ditingkatkan
- Memori Matriks: Sebagai gantinya menggunakan sel memori skalar, mLSTM menggunakan memori matriks, meningkatkan kapasitas penyimpanannya dan memungkinkan pengambilan informasi yang lebih efisien.
- Aturan Pembaruan Kovarians: mLSTM menggunakan aturan pembaruan kovarians, yang terinspirasi oleh Bidirectional Associative Memories (BAMs), untuk menyimpan dan mengambil pasangan kunci-nilai secara efisien.
- Paralelisasi: Dengan meninggalkan pencampuran memori, mLSTM mencapai paralelisasi penuh, memungkinkan perhitungan yang efisien pada akselerator perangkat keras modern.
Kedua varian ini, sLSTM dan mLSTM, dapat diintegrasikan ke dalam arsitektur blok residual, membentuk blok xLSTM. Dengan menumpuk blok xLSTM secara residual, peneliti dapat mengonstruksi arsitektur xLSTM yang kuat untuk tugas dan domain aplikasi tertentu.
Matematika
LSTM Tradisional:
Arsitektur LSTM asli memperkenalkan kereta api kesalahan konstan dan mekanisme gerbang untuk mengatasi masalah gradien yang menghilang di jaringan neural berulang.

Modul berulang di LSTM – Sumber
Pembaruan keadaan memori LSTM diatur oleh persamaan berikut:
Pembaruan Keadaan Sel: ct = ft ⊙ ct-1 + it ⊙ zt
Pembaruan Keadaan Tersembunyi: ht = ot ⊙ tanh(ct)
Di mana:
- 𝑐𝑡 adalah vektor keadaan sel pada waktu 𝑡
- 𝑓𝑡 adalah vektor gerbang lupa
- 𝑖𝑡 adalah vektor gerbang input
- 𝑜𝑡 adalah vektor gerbang output
- 𝑧𝑡 adalah input yang dimodulasi oleh gerbang input
- ⊙ merepresentasikan perkalian elemen-bijak
Gerbang ft, it, dan ot mengontrol informasi apa yang disimpan, dilupakan, dan dioutput dari keadaan sel ct, mengatasi masalah gradien yang menghilang.
xLSTM dengan Exponential Gating:
Arsitektur xLSTM memperkenalkan exponential gating untuk memungkinkan kontrol yang lebih fleksibel atas aliran informasi. Untuk varian xLSTM skalar (sLSTM):
Pembaruan Keadaan Sel: ct = ft ⊙ ct-1 + it ⊙ zt
Pembaruan Keadaan Normalizer: nt = ft ⊙ nt-1 + it
Pembaruan Keadaan Tersembunyi: ht = ot ⊙ (ct / nt)
Gerbang Input & Lupa: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)
Fungsi aktivasi eksponensial untuk gerbang input (it) dan lupa (ft), bersama dengan keadaan normalizer nt, memungkinkan kontrol yang lebih efektif atas pembaruan memori dan merevisi informasi yang disimpan.
Fitur dan Kelebihan Utama xLSTM
- Kemampuan Merevisi Keputusan Penyimpanan: Berkat exponential gating, xLSTM dapat merevisi nilai yang disimpan secara efektif ketika informasi yang lebih relevan ditemui, mengatasi keterbatasan signifikan LSTMs tradisional.
- Kapasitas Penyimpanan yang Ditingkatkan: Memori matriks di mLSTM menyediakan kapasitas penyimpanan yang lebih besar, memungkinkan xLSTM untuk menangani token yang jarang, ketergantungan jangka panjang, dan pola data kompleks dengan lebih efektif.
- Paralelisasi: Varian mLSTM dari xLSTM sepenuhnya paralelisabel, memungkinkan perhitungan yang efisien pada akselerator perangkat keras modern dan memungkinkan skalabilitas ke model yang lebih besar.
- Pencampuran Memori dan Pelacakan Keadaan: Varian sLSTM dari xLSTM mempertahankan kemampuan pencampuran memori LSTMs tradisional, memungkinkan pelacakan keadaan dan membuat xLSTM lebih ekspresif daripada Transformer dan Model Ruang Keadaan untuk tugas tertentu.
- Skalabilitas: Dengan menggunakan teknik terbaru dari Model Bahasa Besar (LLMs), xLSTM dapat diperbesar hingga miliaran parameter, membuka kemungkinan baru dalam pemodelan bahasa dan pemrosesan urutan.
Evaluasi Eksperimental: Menunjukkan Kemampuan xLSTM
Makalah penelitian ini mempresentasikan evaluasi eksperimental komprehensif xLSTM, menyoroti kinerjanya di berbagai tugas dan benchmark. Berikut adalah beberapa temuan kunci:
- Tugas Sintetis dan Long Range Arena:
- xLSTM unggul dalam memecahkan tugas bahasa formal yang memerlukan pelacakan keadaan, mengungguli Transformer, Model Ruang Keadaan, dan arsitektur RNN lain.
- Dalam tugas Mengingat Asosiatif Multi-Kueri, xLSTM menunjukkan kapasitas memori yang ditingkatkan, mengungguli model non-Transformer dan menyaingi kinerja Transformer.
- Pada benchmark Long Range Arena, xLSTM menunjukkan kinerja yang konsisten kuat, menunjukkan efisiensinya dalam menangani masalah konteks panjang.
- Pemodelan Bahasa dan Tugas Hilir:
- Ketika dilatih pada 15B token dari dataset SlimPajama, xLSTM mengungguli metode yang ada, termasuk Transformer, Model Ruang Keadaan, dan varian RNN lain, dalam hal perplexitas validasi.
- Ketika model diperbesar ke ukuran yang lebih besar, xLSTM terus mempertahankan keunggulannya, menunjukkan perilaku penskalaan yang menguntungkan.
- Dalam tugas hilir seperti penalaran nalar umum dan jawaban pertanyaan, xLSTM muncul sebagai metode terbaik di berbagai ukuran model, mengungguli pendekatan state-of-the-art.
- Kinerja pada Tugas Bahasa PALOMA:
- Dalam evaluasi pada 571 domain teks dari benchmark bahasa PALOMA, xLSTM[1:0] (varian sLSTM) mencapai perplexitas yang lebih rendah daripada metode lain dalam 99,5% domain dibandingkan dengan Mamba, 85,1% dibandingkan dengan Llama, dan 99,8% dibandingkan dengan RWKV-4.
- Hukum Penskalaan dan Ekstrapolasi Panjang:
- Ketika dilatih pada 300B token dari SlimPajama, xLSTM menunjukkan hukum penskalaan yang menguntungkan, menunjukkan potensinya untuk perbaikan kinerja lebih lanjut seiring dengan peningkatan ukuran model.
- Dalam eksperimen ekstrapolasi panjang urutan, model xLSTM mempertahankan perplexitas yang rendah bahkan untuk konteks yang jauh lebih panjang daripada yang dilihat selama pelatihan, mengungguli metode lain.
Hasil eksperimental ini menyoroti kemampuan luar biasa xLSTM, memposisikannya sebagai kandidat menjanjikan untuk tugas pemodelan bahasa, pemrosesan urutan, dan berbagai aplikasi lain.
Aplikasi Dunia Nyata dan Arah Masa Depan
Aplikasi potensial xLSTM meluas ke berbagai domain, dari pemrosesan bahasa alami hingga pemodelan urutan, analisis waktu, dan banyak lagi. Berikut adalah beberapa area menarik di mana xLSTM bisa membuat dampak signifikan:
- Pemodelan Bahasa dan Generasi Teks: Dengan kapasitas penyimpanan yang ditingkatkan dan kemampuan merevisi informasi yang disimpan, xLSTM bisa merevolusi tugas pemodelan bahasa dan generasi teks, memungkinkan teks yang lebih koheren, kontekstual, dan fasih.
- Terjemahan Mesin: Kemampuan pelacakan keadaan xLSTM bisa sangat berharga dalam tugas terjemahan mesin, di mana mempertahankan informasi kontekstual dan memahami ketergantungan jangka panjang sangat kritis untuk terjemahan yang akurat.
- Pengenalan dan Generasi Suara: Paralelisasi dan skalabilitas xLSTM membuatnya cocok untuk aplikasi pengenalan dan generasi suara, di mana pemrosesan urutan panjang secara efisien sangat penting.
- Analisis Waktu dan Peramalan: Kemampuan xLSTM untuk menangani ketergantungan jangka panjang dan menyimpan pola kompleks bisa menyebabkan perbaikan signifikan dalam tugas analisis waktu dan peramalan di berbagai domain, seperti keuangan, prakiraan cuaca, dan aplikasi industri.
- Pembelajaran Penguatan dan Sistem Kontrol: Potensi xLSTM dalam pembelajaran penguatan dan sistem kontrol sangat menjanjikan, karena kemampuan memori yang ditingkatkan dan pelacakan keadaan bisa memungkinkan pengambilan keputusan yang lebih cerdas dan kontrol dalam lingkungan yang kompleks.
















