Kecerdasan buatan

xLSTM : Panduan Komprehensif untuk Extended Long Short-Term Memory

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Selama lebih dari dua dekade, arsitektur Long Short-Term Memory (LSTM) yang dipionir oleh Sepp Hochreiter telah menjadi instrumental dalam berbagai kemajuan deep learning dan aplikasi dunia nyata. Dari menghasilkan bahasa alami hingga memungkinkan sistem pengenalan suara, LSTMs telah menjadi kekuatan pendorong di balik revolusi AI.

Namun, bahkan pencipta LSTMs mengakui keterbatasan bawaannya yang mencegah mereka merealisasikan potensi penuh mereka. Kekurangan seperti ketidakmampuan untuk merevisi informasi yang disimpan, kapasitas memori yang terbatas, dan kurangnya paralelisasi membuka jalan bagi munculnya transformer dan model lain untuk mengungguli LSTMs dalam tugas bahasa yang lebih kompleks.

Tapi dalam perkembangan terbaru, Hochreiter dan timnya di NXAI telah memperkenalkan varian baru yang disebut extended LSTM (xLSTM) yang menangani masalah-masalah lama ini. Diperkenalkan dalam makalah penelitian terbaru, xLSTM membangun atas ide-ide dasar yang membuat LSTMs sangat kuat, sambil mengatasi kelemahan kunci melalui inovasi arsitektur.

Di inti xLSTM terdapat dua komponen baru: exponential gating dan struktur memori yang ditingkatkan. Exponential gating memungkinkan kontrol yang lebih fleksibel atas aliran informasi, memungkinkan xLSTMs untuk merevisi keputusan secara efektif ketika konteks baru ditemui. Sementara itu, pengenalan memori matriks secara signifikan meningkatkan kapasitas penyimpanan dibandingkan dengan LSTMs skalar tradisional.

Tapi peningkatan tidak berhenti di situ. Dengan menggunakan teknik yang dipinjam dari model bahasa besar seperti paralelisasi dan tumpukan blok residual, xLSTMs dapat diperbesar secara efisien hingga miliaran parameter. Ini membuka potensi mereka untuk memodelkan urutan yang sangat panjang dan jendela konteks – kemampuan yang kritis untuk pemahaman bahasa yang kompleks.

Implikasi dari ciptaan terbaru Hochreiter sangat monumental. Bayangkan asisten virtual yang dapat melacak konteks selama percakapan berjam-jam. Atau model bahasa yang lebih kuat untuk menggeneralisasi domain baru setelah pelatihan pada data yang luas. Aplikasi meluas ke mana-mana LSTMs membuat dampak – chatbot, terjemahan, antarmuka suara, analisis program, dan banyak lagi – tetapi sekarang ditenagai dengan kemampuan xLSTM yang revolusioner.

Dalam panduan teknis ini, kita akan menyelami detail arsitektur xLSTM, mengevaluasi komponen barunya seperti LSTMs skalar dan matriks, mekanisme exponential gating, struktur memori, dan banyak lagi. Anda akan mendapatkan wawasan dari hasil eksperimental yang menunjukkan peningkatan kinerja xLSTM yang mengesankan atas arsitektur state-of-the-art seperti transformer dan model rekuren terbaru.

Memahami Asal: Keterbatasan LSTM

Sebelum kita menyelami dunia xLSTM, penting untuk memahami keterbatasan yang dihadapi arsitektur LSTM tradisional. Keterbatasan ini telah menjadi pendorong di balik pengembangan xLSTM dan pendekatan alternatif lain.

Ketidakmampuan Merevisi Keputusan Penyimpanan: Salah satu keterbatasan utama LSTM adalah kesulitannya merevisi nilai yang disimpan ketika vektor yang lebih mirip ditemui. Ini dapat menyebabkan kinerja suboptimal dalam tugas yang memerlukan pembaruan dinamis informasi yang disimpan.
Kapasitas Penyimpanan yang Terbatas: LSTMs mengompresi informasi ke dalam keadaan sel skalar, yang dapat membatasi kemampuan mereka untuk secara efektif menyimpan dan mengambil pola data kompleks, terutama ketika menangani token yang jarang atau ketergantungan jangka panjang.
Kurangnya Paralelisasi: Mekanisme pencampuran memori di LSTMs, yang melibatkan koneksi tersembunyi-tersembunyi antara langkah waktu, memaksa pemrosesan berurutan, menghambat paralelisasi perhitungan, dan membatasi skalabilitas.

Keterbatasan ini telah membuka jalan bagi munculnya Transformer dan arsitektur lain yang telah mengungguli LSTMs dalam beberapa aspek, terutama ketika diperbesar ke model yang lebih besar.

Arsitektur xLSTM

Extended LSTM (xLSTM) family

Di inti xLSTM terdapat dua modifikasi utama dari kerangka kerja LSTM tradisional: exponential gating dan struktur memori baru. Peningkatan ini memperkenalkan dua varian LSTM baru, yang dikenal sebagai sLSTM (LSTM skalar) dan mLSTM (LSTM matriks).

sLSTM: LSTM Skalar dengan Exponential Gating dan Pencampuran Memori
- Exponential Gating: sLSTM mengintegrasikan fungsi aktivasi eksponensial untuk gerbang input dan lupa, memungkinkan kontrol yang lebih fleksibel atas aliran informasi.
- Normalisasi dan Stabilisasi: Untuk mencegah ketidakstabilan numerik, sLSTM memperkenalkan keadaan normalizer yang melacak produk gerbang input dan gerbang lupa masa depan.
- Pencampuran Memori: sLSTM mendukung beberapa sel memori dan memungkinkan pencampuran memori melalui koneksi berulang, memungkinkan ekstraksi pola kompleks dan kemampuan pelacakan keadaan.
mLSTM: LSTM Matriks dengan Kapasitas Penyimpanan yang Ditingkatkan
- Memori Matriks: Sebagai gantinya menggunakan sel memori skalar, mLSTM menggunakan memori matriks, meningkatkan kapasitas penyimpanannya dan memungkinkan pengambilan informasi yang lebih efisien.
- Aturan Pembaruan Kovarians: mLSTM menggunakan aturan pembaruan kovarians, yang terinspirasi oleh Bidirectional Associative Memories (BAMs), untuk menyimpan dan mengambil pasangan kunci-nilai secara efisien.
- Paralelisasi: Dengan meninggalkan pencampuran memori, mLSTM mencapai paralelisasi penuh, memungkinkan perhitungan yang efisien pada akselerator perangkat keras modern.

Kedua varian ini, sLSTM dan mLSTM, dapat diintegrasikan ke dalam arsitektur blok residual, membentuk blok xLSTM. Dengan menumpuk blok xLSTM secara residual, peneliti dapat mengonstruksi arsitektur xLSTM yang kuat untuk tugas dan domain aplikasi tertentu.

Matematika

LSTM Tradisional:

Arsitektur LSTM asli memperkenalkan kereta api kesalahan konstan dan mekanisme gerbang untuk mengatasi masalah gradien yang menghilang di jaringan neural berulang.

Modul berulang di LSTM – Sumber

Pembaruan keadaan memori LSTM diatur oleh persamaan berikut:

Pembaruan Keadaan Sel: ct = ft ⊙ ct-1 + it ⊙ zt

Pembaruan Keadaan Tersembunyi: ht = ot ⊙ tanh(ct)

Di mana:

adalah vektor keadaan sel pada waktu $t$
adalah vektor gerbang lupa
adalah vektor gerbang input
adalah vektor gerbang output
adalah input yang dimodulasi oleh gerbang input
merepresentasikan perkalian elemen-bijak

Gerbang ft, it, dan ot mengontrol informasi apa yang disimpan, dilupakan, dan dioutput dari keadaan sel ct, mengatasi masalah gradien yang menghilang.

xLSTM dengan Exponential Gating:

Arsitektur xLSTM memperkenalkan exponential gating untuk memungkinkan kontrol yang lebih fleksibel atas aliran informasi. Untuk varian xLSTM skalar (sLSTM):

Pembaruan Keadaan Sel: ct = ft ⊙ ct-1 + it ⊙ zt

Pembaruan Keadaan Normalizer: nt = ft ⊙ nt-1 + it

Pembaruan Keadaan Tersembunyi: ht = ot ⊙ (ct / nt)

Gerbang Input & Lupa: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

Fungsi aktivasi eksponensial untuk gerbang input (it) dan lupa (ft), bersama dengan keadaan normalizer nt, memungkinkan kontrol yang lebih efektif atas pembaruan memori dan merevisi informasi yang disimpan.

xLSTM dengan Memori Matriks:

Untuk varian xLSTM matriks (mLSTM) dengan kapasitas penyimpanan yang ditingkatkan:

Pembaruan Keadaan Sel: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Pembaruan Keadaan Normalizer: nt = ft ⊙ nt-1 + it ⊙ kt

Pembaruan Keadaan Tersembunyi: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Di mana:

$adalah keadaan sel matriks$
dan adalah vektor nilai dan kunci
adalah vektor kueri yang digunakan untuk pengambilan

Persamaan-persamaan kunci ini menyoroti bagaimana xLSTM memperluas formulasi LSTM asli dengan exponential gating untuk kontrol yang lebih fleksibel atas aliran informasi dan memori matriks untuk kapasitas penyimpanan yang ditingkatkan. Kombinasi dari inovasi-inovasi ini memungkinkan xLSTM untuk mengatasi keterbatasan LSTMs tradisional.

Fitur dan Kelebihan Utama xLSTM

Kemampuan Merevisi Keputusan Penyimpanan: Berkat exponential gating, xLSTM dapat merevisi nilai yang disimpan secara efektif ketika informasi yang lebih relevan ditemui, mengatasi keterbatasan signifikan LSTMs tradisional.
Kapasitas Penyimpanan yang Ditingkatkan: Memori matriks di mLSTM menyediakan kapasitas penyimpanan yang lebih besar, memungkinkan xLSTM untuk menangani token yang jarang, ketergantungan jangka panjang, dan pola data kompleks dengan lebih efektif.
Paralelisasi: Varian mLSTM dari xLSTM sepenuhnya paralelisabel, memungkinkan perhitungan yang efisien pada akselerator perangkat keras modern dan memungkinkan skalabilitas ke model yang lebih besar.
Pencampuran Memori dan Pelacakan Keadaan: Varian sLSTM dari xLSTM mempertahankan kemampuan pencampuran memori LSTMs tradisional, memungkinkan pelacakan keadaan dan membuat xLSTM lebih ekspresif daripada Transformer dan Model Ruang Keadaan untuk tugas tertentu.
Skalabilitas: Dengan menggunakan teknik terbaru dari Model Bahasa Besar (LLMs), xLSTM dapat diperbesar hingga miliaran parameter, membuka kemungkinan baru dalam pemodelan bahasa dan pemrosesan urutan.

Evaluasi Eksperimental: Menunjukkan Kemampuan xLSTM

Makalah penelitian ini mempresentasikan evaluasi eksperimental komprehensif xLSTM, menyoroti kinerjanya di berbagai tugas dan benchmark. Berikut adalah beberapa temuan kunci:

Tugas Sintetis dan Long Range Arena:
- xLSTM unggul dalam memecahkan tugas bahasa formal yang memerlukan pelacakan keadaan, mengungguli Transformer, Model Ruang Keadaan, dan arsitektur RNN lain.
- Dalam tugas Mengingat Asosiatif Multi-Kueri, xLSTM menunjukkan kapasitas memori yang ditingkatkan, mengungguli model non-Transformer dan menyaingi kinerja Transformer.
- Pada benchmark Long Range Arena, xLSTM menunjukkan kinerja yang konsisten kuat, menunjukkan efisiensinya dalam menangani masalah konteks panjang.
Pemodelan Bahasa dan Tugas Hilir:
- Ketika dilatih pada 15B token dari dataset SlimPajama, xLSTM mengungguli metode yang ada, termasuk Transformer, Model Ruang Keadaan, dan varian RNN lain, dalam hal perplexitas validasi.
- Ketika model diperbesar ke ukuran yang lebih besar, xLSTM terus mempertahankan keunggulannya, menunjukkan perilaku penskalaan yang menguntungkan.
- Dalam tugas hilir seperti penalaran nalar umum dan jawaban pertanyaan, xLSTM muncul sebagai metode terbaik di berbagai ukuran model, mengungguli pendekatan state-of-the-art.
Kinerja pada Tugas Bahasa PALOMA:
- Dalam evaluasi pada 571 domain teks dari benchmark bahasa PALOMA, xLSTM[1:0] (varian sLSTM) mencapai perplexitas yang lebih rendah daripada metode lain dalam 99,5% domain dibandingkan dengan Mamba, 85,1% dibandingkan dengan Llama, dan 99,8% dibandingkan dengan RWKV-4.
Hukum Penskalaan dan Ekstrapolasi Panjang:
- Ketika dilatih pada 300B token dari SlimPajama, xLSTM menunjukkan hukum penskalaan yang menguntungkan, menunjukkan potensinya untuk perbaikan kinerja lebih lanjut seiring dengan peningkatan ukuran model.
- Dalam eksperimen ekstrapolasi panjang urutan, model xLSTM mempertahankan perplexitas yang rendah bahkan untuk konteks yang jauh lebih panjang daripada yang dilihat selama pelatihan, mengungguli metode lain.

Hasil eksperimental ini menyoroti kemampuan luar biasa xLSTM, memposisikannya sebagai kandidat menjanjikan untuk tugas pemodelan bahasa, pemrosesan urutan, dan berbagai aplikasi lain.

Aplikasi Dunia Nyata dan Arah Masa Depan

Aplikasi potensial xLSTM meluas ke berbagai domain, dari pemrosesan bahasa alami hingga pemodelan urutan, analisis waktu, dan banyak lagi. Berikut adalah beberapa area menarik di mana xLSTM bisa membuat dampak signifikan:

Pemodelan Bahasa dan Generasi Teks: Dengan kapasitas penyimpanan yang ditingkatkan dan kemampuan merevisi informasi yang disimpan, xLSTM bisa merevolusi tugas pemodelan bahasa dan generasi teks, memungkinkan teks yang lebih koheren, kontekstual, dan fasih.
Terjemahan Mesin: Kemampuan pelacakan keadaan xLSTM bisa sangat berharga dalam tugas terjemahan mesin, di mana mempertahankan informasi kontekstual dan memahami ketergantungan jangka panjang sangat kritis untuk terjemahan yang akurat.
Pengenalan dan Generasi Suara: Paralelisasi dan skalabilitas xLSTM membuatnya cocok untuk aplikasi pengenalan dan generasi suara, di mana pemrosesan urutan panjang secara efisien sangat penting.
Analisis Waktu dan Peramalan: Kemampuan xLSTM untuk menangani ketergantungan jangka panjang dan menyimpan pola kompleks bisa menyebabkan perbaikan signifikan dalam tugas analisis waktu dan peramalan di berbagai domain, seperti keuangan, prakiraan cuaca, dan aplikasi industri.
Pembelajaran Penguatan dan Sistem Kontrol: Potensi xLSTM dalam pembelajaran penguatan dan sistem kontrol sangat menjanjikan, karena kemampuan memori yang ditingkatkan dan pelacakan keadaan bisa memungkinkan pengambilan keputusan yang lebih cerdas dan kontrol dalam lingkungan yang kompleks.

Optimasi Arsitektur dan Penyetelan Hiperparameter

Sementara hasil saat ini sangat menjanjikan, masih ada ruang untuk mengoptimalkan arsitektur xLSTM dan menyetel hiperparameter dengan lebih baik. Peneliti bisa menjelajahi kombinasi berbeda dari blok sLSTM dan mLSTM, bervariasi rasio dan penempatan dalam arsitektur keseluruhan. Selain itu, pencarian hiperparameter sistematis bisa mengarah pada perbaikan kinerja lebih lanjut, terutama untuk model yang lebih besar.

Optimasi Perangkat Keras: Untuk memanfaatkan paralelisasi xLSTM, terutama varian mLSTM, peneliti bisa menyelidiki optimasi perangkat keras yang disesuaikan untuk arsitektur GPU tertentu atau akselerator lain. Ini bisa melibatkan optimasi kernel CUDA, strategi manajemen memori, dan memanfaatkan instruksi khusus atau perpustakaan untuk operasi matriks yang efisien.

Integrasi dengan Komponen Jaringan Neural Lain: Menjelajahi integrasi xLSTM dengan komponen jaringan neural lain, seperti mekanisme perhatian, konvolusi, atau teknik pembelajaran mandiri, bisa mengarah pada arsitektur hibrida yang menggabungkan kekuatan dari berbagai pendekatan. Model hibrida ini bisa membuka kemampuan baru dan meningkatkan kinerja pada berbagai tugas.

Pembelajaran Sedikit dan Pembelajaran Transfer: Menjelajahi penggunaan xLSTM dalam skenario pembelajaran sedikit dan pembelajaran transfer bisa menjadi jalur penelitian yang menarik. Dengan memanfaatkan kemampuan memori yang ditingkatkan dan pelacakan keadaan, xLSTM bisa memungkinkan transfer pengetahuan yang lebih efisien dan adaptasi cepat ke tugas atau domain baru dengan data pelatihan yang terbatas.

Interpretasi dan Keterjelasan: Seperti dengan banyak model pembelajaran mesin dalam, kerja internal xLSTM bisa tidak transparan dan sulit untuk diinterpretasikan. Mengembangkan teknik untuk menginterpretasikan dan menjelaskan keputusan yang dibuat oleh xLSTM bisa mengarah pada model yang lebih transparan dan dapat dipercaya, memfasilitasi adopsinya dalam aplikasi kritis dan mempromosikan akuntabilitas.

Strategi Pelatihan yang Efisien dan Dapat Diskalakan: Ketika model terus tumbuh dalam ukuran dan kompleksitas, strategi pelatihan yang efisien dan dapat diskalakan menjadi semakin penting. Peneliti bisa menjelajahi teknik seperti paralelisasi model, paralelisasi data, dan pendekatan pelatihan terdistribusi yang secara khusus disesuaikan untuk arsitektur xLSTM, memungkinkan pelatihan model yang lebih besar dan potensially mengurangi biaya komputasi.

Ini adalah beberapa arah penelitian dan eksplorasi masa depan yang potensial dengan xLSTM.

Kesimpulan

Pengenalan xLSTM menandai tonggak penting dalam upaya menciptakan arsitektur pemodelan bahasa dan pemrosesan urutan yang lebih kuat dan efisien. Dengan mengatasi keterbatasan LSTMs tradisional dan memanfaatkan teknik baru seperti exponential gating dan struktur memori matriks, xLSTM telah menunjukkan kinerja yang mengesankan di berbagai tugas dan benchmark.

Namun, perjalanan tidak berhenti di sini. Seperti dengan setiap teknologi yang mengubah, xLSTM membuka peluang menarik untuk eksplorasi lebih lanjut, penyempurnaan, dan aplikasi dalam skenario dunia nyata. Ketika peneliti terus mendorong batas apa yang mungkin, kita dapat mengharapkan untuk menyaksikan kemajuan yang lebih mengesankan dalam bidang pemrosesan bahasa alami dan kecerdasan buatan.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.