ปัญญาประดิษฐ์
xLSTM : คู่มือที่ครอบคลุมเกี่ยวกับ Extended Long Short-Term Memory
การทำความเข้าใจจุดเริ่มต้น: ข้อจำกัดของ LSTM
ก่อนที่เราจะดำดิ่งลงไปในโลกของ xLSTM มันเป็นสิ่งสำคัญที่จะต้องเข้าใจข้อจำกัดที่โครงสร้าง LSTM แบบดั้งเดิมต้องเผชิญ ข้อจำกัดเหล่านี้เป็นแรงผลักดันเบื้องหลังการพัฒนา xLSTM และแนวทางอื่นๆ
- ความไม่สามารถที่จะแก้ไขการตัดสินใจเก็บข้อมูล: ข้อจำกัดหลักของ LSTM คือความไม่สามารถที่จะแก้ไขค่าเก็บไว้เมื่อมีเวกเตอร์ที่คล้ายกันมากขึ้น ซึ่งอาจนำไปสู่ประสิทธิภาพที่ไม่เหมาะสมในงานที่ต้องการการอัปเดตแบบไดนามิกของข้อมูลที่เก็บไว้
- ความจุหน่วยความจำที่จำกัด: LSTMs บีบอัดข้อมูลลงในสถานะเซลล์สเกลาร์ ซึ่งอาจจำกัดความสามารถในการเก็บและเรียกคืนรูปแบบข้อมูลที่ซับซ้อน โดยเฉพาะเมื่อเผชิญกับโทเค็นหายากหรือความสัมพันธ์ระยะไกล
- การขาดการขนานกัน: กลไกการผสมผสานหน่วยความจำใน LSTMs ซึ่งเกี่ยวข้องกับการเชื่อมต่อระหว่างขั้นตอนเวลา ทำให้การประมวลผลแบบลำดับเป็นไปไม่ได้ และจำกัดความสามารถในการปรับขนาด
ข้อจำกัดเหล่านี้ได้สร้างทางให้กับการเกิดขึ้นของโครงสร้างทรานส์ฟอร์เมอร์และโครงสร้างอื่นๆ ที่สามารถเอาชนะ LSTMs ในด้านที่ซับซ้อนมากขึ้น โดยเฉพาะอย่างยิ่งเมื่อปรับขนาดไปสู่โมเดลที่ใหญ่ขึ้น
สถาปัตยกรรม xLSTM
ที่核心ของ xLSTM มีการปรับปรุงสองประการหลักต่อโครงสร้าง LSTM แบบดั้งเดิม: การควบคุมการไหลของข้อมูลแบบยกกำลังและโครงสร้างหน่วยความจำใหม่ การปรับปรุงเหล่านี้แนะนำสองรูปแบบใหม่ของ LSTM ที่เรียกว่า sLSTM (สเกลาร์ LSTM) และ mLSTM (เมทริกซ์ LSTM)
- sLSTM: สเกลาร์ LSTM ด้วยการควบคุมการไหลของข้อมูลแบบยกกำลังและผสมผสานหน่วยความจำ
- การควบคุมการไหลของข้อมูลแบบยกกำลัง: sLSTM รวมฟังก์ชันการกระตุ้นแบบยกกำลังสำหรับเกตอินพุตและเกตลืม ทำให้สามารถควบคุมการไหลของข้อมูลได้อย่างยืดหยุ่นมากขึ้น
- การปรับขนาดและเสถียรภาพ: เพื่อป้องกันความไม่เสถียรทางคณิตศาสตร์ sLSTM มีรัฐปรับขนาดที่ติดตามผลคูณของเกตอินพุตและเกตลืมในอนาคต
- ผสมผสานหน่วยความจำ: sLSTM สนับสนุนหน่วยความจำหลายหน่วยและอนุญาตให้ผสมผสานหน่วยความจำผ่านการเชื่อมต่อแบบเรียกซ้ำ ทำให้สามารถดึงรูปแบบที่ซับซ้อนและติดตามสถานะได้
- mLSTM: เมทริกซ์ LSTM ด้วยความจุหน่วยความจำที่เพิ่มขึ้น
- หน่วยความจำเมทริกซ์: mLSTM ใช้หน่วยความจำเมทริกซ์แทนหน่วยความจำสเกลาร์ ทำให้ความจุหน่วยความจำเพิ่มขึ้นและสามารถดึงคืนข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น
- กฎการอัปเดตคовариแอนซ์: mLSTM ใช้กฎการอัปเดตคовариแอนซ์ ซึ่งได้รับแรงบันดาลใจจากความทรงจำสัมพันธ์แบบสองทาง (BAMs) เพื่อเก็บและดึงคืนคู่คีย์-ค่าได้อย่างมีประสิทธิภาพ
- การขนานกัน: ด้วยการละทิ้งการผสมผสานหน่วยความจำ mLSTM สามารถขนานกันได้อย่างเต็มที่ ทำให้สามารถคำนวณได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์เร่งความเร็วสมัยใหม่ เช่น GPU
รูปแบบทั้งสองนี้ sLSTM และ mLSTM สามารถรวมเข้ากับโครงสร้างบล็อกที่มีเศษส่วน ทำให้นักวิจัยสามารถสร้างโครงสร้าง xLSTM ที่มีพลังสำหรับงานและโดเมนเฉพาะ
คณิตศาสตร์
LSTM แบบดั้งเดิม:
โครงสร้าง LSTM เดิมแนะนำการคารูเซลข้อผิดพลาดคงที่และกลไกการควบคุมการไหลของข้อมูลเพื่อเอาชนะปัญหาความชันของการลบในเครือข่ายประสาทแบบเรียกซ้ำ

The repeating module in an LSTM – Source
การอัปเดตสถานะเซลล์ของ LSTM ถูกควบคุมโดยสมการดังต่อไปนี้:
การอัปเดตสถานะเซลล์: ct = ft ⊙ ct-1 + it ⊙ zt
การอัปเดตสถานะซ่อน: ht = ot ⊙ tanh(ct)
โดยที่:
- 𝑐𝑡 คือเวกเตอร์สถานะเซลล์ที่เวลา 𝑡
- 𝑓𝑡 คือเวกเตอร์เกตลืม
- 𝑖𝑡 คือเวกเตอร์เกตอินพุต
- 𝑜𝑡 คือเวกเตอร์เกตเอาต์พุต
- 𝑧𝑡 คืออินพุตที่ถูกปรับเปลี่ยนโดยเกตอินพุต
- ⊙ แสดงถึงการคูณแบบองค์ประกอบ
เกต ft, it, และ ot ควบคุมข้อมูลที่เก็บไว้ ลืมไป และเอาออกจากสถานะเซลล์ ct ซึ่งช่วยลดปัญหาความชันของการลบ
xLSTM ด้วยการควบคุมการไหลของข้อมูลแบบยกกำลัง:
โครงสร้าง xLSTM นำการควบคุมการไหลของข้อมูลแบบยกกำลังมาใช้เพื่อให้สามารถควบคุมการไหลของข้อมูลได้อย่างยืดหยุ่นมากขึ้น สำหรับรูปแบบ sLSTM:
การอัปเดตสถานะเซลล์: ct = ft ⊙ ct-1 + it ⊙ zt
การอัปเดตรัฐปรับขนาด: nt = ft ⊙ nt-1 + it
การอัปเดตสถานะซ่อน: ht = ot ⊙ (ct / nt)
เกตอินพุตและเกตลืม: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) หรือ ft = exp(W_f xt + R_f ht-1 + b_f)
ฟังก์ชันการกระตุ้นแบบยกกำลังสำหรับเกตอินพุต (it) และเกตลืม (ft) รวมถึงรัฐปรับขนาด nt ช่วยให้สามารถควบคุมการอัปเดตหน่วยความจำและแก้ไขข้อมูลที่เก็บไว้อย่างมีประสิทธิภาพ
คุณลักษณะและข้อดีหลักของ xLSTM
- ความสามารถในการแก้ไขการตัดสินใจเก็บข้อมูล: ด้วยการควบคุมการไหลของข้อมูลแบบยกกำลัง xLSTM สามารถแก้ไขค่าเก็บไว้ได้อย่างมีประสิทธิภาพเมื่อมีการเผชิญกับข้อมูลที่เกี่ยวข้องมากขึ้น เอาชนะข้อจำกัดหลักของ LSTMs เดิม
- ความจุหน่วยความจำที่เพิ่มขึ้น: หน่วยความจำเมทริกซ์ใน mLSTM ให้ความจุหน่วยความจำที่เพิ่มขึ้น ทำให้ xLSTM สามารถจัดการกับโทเค็นหายาก ความสัมพันธ์ระยะไกล และรูปแบบข้อมูลที่ซับซ้อนได้อย่างมีประสิทธิภาพมากขึ้น
- การขนานกัน: รูปแบบ mLSTM ของ xLSTM สามารถขนานกันได้อย่างเต็มที่ ทำให้สามารถคำนวณได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์เร่งความเร็วสมัยใหม่ เช่น GPU และทำให้สามารถปรับขนาดได้
- การผสมผสานหน่วยความจำและติดตามสถานะ: รูปแบบ sLSTM ของ xLSTM ยังคงความสามารถในการผสมผสานหน่วยความจำของ LSTMs เดิม ทำให้ xLSTM มีความสามารถในการแสดงออกที่มากกว่าทรานส์ฟอร์เมอร์และโมเดลพื้นที่สถานะสำหรับงานบางอย่าง
- การปรับขนาด: ด้วยการนำเทคนิคจากโมเดลภาษาขนาดใหญ่มาใช้ xLSTM สามารถปรับขนาดได้ถึงพารามิเตอร์หลายพันล้าน ทำให้สามารถสร้างแบบจำลองที่ซับซ้อนและสามารถจัดการกับลำดับและบริบทที่ยาวมากขึ้นได้
การประเมินผลการทดลอง: แสดงให้เห็นถึงความสามารถของ xLSTM
รายงานการวิจัยนำเสนอการประเมินผลการทดลองที่ครอบคลุมเกี่ยวกับ xLSTM โดยเน้นประสิทธิภาพของ xLSTM ในงานและมาตรฐานต่างๆ ดังนี้:
- งานสังเคราะห์และ Long Range Arena:
- xLSTM ประสบความสำเร็จในการแก้ปัญหาเชิงภาษาที่ต้องติดตามสถานะ เอาชนะทรานส์ฟอร์เมอร์ โมเดลพื้นที่สถานะ และโครงสร้าง RNN อื่นๆ
- ในงาน Multi-Query Associative Recall xLSTM แสดงให้เห็นถึงความจุหน่วยความจำที่เพิ่มขึ้น โดยเอาชนะโมเดลที่ไม่ใช่ทรานส์ฟอร์เมอร์และเทียบเท่ากับทรานส์ฟอร์เมอร์
- ในมาตรฐาน Long Range Arena xLSTM แสดงให้เห็นถึงประสิทธิภาพที่ดีและสม่ำเสมอ โดยแสดงให้เห็นถึงความสามารถในการจัดการกับปัญหาบริบทยาว
- การสร้างแบบจำลองภาษาและงานที่ตามมา:
- เมื่อฝึกอบรมบน 15B โทเค็นจาก SlimPajama dataset xLSTM เอาชนะวิธีการที่มีอยู่ รวมถึงทรานส์ฟอร์เมอร์ โมเดลพื้นที่สถานะ และรูปแบบ RNN อื่นๆ ในแง่ของความสับสนในการตรวจสอบ
- เมื่อปรับขนาดโมเดลให้ใหญ่ขึ้น xLSTM ยังคงรักษาความได้เปรียบในการแสดงผล โดยแสดงให้เห็นถึงพฤติกรรมการปรับขนาดที่ดี
- ในงานที่ตามมา เช่น การให้เหตุผลทั่วไปและตอบคำถาม xLSTM เป็นวิธีที่ดีที่สุดในทุกขนาดโมเดล โดยเอาชนะวิธีการที่มีอยู่
- ประสิทธิภาพในงาน PALOMA:
- เมื่อประเมินบน 571 โดเมนข้อความจากมาตรฐาน PALOMA xLSTM[1:0] (รูปแบบ sLSTM) มีค่าความสับสนต่ำกว่าวิธีอื่นๆ ใน 99.5% ของโดเมน เมื่อเทียบกับ Mamba ใน 85.1% เมื่อเทียบกับ Llama และ 99.8% เมื่อเทียบกับ RWKV-4
- กฎการปรับขนาดและการเพิ่มความยาวลำดับ:
- เมื่อฝึกอบรมบน 300B โทเค็นจาก SlimPajama xLSTM แสดงให้เห็นถึงกฎการปรับขนาดที่ดี ซึ่งบ่งบอกถึงศักยภาพในการปรับปรุงประสิทธิภาพเมื่อขนาดโมเดลเพิ่มขึ้น
- ในงานทดลองการเพิ่มความยาวลำดับ xLSTM รักษาค่าความสับสนต่ำแม้เมื่อเผชิญกับบริบทที่ยาวกว่าที่พบระหว่างการฝึกอบรม เอาชนะวิธีอื่นๆ
ผลการทดลองเหล่านี้เน้นย้ำถึงความสามารถที่น่าประทับใจของ xLSTM โดยวางตำแหน่ง xLSTM ให้เป็นคู่แข่งที่มีแนวโน้มสำหรับการสร้างแบบจำลองภาษา การประมวลผลลำดับ และการประยุกต์ใช้หลายอย่าง
การประยุกต์ใช้จริงและทิศทางในอนาคต
การประยุกต์ใช้ xLSTM ครอบคลุมหลายโดเมน ตั้งแต่การประมวลผลภาษาธรรมชาติและการสร้างภาษา ไปจนถึงการสร้างแบบจำลองลำดับ การวิเคราะห์เวลา และอื่นๆ ดังนี้:
- การสร้างแบบจำลองภาษาและการสร้างข้อความ: ด้วยความจุหน่วยความจำที่เพิ่มขึ้นและความสามารถในการแก้ไขข้อมูลที่เก็บไว้ xLSTM อาจปฏิวัติงานสร้างแบบจำลองภาษาและการสร้างข้อความ ทำให้สามารถสร้างข้อความที่สอดคล้อง บริบท และมีพลังมากขึ้น
- การแปลภาษา: ความสามารถในการติดตามสถานะของ xLSTM อาจมีคุณค่าในงานแปลภาษา โดยที่การรักษาบริบทและความสัมพันธ์ระยะไกลมีความสำคัญต่อการแปลที่แม่นยำ
- การรับรู้เสียงพูดและการสร้างเสียงพูด: การขนานกันและความสามารถในการปรับขนาดของ xLSTM ทำให้เหมาะสำหรับการใช้งานการรับรู้เสียงพูดและการสร้างเสียงพูด โดยที่การประมวลผลลำดับที่ยาวเป็นสิ่งสำคัญ
- การวิเคราะห์เวลาและการคาดการณ์: ความสามารถของ xLSTM ในการจัดการกับความสัมพันธ์ระยะไกลและรูปแบบที่ซับซ้อนอาจนำไปสู่การปรับปรุงในงานวิเคราะห์เวลาและการคาดการณ์ในช่วงต่างๆ เช่น การเงิน การพยากรณ์อากาศ และการประยุกต์ใช้ทางอุตสาหกรรม
- การเรียนรู้แบบเสริมและระบบควบคุม: ศักยภาพของ xLSTM ในการเรียนรู้แบบเสริมและระบบควบคุมมีแนวโน้ม โดยที่ความจุหน่วยความจำที่เพิ่มขึ้นและความสามารถในการติดตามสถานะอาจนำไปสู่การตัดสินใจที่ฉลาดและควบคุมที่ดีขึ้นในสภาพแวดล้อมที่ซับซ้อน
















