ปัญญาประดิษฐ์
xLSTM: คู่มือที่ครอบคลุมเกี่ยวกับการขยายหน่วยความจำระยะสั้นระยะยาว
![](https://www.unite.ai/wp-content/uploads/2024/05/DALL%C2%B7E-2024-05-16-11.31.26-A-futuristic-and-abstract-illustration-depicting-the-evolution-of-AI-models-from-traditional-LSTMs-to-xLSTMs.-Show-dynamic-flowing-representations-of-1.webp)
การทำความเข้าใจต้นกำเนิด: ข้อจำกัดของ LSTM
ก่อนที่เราจะดำดิ่งสู่โลกของ xLSTM สิ่งสำคัญคือต้องเข้าใจข้อจำกัดที่สถาปัตยกรรม LSTM แบบดั้งเดิมต้องเผชิญ ข้อจำกัดเหล่านี้เป็นแรงผลักดันเบื้องหลังการพัฒนา xLSTM และแนวทางทางเลือกอื่นๆ
- ไม่สามารถแก้ไขการตัดสินใจด้านการจัดเก็บได้: หนึ่งในข้อจำกัดหลักของ LSTM คือการต่อสู้เพื่อแก้ไขค่าที่เก็บไว้เมื่อพบเวกเตอร์ที่คล้ายกันมากขึ้น ซึ่งอาจนำไปสู่ประสิทธิภาพการทำงานที่ต่ำกว่าปกติในงานที่ต้องมีการอัปเดตแบบไดนามิกสำหรับข้อมูลที่เก็บไว้
- ความจุในการจัดเก็บข้อมูลมีจำกัด: LSTM บีบอัดข้อมูลลงในสถานะเซลล์สเกลาร์ ซึ่งสามารถจำกัดความสามารถในการจัดเก็บและดึงรูปแบบข้อมูลที่ซับซ้อนได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับโทเค็นที่หายากหรือการพึ่งพาระยะยาว
- ขาด ความขนาน: กลไกการผสมหน่วยความจำใน LSTM ซึ่งเกี่ยวข้องกับการเชื่อมต่อที่ซ่อนอยู่ระหว่างขั้นตอนเวลา บังคับใช้การประมวลผลตามลำดับ ขัดขวางการคำนวณแบบขนาน และการจำกัดความสามารถในการขยายขนาด
ข้อจำกัดเหล่านี้ได้ปูทางไปสู่การเกิดขึ้นของ Transformers และสถาปัตยกรรมอื่นๆ ที่เหนือกว่า LSTM ในบางแง่มุม โดยเฉพาะอย่างยิ่งเมื่อปรับขนาดเป็นโมเดลที่ใหญ่ขึ้น
สถาปัตยกรรม xLSTM
แกนหลักของ xLSTM มีการปรับเปลี่ยนหลักสองประการในกรอบงาน LSTM แบบดั้งเดิม: การเกตแบบเอกซ์โปเนนเชียลและโครงสร้างหน่วยความจำใหม่ การปรับปรุงเหล่านี้แนะนำ LSTM ใหม่สองรูปแบบ ซึ่งเรียกว่า sLSTM (scalar LSTM) และ mLSTM (matrix LSTM)
- sLSTM: สเกลาร์ LSTM พร้อม Exponential Gating และการผสมหน่วยความจำ
- เกตติ้งเอ็กซ์โปเนนเชียล: sLSTM รวมฟังก์ชันการเปิดใช้งานแบบเอ็กซ์โปเนนเชียลสำหรับอินพุตและเกตเวย์ ทำให้สามารถควบคุมการไหลของข้อมูลได้อย่างยืดหยุ่นมากขึ้น
- การทำให้เป็นมาตรฐานและความเสถียร: เพื่อป้องกันความไม่เสถียรของตัวเลข sLSTM แนะนำสถานะนอร์มัลไลเซอร์ที่คอยติดตามผลคูณของเกตอินพุตและเกตลืมในอนาคต
- การผสมหน่วยความจำ: sLSTM รองรับเซลล์หน่วยความจำหลายเซลล์และอนุญาตให้มีการผสมหน่วยความจำผ่านการเชื่อมต่อที่เกิดซ้ำ ทำให้สามารถแยกรูปแบบที่ซับซ้อนและความสามารถในการติดตามสถานะ
- มล: Matrix LSTM พร้อมความจุพื้นที่จัดเก็บข้อมูลที่ได้รับการปรับปรุง
- หน่วยความจำเมทริกซ์: แทนที่จะเป็นเซลล์หน่วยความจำสเกลาร์ mLSTM ใช้หน่วยความจำเมทริกซ์ ช่วยเพิ่มความจุในการจัดเก็บข้อมูล และช่วยให้สามารถดึงข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น
- กฎการอัพเดตความแปรปรวนร่วม: mLSTM ใช้กฎการอัปเดตความแปรปรวนร่วมซึ่งได้รับแรงบันดาลใจจาก BiDirectional Associative Memories (BAM) เพื่อจัดเก็บและดึงข้อมูลคู่คีย์-ค่าอย่างมีประสิทธิภาพ
- ความขนานกัน: ด้วยการละทิ้งการผสมหน่วยความจำ mLSTM จึงสามารถใช้งานแบบขนานได้เต็มรูปแบบ ช่วยให้สามารถคำนวณได้อย่างมีประสิทธิภาพบนตัวเร่งฮาร์ดแวร์สมัยใหม่
ตัวแปรทั้งสองนี้ sLSTM และ mLSTM สามารถรวมเข้ากับสถาปัตยกรรมบล็อกที่เหลือ โดยสร้างบล็อก xLSTM ด้วยการซ้อนบล็อก xLSTM ที่เหลือเข้าด้วยกัน นักวิจัยจะสามารถสร้างสถาปัตยกรรม xLSTM อันทรงพลังซึ่งปรับแต่งมาสำหรับงานเฉพาะและโดเมนแอปพลิเคชันได้
คณิตศาสตร์
LSTM แบบดั้งเดิม:
สถาปัตยกรรม LSTM ดั้งเดิมได้แนะนำกลไกการหมุนและเกตข้อผิดพลาดคงที่เพื่อเอาชนะปัญหาการไล่ระดับสีที่หายไปในโครงข่ายประสาทที่เกิดซ้ำ
![โมดูลการทำซ้ำใน LSTM](https://www.unite.ai/wp-content/uploads/2024/05/LSTM.png)
โมดูลการทำซ้ำใน LSTM – แหล่ง
การอัพเดตเซลล์หน่วยความจำ LSTM อยู่ภายใต้สมการต่อไปนี้:
อัปเดตสถานะเซลล์: ct = ft ⊙ ct-1 + it ⊙ zt
การอัปเดตสถานะที่ซ่อนอยู่: ht = ot ⊙ tanh(ct)
ที่ไหน:
- 𝑐𝑡 คือเวกเตอร์สถานะของเซลล์ ณ เวลาหนึ่ง 𝑡
- 𝑓𝑡 คือเวกเตอร์ประตูลืม
- ⭐𝑡 คือเวกเตอร์เกตอินพุต
- 𝑡 คือเวกเตอร์เกตเอาท์พุต
- 𝑧𝑡 คืออินพุตมอดูเลตโดยเกตอินพุต
- ⊙ แสดงถึงการคูณตามองค์ประกอบ
ประตู ft, it และ ot ควบคุมข้อมูลใดที่ถูกจัดเก็บ ลืม และส่งออกจากสถานะเซลล์ ct ซึ่งช่วยลดปัญหาการไล่ระดับสีที่หายไป
xLSTM พร้อม Exponential Gating:
สถาปัตยกรรม xLSTM นำเสนอช่องทางแบบเอกซ์โปเนนเชียลเพื่อให้สามารถควบคุมการไหลของข้อมูลได้อย่างยืดหยุ่นมากขึ้น สำหรับตัวแปรสเกลาร์ xLSTM (sLSTM):
อัปเดตสถานะเซลล์: ct = ft ⊙ ct-1 + it ⊙ zt
อัปเดตสถานะ Normalizer: nt = ft ⊙ nt-1 + it
การอัปเดตสถานะที่ซ่อนอยู่: ht = ot ⊙ (ct / nt)
อินพุตและลืมเกตส์: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)
ฟังก์ชันการเปิดใช้งานเอ็กซ์โปเนนเชียลสำหรับอินพุต (it) และเกต (ft) ร่วมกับสถานะนอร์มัลไลเซอร์ nt ช่วยให้สามารถควบคุมการอัปเดตหน่วยความจำได้อย่างมีประสิทธิภาพมากขึ้น และแก้ไขข้อมูลที่เก็บไว้
คุณสมบัติหลักและข้อดีของ xLSTM
- ความสามารถในการแก้ไขการตัดสินใจด้านการจัดเก็บ: ต้องขอบคุณ exponential gating xLSTM จึงสามารถแก้ไขค่าที่เก็บไว้ได้อย่างมีประสิทธิภาพเมื่อพบข้อมูลที่เกี่ยวข้องมากขึ้น โดยเอาชนะข้อจำกัดที่สำคัญของ LSTM แบบเดิมได้
- ความจุพื้นที่จัดเก็บข้อมูลที่เพิ่มขึ้น: หน่วยความจำเมทริกซ์ใน mLSTM ช่วยเพิ่มความจุในการจัดเก็บข้อมูล ทำให้ xLSTM สามารถจัดการโทเค็นที่หายาก การขึ้นต่อกันในระยะยาว และรูปแบบข้อมูลที่ซับซ้อนได้อย่างมีประสิทธิภาพมากขึ้น
- ความขนานกัน: xLSTM เวอร์ชัน mLSTM สามารถใช้งานแบบขนานได้อย่างสมบูรณ์ ช่วยให้สามารถคำนวณได้อย่างมีประสิทธิภาพบนตัวเร่งฮาร์ดแวร์สมัยใหม่ เช่น GPU และเปิดใช้งานความสามารถในการขยายขนาดไปยังโมเดลที่ใหญ่ขึ้น
- การผสมหน่วยความจำและการติดตามสถานะ: รูปแบบ sLSTM ของ xLSTM ยังคงความสามารถในการผสมหน่วยความจำของ LSTM แบบดั้งเดิม ทำให้สามารถติดตามสถานะและทำให้ xLSTM แสดงออกได้ชัดเจนกว่า Transformers และ State Space Models สำหรับงานบางอย่าง
- scalability: ด้วยการใช้ประโยชน์จากเทคนิคล่าสุดจาก Large Language Models (LLM) สมัยใหม่ ทำให้ xLSTM สามารถปรับขนาดเป็นพารามิเตอร์นับพันล้านรายการได้ ปลดล็อกความเป็นไปได้ใหม่ๆ ในการสร้างแบบจำลองภาษาและงานการประมวลผลตามลำดับ
การประเมินเชิงทดลอง: การแสดงความสามารถของ xLSTM
บทความวิจัยนำเสนอการประเมินการทดลองที่ครอบคลุมของ xLSTM โดยเน้นประสิทธิภาพของ xLSTM ในงานต่างๆ และเกณฑ์มาตรฐาน ต่อไปนี้เป็นข้อค้นพบที่สำคัญบางประการ:
- งานสังเคราะห์และสนามกีฬาระยะไกล:
- xLSTM เป็นเลิศในการแก้ปัญหางานภาษาทางการที่ต้องมีการติดตามสถานะ มีประสิทธิภาพเหนือกว่า Transformers, State Space Models และสถาปัตยกรรม RNN อื่นๆ
- ในงาน Multi-Query Associative Recall xLSTM แสดงให้เห็นถึงความจุของหน่วยความจำที่ได้รับการปรับปรุง ซึ่งเหนือกว่ารุ่นที่ไม่ใช่ Transformer และแข่งขันกับประสิทธิภาพของ Transformers
- ในเกณฑ์มาตรฐาน Long Range Arena นั้น xLSTM แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งอย่างต่อเนื่อง โดยแสดงให้เห็นถึงประสิทธิภาพในการจัดการปัญหาที่มีบริบทยาว
- การสร้างแบบจำลองภาษาและงานขั้นปลาย:
- เมื่อฝึกฝนบนโทเค็น 15B จากชุดข้อมูล SlimPajama xLSTM จะมีประสิทธิภาพเหนือกว่าวิธีการที่มีอยู่ รวมถึง Transformers, State Space Models และตัวแปร RNN อื่นๆ ในแง่ของความยุ่งยากในการตรวจสอบความถูกต้อง
- เนื่องจากโมเดลได้รับการปรับขนาดให้มีขนาดใหญ่ขึ้น xLSTM ยังคงรักษาความได้เปรียบด้านประสิทธิภาพไว้ โดยแสดงให้เห็นถึงพฤติกรรมการปรับขนาดที่ดี
- ในงานขั้นปลาย เช่น การใช้เหตุผลสามัญสำนึกและการตอบคำถาม xLSTM กลายเป็นวิธีที่ดีที่สุดสำหรับโมเดลขนาดต่างๆ ซึ่งเหนือกว่าแนวทางที่ล้ำสมัย
- ประสิทธิภาพในงานภาษา PALOMA:
- จากการประเมินบนโดเมนข้อความ 571 โดเมนจากเกณฑ์มาตรฐานภาษา PALOMA xLSTM[1:0] (ตัวแปร sLSTM) ประสบความยุ่งยากน้อยกว่าวิธีอื่นๆ ใน 99.5% ของโดเมนเมื่อเปรียบเทียบกับ Mamba, 85.1% เมื่อเทียบกับ Llama และ 99.8% เมื่อเทียบกับ RWKV -4.
- กฎมาตราส่วนและการประมาณค่าความยาว:
- เมื่อฝึกฝนกับโทเค็น 300B จาก SlimPajama แล้ว xLSTM จะแสดงกฎการปรับขนาดที่ดี ซึ่งบ่งชี้ถึงศักยภาพในการปรับปรุงประสิทธิภาพเพิ่มเติมเมื่อขนาดของโมเดลเพิ่มขึ้น
- ในการทดลองการประมาณค่าความยาวตามลำดับ โมเดล xLSTM จะรักษาความฉงนสนเท่ห์ต่ำแม้ในบริบทที่นานกว่าที่เห็นในระหว่างการฝึกอย่างมาก ซึ่งมีประสิทธิภาพเหนือกว่าวิธีอื่นๆ
ผลการทดลองเหล่านี้เน้นให้เห็นถึงความสามารถอันน่าทึ่งของ xLSTM โดยวางตำแหน่งให้เป็นคู่แข่งที่น่าหวังสำหรับงานการสร้างแบบจำลองภาษา การประมวลผลลำดับ และแอปพลิเคชันอื่นๆ ที่หลากหลาย
การใช้งานจริงและทิศทางในอนาคต
การใช้งานที่เป็นไปได้ของ xLSTM ครอบคลุมโดเมนที่หลากหลาย ตั้งแต่การประมวลผลภาษาธรรมชาติและการสร้างแบบจำลองไปจนถึงการสร้างแบบจำลองลำดับ การวิเคราะห์อนุกรมเวลา และอื่นๆ ต่อไปนี้เป็นประเด็นที่น่าตื่นเต้นบางส่วนที่ xLSTM อาจสร้างผลกระทบที่สำคัญได้:
- การสร้างแบบจำลองภาษาและการสร้างข้อความ: ด้วยความจุในการจัดเก็บข้อมูลที่เพิ่มขึ้นและความสามารถในการแก้ไขข้อมูลที่เก็บไว้ xLSTM สามารถปฏิวัติงานการสร้างแบบจำลองภาษาและการสร้างข้อความ ทำให้การสร้างข้อความมีความสอดคล้อง รับรู้บริบท และคล่องแคล่วมากขึ้น
- การแปลด้วยเครื่อง: ความสามารถในการติดตามสถานะของ xLSTM สามารถพิสูจน์ได้ว่ามีคุณค่าอย่างยิ่งในงานแปลด้วยเครื่อง ซึ่งการรักษาข้อมูลตามบริบทและการทำความเข้าใจการขึ้นต่อกันในระยะยาวถือเป็นสิ่งสำคัญสำหรับการแปลที่แม่นยำ
- การรู้จำเสียงและการสร้าง: ความสามารถในการขนานและความสามารถในการปรับขนาดของ xLSTM ทำให้เหมาะอย่างยิ่งสำหรับการรู้จำเสียงและแอปพลิเคชันการสร้าง ซึ่งการประมวลผลลำดับที่ยาวอย่างมีประสิทธิภาพเป็นสิ่งจำเป็น
- การวิเคราะห์และพยากรณ์อนุกรมเวลา: ความสามารถของ xLSTM ในการจัดการการพึ่งพาในระยะยาว รวมถึงจัดเก็บและดึงข้อมูลรูปแบบที่ซับซ้อนได้อย่างมีประสิทธิภาพอาจนำไปสู่การปรับปรุงที่สำคัญในการวิเคราะห์อนุกรมเวลาและงานพยากรณ์ในโดเมนต่างๆ เช่น การเงิน การพยากรณ์อากาศ และการใช้งานทางอุตสาหกรรม
- ระบบการเรียนรู้และการควบคุมการเสริมกำลัง: ศักยภาพของ xLSTM ในระบบการเรียนรู้และการควบคุมแบบเสริมกำลังมีแนวโน้มที่ดี เนื่องจากความสามารถของหน่วยความจำที่เพิ่มขึ้นและความสามารถในการติดตามสถานะสามารถเปิดใช้งานการตัดสินใจและการควบคุมที่ชาญฉลาดมากขึ้นในสภาพแวดล้อมที่ซับซ้อน
![](https://www.unite.ai/wp-content/uploads/2022/10/join-the-future-newsletter.png)
![](https://www.unite.ai/wp-content/uploads/2024/01/Unite-AI-Mobile-Newsletter-1.png)