Trí tuệ nhân tạo

xLSTM: Hướng Dẫn Toàn Diện Về Bộ Nhớ Tr dài Mở Rộng

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Trong hơn hai thập kỷ, kiến trúc Bộ Nhớ Tr dài (LSTM) tiên phong của Sepp Hochreiter đã đóng vai trò quan trọng trong nhiều đột phá học sâu và ứng dụng thực tế. Từ việc tạo ra ngôn ngữ tự nhiên đến việc cung cấp năng lực cho các hệ thống nhận dạng giọng nói, LSTM đã là một lực lượng thúc đẩy đằng sau cuộc cách mạng trí tuệ nhân tạo.

Tuy nhiên, ngay cả người tạo ra LSTM cũng nhận ra những hạn chế vốn có của nó, những hạn chế đã ngăn cản nó đạt được toàn bộ tiềm năng của mình. Những hạn chế như không thể sửa đổi thông tin được lưu trữ, khả năng lưu trữ bị giới hạn và thiếu khả năng song song đã mở đường cho sự xuất hiện của các mô hình như Transformer và các mô hình khác để vượt qua LSTM trong các nhiệm vụ ngôn ngữ phức tạp hơn.

Nhưng trong một sự phát triển gần đây, Hochreiter và nhóm của ông tại NXAI đã giới thiệu một biến thể mới gọi là LSTM mở rộng (xLSTM) để giải quyết những vấn đề này. Được trình bày trong một bài báo nghiên cứu gần đây, xLSTM xây dựng trên những ý tưởng cơ bản đã làm cho LSTM trở nên mạnh mẽ, đồng thời vượt qua những điểm yếu chính của nó thông qua các đổi mới về kiến trúc.

Ở cốt lõi của xLSTM là hai thành phần mới: cổng điều khiển theo cấp số nhân và cấu trúc bộ nhớ được cải tiến. Cổng điều khiển theo cấp số nhân cho phép kiểm soát thông tin linh hoạt hơn, cho phép xLSTM hiệu quả sửa đổi quyết định khi gặp thông tin mới. Trong khi đó, việc giới thiệu bộ nhớ ma trận tăng đáng kể khả năng lưu trữ so với LSTM truyền thống.

Nhưng những cải tiến không dừng lại ở đó. Bằng cách tận dụng các kỹ thuật vay mượn từ các mô hình ngôn ngữ lớn như khả năng song song và xếp chồng các khối dư, xLSTM có thể mở rộng hiệu quả lên tới hàng tỷ tham số. Điều này mở khóa tiềm năng của nó để mô hình hóa các chuỗi và cửa sổ ngữ cảnh cực dài – một khả năng quan trọng cho việc hiểu ngôn ngữ phức tạp.

Những ý nghĩa của sáng tạo mới nhất của Hochreiter là rất lớn. Hãy tưởng tượng các trợ lý ảo có thể theo dõi ngữ cảnh đáng tin cậy trong các cuộc trò chuyện kéo dài hàng giờ. Hoặc các mô hình ngôn ngữ tổng quát hóa mạnh mẽ hơn cho các lĩnh vực mới sau khi được đào tạo trên dữ liệu rộng. Các ứng dụng bao gồm mọi nơi LSTM đã tạo ra tác động – các rô-bốt trò chuyện, dịch, giao diện giọng nói, phân tích chương trình và nhiều hơn – nhưng bây giờ được tăng cường với khả năng đột phá của xLSTM.

Trong hướng dẫn kỹ thuật sâu này, chúng tôi sẽ đi sâu vào các chi tiết kiến trúc của xLSTM, đánh giá các thành phần mới như LSTM скаляр và ma trận, cơ chế cổng điều khiển theo cấp số nhân, cấu trúc bộ nhớ và nhiều hơn nữa. Bạn sẽ có được những hiểu biết từ kết quả thực nghiệm展示 hiệu suất ấn tượng của xLSTM so với các kiến trúc hiện đại như Transformer và các mô hình hồi quy mới nhất.

Hiểu Biết Nguồn Gốc: Những Hạn Chế Của LSTM

Trước khi chúng tôi đi vào thế giới của xLSTM, điều quan trọng là phải hiểu những hạn chế mà kiến trúc LSTM truyền thống đã phải đối mặt. Những hạn chế này đã là động lực thúc đẩy sự phát triển của xLSTM và các phương pháp thay thế khác.

Khả Năng Sửa Đổi Lưu Trữ Quyết Định: Một trong những hạn chế chính của LSTM là nó khó sửa đổi giá trị được lưu trữ khi gặp một vector tương tự hơn. Điều này có thể dẫn đến hiệu suất dưới mức tối ưu trong các nhiệm vụ yêu cầu cập nhật động cho thông tin được lưu trữ.
Khả Năng Lưu Trữ Giới Hạn: LSTM nén thông tin vào trạng thái tế bào scalar, điều này có thể hạn chế khả năng của nó để lưu trữ và truy xuất hiệu quả các mẫu dữ liệu phức tạp, đặc biệt là khi xử lý các token hiếm hoặc phụ thuộc phạm vi dài.
Thiếu Khả Năng Song Song: Cơ chế trộn bộ nhớ trong LSTM, liên quan đến các kết nối ẩn-ẩn giữa các bước thời gian, áp đặt xử lý tuần tự, cản trở tính toán song song và hạn chế khả năng mở rộng.

Những hạn chế này đã mở đường cho sự xuất hiện của Transformer và các kiến trúc khác đã vượt qua LSTM trong một số khía cạnh, đặc biệt là khi mở rộng lên các mô hình lớn hơn.

Kiến Trúc xLSTM

Extended LSTM (xLSTM) family

Ở cốt lõi của xLSTM nằm hai sửa đổi chính đối với khuôn khổ LSTM truyền thống: cổng điều khiển theo cấp số nhân và cấu trúc bộ nhớ mới. Những cải tiến này giới thiệu hai biến thể mới của LSTM, được gọi là sLSTM (LSTM scalar) và mLSTM (LSTM ma trận).

sLSTM: LSTM Scalar với Cổng Điều Khiển Theo Cấp Số Nhân và Trộn Bộ Nhớ
- Cổng Điều Khiển Theo Cấp Số Nhân: sLSTM tích hợp các hàm kích hoạt theo cấp số nhân cho cổng vào và cổng quên, cho phép kiểm soát thông tin linh hoạt hơn.
- Bình Thường Hóa và Ổn Định: Để ngăn chặn sự không ổn định về mặt số, sLSTM giới thiệu một trạng thái bình thường hóa theo dõi tích của cổng vào và cổng quên trong tương lai.
- Trộn Bộ Nhớ: sLSTM hỗ trợ nhiều tế bào bộ nhớ và cho phép trộn bộ nhớ thông qua các kết nối hồi quy, cho phép trích xuất các mẫu phức tạp và theo dõi trạng thái.
mLSTM: LSTM Ma Trận với Khả Năng Lưu Trữ Cải Tiến
- Bộ Nhớ Ma Trận: Thay vì một tế bào bộ nhớ scalar, mLSTM sử dụng bộ nhớ ma trận, tăng khả năng lưu trữ và cho phép truy xuất thông tin hiệu quả hơn.
- Quy Tắc Cập Nhật Phụ Thuộc: mLSTM sử dụng quy tắc cập nhật phụ thuộc, được lấy cảm hứng từ Bộ Nhớ Tương Hội Bidirectional (BAMs), để lưu trữ và truy xuất hiệu quả các cặp khóa-giá trị.
- Khả Năng Song Song: Bằng cách bỏ qua trộn bộ nhớ, mLSTM đạt được khả năng song song hoàn toàn, cho phép tính toán hiệu quả trên các thiết bị gia tốc hiện đại.

Hai biến thể này, sLSTM và mLSTM, có thể được tích hợp vào các kiến trúc khối dư, tạo thành các khối xLSTM. Bằng cách xếp chồng dư các khối xLSTM, các nhà nghiên cứu có thể xây dựng các kiến trúc xLSTM mạnh mẽ được tùy chỉnh cho các nhiệm vụ và lĩnh vực ứng dụng cụ thể.

Toán Học

LSTM Truyền Thống:

Kiến trúc LSTM ban đầu đã giới thiệu xe đua lỗi không đổi và cơ chế cổng để vượt qua vấn đề gradient biến mất trong các mạng nơ-ron hồi quy.

The repeating module in an LSTM – Source

Cập nhật trạng thái tế bào của LSTM được điều khiển bởi các phương trình sau:

Cập Nhật Trạng Thái Tế Bào: ct = ft ⊙ ct-1 + it ⊙ zt

Cập Nhật Trạng Thái Ẩn: ht = ot ⊙ tanh(ct)

Trong đó:

là vector trạng thái tế bào tại thời điểm $t$
là vector cổng quên
là vector cổng vào
là vector cổng ra
là đầu vào được điều chỉnh bởi cổng vào
biểu thị phép nhân phần tử

Các cổng ft, it và ot kiểm soát thông tin nào được lưu trữ, quên và xuất ra từ trạng thái tế bào ct, giảm thiểu vấn đề gradient biến mất.

xLSTM với Cổng Điều Khiển Theo Cấp Số Nhân:

Kiến trúc xLSTM giới thiệu cổng điều khiển theo cấp số nhân để cho phép kiểm soát thông tin linh hoạt hơn. Đối với biến thể sLSTM (LSTM scalar) của xLSTM:

Cập Nhật Trạng Thái Tế Bào: ct = ft ⊙ ct-1 + it ⊙ zt

Cập Nhật Trạng Thái Bình Thường Hóa: nt = ft ⊙ nt-1 + it

Cập Nhật Trạng Thái Ẩn: ht = ot ⊙ (ct / nt)

Cổng Vào và Cổng Quên: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) HOẶC ft = exp(W_f xt + R_f ht-1 + b_f)

Hàm kích hoạt theo cấp số nhân cho cổng vào (it) và cổng quên (ft), cùng với trạng thái bình thường hóa nt, cho phép kiểm soát hiệu quả hơn đối với cập nhật bộ nhớ và sửa đổi thông tin được lưu trữ.

xLSTM với Bộ Nhớ Ma Trận:

Đối với biến thể mLSTM (LSTM ma trận) với khả năng lưu trữ cải tiến:

Cập Nhật Trạng Thái Tế Bào: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Cập Nhật Trạng Thái Bình Thường Hóa: nt = ft ⊙ nt-1 + it ⊙ kt

Cập Nhật Trạng Thái Ẩn: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Trong đó:

$là trạng thái tế bào ma trận$
và là vector giá trị và vector khóa
là vector truy vấn được sử dụng để truy xuất

Những phương trình chính này làm nổi bật cách xLSTM mở rộng công thức LSTM ban đầu với cổng điều khiển theo cấp số nhân để kiểm soát bộ nhớ linh hoạt hơn và bộ nhớ ma trận để tăng khả năng lưu trữ.

Tính Năng và Ưu Điểm Chính của xLSTM

Khả Năng Sửa Đổi Lưu Trữ Quyết Định: Nhờ cổng điều khiển theo cấp số nhân, xLSTM có thể hiệu quả sửa đổi giá trị được lưu trữ khi gặp thông tin liên quan hơn, vượt qua một hạn chế chính của LSTM truyền thống.
Khả Năng Lưu Trữ Cải Tiến: Bộ nhớ ma trận trong mLSTM cung cấp khả năng lưu trữ tăng, cho phép xLSTM xử lý các token hiếm, phụ thuộc phạm vi dài và mẫu dữ liệu phức tạp hiệu quả hơn.
Khả Năng Song Song: Biến thể mLSTM của xLSTM có khả năng song song hoàn toàn, cho phép tính toán hiệu quả trên các thiết bị gia tốc hiện đại và cho phép mở rộng lên các mô hình lớn hơn.
Trộn Bộ Nhớ và Theo Dõi Trạng Thái: Biến thể sLSTM của xLSTM giữ lại khả năng trộn bộ nhớ của LSTM truyền thống, cho phép theo dõi trạng thái và làm cho xLSTM mạnh mẽ hơn Transformer và Mô hình Không Gian cho các nhiệm vụ cụ thể.
Khả Năng Mở Rộng: Bằng cách tận dụng các kỹ thuật mới nhất từ các Mô hình Ngôn ngữ Lớn (LLM), xLSTM có thể mở rộng lên hàng tỷ tham số, mở khóa các khả năng mới trong mô hình hóa ngôn ngữ và xử lý chuỗi.

Đánh Giá Thực Nghiệm: Khả Năng của xLSTM

Bài báo nghiên cứu trình bày một đánh giá thực nghiệm toàn diện về xLSTM, làm nổi bật hiệu suất của nó trên các nhiệm vụ và chuẩn mực khác nhau. Dưới đây là một số phát hiện chính:

Nhiệm Vụ Tổng Hợp và Long Range Arena:
- xLSTM vượt trội trong việc giải quyết các nhiệm vụ ngôn ngữ chính thức yêu cầu theo dõi trạng thái, vượt qua Transformer, Mô hình Không Gian và các kiến trúc RNN khác.
- Trong nhiệm vụ Nhớ Tương Hội Đa Yêu Cầu, xLSTM chứng tỏ khả năng lưu trữ cải tiến, vượt qua các mô hình không phải Transformer và ngang bằng với hiệu suất của Transformer.
- Trên chuẩn mực Long Range Arena, xLSTM thể hiện hiệu suất mạnh mẽ và nhất quán, chứng tỏ hiệu quả của nó trong việc xử lý các vấn đề phạm vi dài.
Mô Hình Hóa Ngôn Ngữ và Nhiệm Vụ Xuống Dòng:
- Khi được đào tạo trên 15B token từ tập dữ liệu SlimPajama, xLSTM vượt qua các phương pháp hiện có, bao gồm Transformer, Mô hình Không Gian và các biến thể RNN khác, về độ phức tạp xác thực.
- Khi các mô hình được mở rộng lên kích thước lớn hơn, xLSTM tiếp tục duy trì lợi thế hiệu suất của mình, chứng tỏ sự mở rộng có lợi.
- Trong các nhiệm vụ xuống dòng như lý lẽ chung và trả lời câu hỏi, xLSTM nổi lên như phương pháp tốt nhất trên các kích thước mô hình khác nhau, vượt qua các phương pháp hiện đại.
Hiệu Suất Trên Nhiệm Vụ Ngôn Ngữ PALOMA:
- Đánh giá trên 571 miền ngôn ngữ từ chuẩn mực PALOMA, xLSTM[1:0] (biến thể sLSTM) đạt được độ phức tạp thấp hơn so với các phương pháp khác trong 99,5% miền so với Mamba, 85,1% so với Llama và 99,8% so với RWKV-4.
Định Luật Mở Rộng và Kéo Dài Độ Dài:
- Khi được đào tạo trên 300B token từ SlimPajama, xLSTM thể hiện định luật mở rộng có lợi, chỉ ra tiềm năng của nó để cải thiện hiệu suất khi kích thước mô hình tăng.
- Trong các thí nghiệm kéo dài độ dài, mô hình xLSTM duy trì độ phức tạp thấp ngay cả đối với các ngữ cảnh dài hơn đáng kể so với những gì được thấy trong quá trình đào tạo, vượt qua các phương pháp khác.

Những kết quả thực nghiệm này làm nổi bật khả năng ấn tượng của xLSTM, đặt nó vào vị trí là một ứng cử viên đầy hứa hẹn cho các nhiệm vụ mô hình hóa ngôn ngữ, xử lý chuỗi và nhiều lĩnh vực ứng dụng khác.

Ứng Dụng Thực Tiễn và Hướng Tiếp Cận Tương Lai

Các ứng dụng tiềm năng của xLSTM trải rộng trên nhiều lĩnh vực, từ xử lý ngôn ngữ tự nhiên đến mô hình hóa chuỗi, phân tích chuỗi thời gian và hơn thế nữa. Dưới đây là một số lĩnh vực thú vị mà xLSTM có thể tạo ra tác động đáng kể:

Mô Hình Hóa Ngôn Ngữ và Tạo Ngôn Ngữ: Với khả năng lưu trữ cải tiến và khả năng sửa đổi thông tin được lưu trữ, xLSTM có thể cách mạng hóa các nhiệm vụ mô hình hóa ngôn ngữ và tạo ngôn ngữ, cho phép tạo ra văn bản mạch lạc, nhạy cảm với ngữ cảnh và trôi chảy hơn.
Dịch Máy: Khả năng theo dõi trạng thái của xLSTM có thể chứng minh là vô giá trong các nhiệm vụ dịch máy, nơi duy trì thông tin ngữ cảnh và hiểu phụ thuộc phạm vi dài là điều quan trọng để dịch chính xác.
Nhận Dạng và Tạo Giọng Nói: Khả năng song song và khả năng mở rộng của xLSTM làm cho nó phù hợp với các ứng dụng nhận dạng và tạo giọng nói, nơi xử lý hiệu quả các chuỗi dài là thiết yếu.
Phân Tích và Dự Báo Chuỗi Thời Gian: Khả năng của xLSTM trong việc xử lý phụ thuộc phạm vi dài và lưu trữ mẫu phức tạp có thể dẫn đến cải tiến đáng kể trong phân tích và dự báo chuỗi thời gian trên nhiều lĩnh vực, như tài chính, dự báo thời tiết và ứng dụng công nghiệp.
Học Cường và Hệ Thống Điều Khiển: Tiềm năng của xLSTM trong học cường và hệ thống điều khiển là đầy hứa hẹn, vì khả năng lưu trữ và theo dõi trạng thái cải tiến của nó có thể cho phép ra quyết định thông minh hơn và điều khiển trong các môi trường phức tạp.

Tối Ưu Hóa Kiến Trúc và Điều Chỉnh Hyperparameter

Mặc dù kết quả hiện tại rất hứa hẹn, vẫn còn nhiều phòng cho việc tối ưu hóa kiến trúc xLSTM và điều chỉnh các hyperparameter của nó. Các nhà nghiên cứu có thể khám phá các kết hợp khác nhau của các khối sLSTM và mLSTM, thay đổi tỷ lệ và vị trí trong kiến trúc tổng thể. Ngoài ra, một tìm kiếm hệ thống về hyperparameter có thể dẫn đến cải thiện hiệu suất hơn, đặc biệt là đối với các mô hình lớn hơn.

Tối Ưu Hóa Phần Cứng: Để tận dụng tối đa khả năng song song của xLSTM, đặc biệt là biến thể mLSTM, các nhà nghiên cứu có thể điều tra các tối ưu hóa phần cứng cụ thể cho các kiến trúc GPU hoặc các thiết bị gia tốc khác. Điều này có thể liên quan đến tối ưu hóa các hạt nhân CUDA, chiến lược quản lý bộ nhớ và tận dụng các lệnh hoặc thư viện chuyên dụng cho các hoạt động ma trận hiệu quả.

Tích Hợp với Các Thành Phần Mạng Nơ-Ron Khác: Khám phá việc tích hợp xLSTM với các thành phần mạng nơ-ron khác, như cơ chế chú ý, convolution hoặc các kỹ thuật học tự giám sát, có thể dẫn đến các kiến trúc lai ghép kết hợp điểm mạnh của các phương pháp khác nhau. Những mô hình lai ghép này có thể mở khóa các khả năng mới và cải thiện hiệu suất trên nhiều nhiệm vụ.

Học Với Số Lượng Dữ Liệu Ít và Học Chuyển: Khám phá việc sử dụng xLSTM trong các kịch bản học với số lượng dữ liệu ít và học chuyển có thể là một hướng nghiên cứu thú vị trong tương lai. Bằng cách tận dụng khả năng lưu trữ và theo dõi trạng thái cải tiến của xLSTM, nó có thể cho phép chuyển giao kiến thức hiệu quả hơn và thích nghi nhanh với các nhiệm vụ hoặc lĩnh vực mới với số lượng dữ liệu đào tạo hạn chế.

Giải Thích và Minh Bạch: Như với nhiều mô hình học sâu, các hoạt động bên trong của xLSTM có thể không rõ ràng và khó giải thích. Phát triển các kỹ thuật để giải thích và làm rõ các quyết định được xLSTM đưa ra có thể dẫn đến các mô hình minh bạch và đáng tin cậy hơn, tạo điều kiện cho việc áp dụng chúng trong các ứng dụng quan trọng và thúc đẩy trách nhiệm giải trình.

Chiến Lược Đào Tạo Hiệu Quả và Có Khả Năng Mở Rộng: Khi các mô hình tiếp tục phát triển về kích thước và độ phức tạp, các chiến lược đào tạo hiệu quả và có khả năng mở rộng trở nên quan trọng hơn. Các nhà nghiên cứu có thể khám phá các kỹ thuật như song song mô hình, song song dữ liệu và các phương pháp đào tạo phân tán cụ thể cho kiến trúc xLSTM, cho phép đào tạo các mô hình lớn hơn và có thể giảm chi phí tính toán.

Đây là một số hướng nghiên cứu và khám phá tương lai tiềm năng với xLSTM.

Kết Luận

Sự ra đời của xLSTM đánh dấu một cột mốc quan trọng trong việc tìm kiếm các kiến trúc mô hình hóa ngôn ngữ và xử lý chuỗi mạnh mẽ và hiệu quả hơn. Bằng cách giải quyết các hạn chế của LSTM truyền thống và tận dụng các kỹ thuật mới như cổng điều khiển theo cấp số nhân và cấu trúc bộ nhớ ma trận, xLSTM đã chứng minh hiệu suất đáng chú ý trên nhiều nhiệm vụ và chuẩn mực.

Tuy nhiên, hành trình không kết thúc ở đây. Như với bất kỳ công nghệ đột phá nào, xLSTM mang lại những cơ hội thú vị cho việc khám phá, tinh chỉnh và áp dụng trong các kịch bản thực tế. Khi các nhà nghiên cứu tiếp tục đẩy ranh giới của những gì có thể, chúng ta có thể mong đợi chứng kiến những tiến bộ ấn tượng hơn nữa trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.