Trí tuệ nhân tạo

MambaOut: Chúng Ta Có Thật Sự Cần Mamba Cho Vision?

Published May 24, 2024

Updated April 27, 2026

Kunal Kejriwal

Trong các khuôn khổ học máy và trí tuệ nhân tạo hiện đại, các bộ chuyển đổi là một trong những thành phần được sử dụng rộng rãi nhất trên các lĩnh vực khác nhau, bao gồm cả loạt GPT và BERT trong Xử lý Ngôn ngữ Tự nhiên, cũng như Vision Transformers trong các nhiệm vụ thị giác máy tính. Mặc dù việc включ các bộ chuyển đổi vào kiến trúc mô hình mang lại sự cải thiện đáng kể về hiệu suất của mô hình, nhưng mô-đun chú ý trong các Bộ chuyển đổi có độ phức tạp bậc hai đối với độ dài chuỗi, dẫn đến những thách thức tính toán lớn. Trong những năm qua, các mô hình khác nhau đã khám phá các chiến lược khác nhau để giải quyết những thách thức tính toán này, bao gồm các phương pháp như kernel hóa, nén bộ nhớ lịch sử, giới hạn phạm vi trộn token và các phương pháp hạng thấp. Gần đây, các Mạng nơ-ron hồi quy như Mamba và RWKV đã thu hút sự chú ý đáng kể nhờ vào kết quả hứa hẹn của chúng trong các mô hình ngôn ngữ lớn.

Mamba, một họ mô hình có kiến trúc với một bộ trộn token giống như mạng nơ-ron hồi quy của một mô hình không gian trạng thái, đã được giới thiệu gần đây để giải quyết độ phức tạp bậc hai của các cơ chế chú ý và sau đó được áp dụng cho các nhiệm vụ thị giác. Các nhà nghiên cứu đã khám phá cách tích hợp Mamba và SSM hoặc Mô hình Không gian Trạng thái vào các nhiệm vụ nhận dạng thị giác, và Vision Mamba, mô hình kết hợp Mamba để phát triển các mô hình thị giác đẳng hướng tương tự như Vision Transformer, là một ví dụ tuyệt vời về điều này. Mặt khác, LocalMamba tích hợp các thiên vị cảm ứng cục bộ để nâng cao các mô hình thị giác Mamba, và khuôn khổ VMamba sử dụng mô hình Mamba cơ bản để xây dựng các mô hình phân cấp tương tự như ResNet và AlexNet. Tuy nhiên, liệu khuôn khổ Mamba thực sự cần thiết cho các nhiệm vụ nhận dạng thị giác? Câu hỏi này xuất hiện vì hiệu suất của họ mô hình Mamba cho các nhiệm vụ thị giác đã không thuyết phục cho đến nay khi so sánh với các mô hình chú ý truyền thống và mô hình convolutional.

MambaOut cố gắng trả lời liệu Mamba có thực sự phù hợp cho các nhiệm vụ có đặc điểm tự hồi quy và chuỗi dài hay không. Khung MambaOut đưa ra giả thuyết rằng Mamba không cần thiết cho các nhiệm vụ thị giác vì phân loại hình ảnh không phù hợp với cả đặc điểm tự hồi quy và chuỗi dài. Mặc dù các nhiệm vụ phân đoạn và phát hiện không phải là tự hồi quy, chúng vẫn thể hiện đặc điểm chuỗi dài, dẫn đến khuôn khổ MambaOut đưa ra giả thuyết về tiềm năng của Mamba cho các nhiệm vụ này. Khung MambaOut được xây dựng bằng cách xếp chồng các khối Mamba lên nhau trong khi loại bỏ mô hình không gian trạng thái, bộ trộn token cốt lõi của nó. Kết quả thực nghiệm hỗ trợ giả thuyết được đưa ra bởi khuôn khổ MambaOut vì nó có thể vượt qua tất cả các mô hình thị giác Mamba trên khuôn khổ phân loại hình ảnh ImageNet, cho thấy Mamba không cần thiết cho các nhiệm vụ thị giác. Mặt khác, đối với các nhiệm vụ phát hiện và phân đoạn, khuôn khổ MambaOut không thể tái tạo hiệu suất được cung cấp bởi mô hình Mamba hiện đại, chứng tỏ tiềm năng của họ mô hình Mamba cho các nhiệm vụ thị giác chuỗi dài.

Bài viết này nhằm mục đích trình bày khuôn khổ MambaOut một cách chi tiết, và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khuôn khổ cùng với so sánh của nó với các khuôn khổ hiện đại. Vậy hãy bắt đầu.

MambaOut: Mamba Có Thật Sự Cần Thiết Cho Thị Giác?

Với sự tiến bộ của các ứng dụng và khả năng học máy, các Bộ chuyển đổi đã xuất hiện như xương sống chính cho nhiều nhiệm vụ, cung cấp các mô hình nổi bật bao gồm Vision Transformers, loạt mô hình GPT, BERT và một số khác. Tuy nhiên, bộ trộn token của bộ chuyển đổi gây ra độ phức tạp bậc hai liên quan đến độ dài chuỗi, và tạo ra những thách thức tính toán đáng kể. Để giải quyết vấn đề này, nhiều bộ trộn token có độ phức tạp tuyến tính với độ dài token như Linformer, Longformer, Performer, Dynamic Convolution và Big Bird đã được giới thiệu. Tuy nhiên, gần đây, các mô hình giống như Mạng nơ-ron hồi quy đang trở nên phổ biến nhờ khả năng đào tạo song song và hiệu suất hiệu quả trên các chuỗi dài. Hướng dẫn bởi hiệu suất đáng chú ý của các mô hình giống RNN, các nhà nghiên cứu đang cố gắng giới thiệu và sử dụng họ mô hình Mamba vào các nhiệm vụ nhận dạng thị giác vì bộ trộn token của mô hình Mamba là mô hình không gian trạng thái có cấu trúc dưới tinh thần của Mạng nơ-ron hồi quy. Tuy nhiên, kết quả thực nghiệm chỉ ra rằng các khuôn khổ dựa trên mô hình không gian trạng thái cho thị giác hoạt động không thuyết phục trên các nhiệm vụ thị giác thực tế khi so sánh với các mô hình dựa trên chú ý và mô hình convolutional hiện đại.

MambaOut là một nỗ lực để điều tra bản chất của họ mô hình Mamba, và tóm tắt rằng Mamba phù hợp với các nhiệm vụ có đặc điểm tự hồi quy hoặc chuỗi dài vì mô hình không gian trạng thái có cơ chế RNN nội tại. Tuy nhiên, đa số các nhiệm vụ thị giác không có cả hai đặc điểm này, và dựa trên một số thí nghiệm, MambaOut đưa ra hai giả thuyết. Đầu tiên, mô hình không gian trạng thái không cần thiết cho phân loại hình ảnh vì nhiệm vụ phân loại hình ảnh không phù hợp với cả đặc điểm tự hồi quy và chuỗi dài. Thứ hai, mô hình không gian trạng thái có thể có lợi cho phân đoạn thể hiện và phân đoạn ngữ nghĩa cùng với phát hiện đối tượng, vì chúng tuân theo đặc điểm chuỗi dài mặc dù chúng không phải là tự hồi quy. Kết quả thực nghiệm được thực hiện để phân tích cơ chế giống RNN của mô hình không gian trạng thái kết luận rằng khuôn khổ Mamba phù hợp với các nhiệm vụ có đặc điểm tự hồi quy hoặc chuỗi dài, và không cần thiết cho các nhiệm vụ phân loại hình ảnh. Đến với khuôn khổ MambaOut itself, nó là một loạt các mô hình Mamba dựa trên các khối Mạng nơ-ron convolutional cổng logic mà không có mô hình không gian trạng thái, và kết quả thực nghiệm chỉ ra rằng khuôn khổ MambaOut có thể vượt qua các mô hình Mamba thị giác trên khuôn khổ phân loại hình ảnh ImageNet, chỉ ra rằng Mamba không cần thiết cho các nhiệm vụ thị giác. Mặt khác, đối với các nhiệm vụ phát hiện và phân đoạn, khuôn khổ MambaOut không thể tái tạo hiệu suất được cung cấp bởi mô hình Mamba hiện đại, chứng tỏ tiềm năng của họ mô hình Mamba cho các nhiệm vụ thị giác chuỗi dài.

Nhiệm Vụ Nào Mamba Phù Hợp?

Bộ trộn token của khuôn khổ Mamba là một mô hình không gian trạng thái chọn lọc định nghĩa bốn tham số phụ thuộc vào đầu vào. Tính chất hồi quy của khuôn khổ phân biệt mô hình không gian trạng thái giống RNN với chú ý nguyên nhân. Trạng thái ẩn có thể được xem như một bộ nhớ có kích thước cố định lưu trữ thông tin lịch sử. Kích thước cố định có nghĩa là bộ nhớ này là mất mát, nhưng nó cũng đảm bảo độ phức tạp tính toán của việc tích hợp bộ nhớ với đầu vào hiện tại vẫn không đổi. Ngược lại, các lớp chú ý nguyên nhân lưu trữ tất cả các khóa và giá trị từ các token trước, và mở rộng bằng cách thêm khóa và giá trị của token hiện tại với mỗi đầu vào mới, và bộ nhớ này là không mất mát, về lý thuyết. Tuy nhiên, kích thước bộ nhớ tăng lên khi nhiều token được nhập, làm tăng độ phức tạp của việc tích hợp bộ nhớ với đầu vào hiện tại. Sự khác biệt giữa các cơ chế bộ nhớ giữa chú ý nguyên nhân và mô hình giống RNN được minh họa trong hình sau.

Vì bộ nhớ của mô hình không gian trạng thái là mất mát, nó không bằng với bộ nhớ không mất mát của chú ý nguyên nhân, và kết quả là, các mô hình Mamba không thể thể hiện được điểm mạnh của mình trong việc xử lý các chuỗi ngắn, một lĩnh vực mà cơ chế chú ý nguyên nhân thực hiện tốt với dễ dàng. Tuy nhiên, trong các kịch bản liên quan đến các chuỗi dài, cách tiếp cận chú ý nguyên nhân gặp khó khăn do độ phức tạp bậc hai. Trong kịch bản này, khuôn khổ Mamba thể hiện hiệu quả của mình trong việc trộn bộ nhớ với đầu vào hiện tại, và có thể xử lý các chuỗi dài một cách mượt mà, chỉ ra rằng họ mô hình Mamba phù hợp với việc xử lý các chuỗi dài.

Điều đáng chú ý là tính chất hồi quy của mô hình không gian trạng thái cho phép các mô hình Mamba xử lý các chuỗi dài một cách hiệu quả, nhưng nó cũng giới thiệu một số hạn chế vì nó chỉ có thể truy cập thông tin từ các bước thời gian hiện tại và trước đó, và loại trộn token này được gọi là chế độ nguyên nhân, và được minh họa trong hình sau. Do tính chất nguyên nhân của nó, phương pháp này phù hợp với các nhiệm vụ tạo tự hồi quy.

Chế độ nhìn thấy đầy đủ phù hợp với các nhiệm vụ hiểu biết nơi mô hình có thể truy cập tất cả các đầu vào cùng một lúc. Hơn nữa, chú ý là ở chế độ nhìn thấy đầy đủ theo mặc định, và nó có thể được chuyển thành chế độ nguyên nhân dễ dàng bằng cách áp dụng các mặt nạ nguyên nhân cho các bản đồ chú ý, và các mô hình giống RNN hoạt động nội tại trong chế độ nguyên nhân do tính chất hồi quy của chúng. Để tóm tắt, khuôn khổ Mamba phù hợp với các nhiệm vụ liên quan đến việc xử lý các chuỗi dài, hoặc các nhiệm vụ yêu cầu chế độ trộn token nguyên nhân.

Nhiệm Vụ Nhận Dạng Thị Giác, Mã Trộn Token Nguyên Nhân, và Các Chuỗi Rất Lớn

Như đã thảo luận trước đó, chế độ trộn token nhìn thấy đầy đủ cho phép phạm vi trộn không giới hạn trong khi chế độ nguyên nhân giới hạn token hiện tại chỉ có thể truy cập thông tin từ các token trước. Hơn nữa, nhận dạng thị giác được phân loại là một nhiệm vụ hiểu biết nơi mô hình có thể nhìn thấy toàn bộ hình ảnh cùng một lúc, và điều này loại bỏ nhu cầu về các hạn chế đối với việc trộn token, và việc áp đặt các hạn chế bổ sung đối với việc trộn token có thể làm giảm hiệu suất của mô hình một cách tiềm năng. Generally, chế độ nhìn thấy đầy đủ phù hợp với các nhiệm vụ hiểu biết trong khi chế độ nguyên nhân phù hợp với các nhiệm vụ tự hồi quy hơn. Hơn nữa, tuyên bố này được hỗ trợ thêm bởi thực tế rằng các mô hình BeRT và ViT được sử dụng nhiều hơn cho các nhiệm vụ hiểu biết so với các mô hình GPT.

Xác Minh Thực Nghiệm và Kết Quả

Bước tiếp theo là xác minh các giả thuyết được đề xuất bởi khuôn khổ MambaOut một cách thực nghiệm. Như được minh họa trong hình sau, khối Mamba dựa trên khối Mạng nơ-ron convolutional cổng logic, và kiến trúc meta của các khối Mamba và Gated CNN có thể được coi là một tích hợp đơn giản của bộ trộn token của khuôn khổ MetaFormer và một MLP.

Khối Mamba mở rộng khối Mạng nơ-ron convolutional cổng logic với một mô hình không gian trạng thái bổ sung, và sự hiện diện của một SSm là điều phân biệt khối Gated CNN và khối Mamba. Hơn nữa, để cải thiện tốc độ thực tế, khuôn khổ MambaOut chỉ thực hiện phép convolution theo chiều sâu trên các kênh một phần, và như được minh họa trong thuật toán sau, việc thực hiện khối Gated CNN là đơn giản, hiệu quả và tinh tế.

Nhiệm Vụ Phân Loại Hình Ảnh

ImageNet đóng vai trò là chuẩn mực cho các nhiệm vụ phân loại hình ảnh vì nó bao gồm hơn một nghìn lớp phổ biến, hơn 1,3 triệu hình ảnh đào tạo và hơn 50.000 hình ảnh xác thực. Dữ liệu tăng cường được sử dụng cho thí nghiệm bao gồm cắt hình ảnh ngẫu nhiên, Mixup, điều chỉnh màu, Xóa Ngẫu nhiên, CutMix và Rand Augment. Bảng sau tóm tắt hiệu suất của họ mô hình Mamba, mô hình MambaOut và các mô hình dựa trên chú ý và convolutional khác trên tập dữ liệu ImageNet. Như có thể thấy, khuôn khổ MambaOut không có mô hình không gian trạng thái vượt qua các mô hình Mamba thị giác một cách nhất quán trên tất cả các kích thước mô hình.

Ví dụ, mô hình MambaOut-Small trả về điểm số độ chính xác hàng đầu là hơn 84%, cao hơn 0,4% so với đối thủ Mamba gần nhất. Kết quả này hỗ trợ mạnh mẽ giả thuyết đầu tiên cho rằng việc giới thiệu một mô hình không gian trạng thái cho các nhiệm vụ phân loại hình ảnh là không cần thiết.

Nhiệm Vụ Phát Hiện Đối Tượng và Phân Đoạn Thể Hiện

COCO đóng vai trò là chuẩn mực cho các nhiệm vụ phát hiện đối tượng và phân đoạn thể hiện. Mặc dù khuôn khổ MambaOut có thể vượt qua hiệu suất của một số mô hình Mamba thị giác, nhưng nó vẫn không thể đạt được hiệu suất của các mô hình Mamba thị giác hiện đại, bao gồm LocalVMamba và VMamba. Sự chênh lệch về hiệu suất của MambaOut so với các mô hình thị giác hiện đại nhấn mạnh vào lợi ích của việc tích hợp họ mô hình Mamba vào các nhiệm vụ thị giác chuỗi dài. Tuy nhiên, điều đáng chú ý là vẫn còn một khoảng cách hiệu suất đáng kể giữa các mô hình convolution-attention-hybrid hiện đại và các mô hình Mamba thị giác.

Suy Nghĩ Cuối Cùng

Họ mô hình Mamba dường như phù hợp với các nhiệm vụ có đặc điểm tự hồi quy và chuỗi dài. Khung MambaOut đưa ra giả thuyết rằng Mamba không cần thiết cho các nhiệm vụ thị giác vì phân loại hình ảnh không phù hợp với cả đặc điểm tự hồi quy và chuỗi dài. Mặc dù các nhiệm vụ phân đoạn và phát hiện không phải là tự hồi quy, chúng vẫn thể hiện đặc điểm chuỗi dài, dẫn đến khuôn khổ MambaOut đưa ra giả thuyết về tiềm năng của Mamba cho các nhiệm vụ này. Khung MambaOut được xây dựng bằng cách xếp chồng các khối Mamba lên nhau trong khi loại bỏ mô hình không gian trạng thái, bộ trộn token cốt lõi của nó. Kết quả thực nghiệm hỗ trợ giả thuyết được đưa ra bởi khuôn khổ MambaOut vì nó có thể vượt qua tất cả các mô hình Mamba thị giác trên khuôn khổ phân loại hình ảnh ImageNet, chỉ ra rằng Mamba không cần thiết cho các nhiệm vụ thị giác. Mặt khác, đối với các nhiệm vụ phát hiện và phân đoạn, khuôn khổ MambaOut không thể tái tạo hiệu suất được cung cấp bởi mô hình Mamba hiện đại, chứng tỏ tiềm năng của họ mô hình Mamba cho các nhiệm vụ thị giác chuỗi dài.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.