sơ khai MambaOut: Chúng ta có thực sự cần Mamba cho tầm nhìn không? - Đoàn kết.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

MambaOut: Chúng ta có thực sự cần Mamba cho tầm nhìn không?

mm

Được phát hành

 on

Trong các khung trí tuệ nhân tạo và học máy hiện đại, máy biến áp là một trong những thành phần được sử dụng rộng rãi nhất trên nhiều lĩnh vực khác nhau, bao gồm dòng GPT và BERT trong Xử lý ngôn ngữ tự nhiên và Máy biến áp thị giác trong các nhiệm vụ thị giác máy tính. Mặc dù việc đưa các máy biến áp vào kiến ​​trúc mô hình giúp tăng đáng kể hiệu suất của mô hình, nhưng mô-đun chú ý trong Máy biến áp có quy mô theo chiều dài chuỗi theo phương trình bậc hai, dẫn đến những thách thức tính toán cao. Trong những năm qua, các mô hình khác nhau đã khám phá các chiến lược khác nhau để giải quyết các thách thức tính toán, bao gồm các phương pháp như tạo hạt nhân, nén bộ nhớ lịch sử, giới hạn phạm vi trộn mã thông báo và các phương pháp xếp hạng thấp. Gần đây, các phương pháp như Mạng thần kinh tái phát bao gồm Mamba và RWKV đã thu hút được sự chú ý đáng kể nhờ kết quả đầy hứa hẹn của chúng trong các mô hình ngôn ngữ lớn. 

Mamba, một nhóm mô hình có kiến ​​trúc với Mạng thần kinh tái phát giống như bộ trộn mã thông báo của mô hình không gian trạng thái gần đây đã được giới thiệu để giải quyết độ phức tạp bậc hai của các cơ chế chú ý và sau đó được áp dụng cho các tác vụ thị giác. Các nhà nghiên cứu đã khám phá các cách kết hợp Mamba và SSM hoặc Mô hình không gian trạng thái vào các nhiệm vụ nhận dạng hình ảnh và Vision Mamba kết hợp Mamba để phát triển các mô hình tầm nhìn đẳng hướng giống như Vision Transformer là một ví dụ tuyệt vời về điều tương tự. Mặt khác, LocalMamba kết hợp các thành kiến ​​quy nạp cục bộ để nâng cao các mô hình Mamba trực quan và khung VMamba sử dụng mô hình Mamba cơ sở để xây dựng các mô hình phân cấp tương tự như ResNet và AlexNet. Tuy nhiên, khung Mamba có thực sự cần thiết cho các tác vụ bối cảnh nhận dạng hình ảnh không? Câu hỏi đặt ra là vì cho đến nay, hiệu suất của dòng mô hình Mamba cho các nhiệm vụ thị giác vẫn còn kém hiệu quả khi so sánh với các mô hình tích chập và dựa trên sự chú ý truyền thống. 

MambaOut là một công việc cố gắng đi sâu vào bản chất của khung Mamba và trả lời liệu Mamba có phù hợp lý tưởng cho các nhiệm vụ có đặc điểm tự hồi quy và trình tự dài hay không. Khung MambaOut đưa ra giả thuyết rằng Mamba không cần thiết cho các tác vụ thị giác vì việc phân loại hình ảnh không phù hợp với các đặc điểm chuỗi dài hoặc tự hồi quy. Mặc dù các tác vụ phân đoạn và phát hiện cũng không có tính tự hồi quy nhưng chúng hiển thị các đặc điểm trình tự dài, khiến khung MambaOut đưa ra giả thuyết về tiềm năng của Mamba cho các tác vụ này. Khung MambaOut được xây dựng bằng cách xếp chồng các khối Mamba lên nhau đồng thời loại bỏ mô hình không gian trạng thái, bộ trộn mã thông báo cốt lõi của nó. Các kết quả thử nghiệm ủng hộ giả thuyết được đưa ra bởi khung MambaOut vì nó có thể vượt qua tất cả các mô hình Mamba trực quan trên khung phân loại hình ảnh ImageNet, cho thấy Mamba không cần thiết cho các nhiệm vụ thị giác. Mặt khác, đối với các nhiệm vụ phát hiện và phân đoạn, khung MambaOut không thể tái tạo hiệu suất được cung cấp bởi mô hình Mamba hiện đại, thể hiện tiềm năng của dòng mô hình Mamba đối với các nhiệm vụ trực quan theo trình tự dài. 

Bài viết này nhằm mục đích trình bày sâu về khung MambaOut và chúng tôi khám phá cơ chế, phương pháp, kiến ​​trúc của khung cùng với sự so sánh của nó với các khung hiện đại. Vậy hãy bắt đầu. 

MambaOut: Mamba có thực sự cần thiết cho tầm nhìn không?

Với sự tiến bộ của các ứng dụng và khả năng học máy, Transformers đã nổi lên như một trụ cột chính cho một loạt nhiệm vụ, hỗ trợ các mô hình nổi bật bao gồm máy biến áp tầm nhìn, Dòng mô hình GPT, BERT, v.v. Tuy nhiên, bộ trộn mã thông báo của máy biến áp có độ phức tạp bậc hai liên quan đến độ dài chuỗi và đặt ra những thách thức đáng kể cho các chuỗi dài hơn. Để giải quyết vấn đề này, nhiều công cụ trộn mã thông báo có độ phức tạp tuyến tính đến độ dài mã thông báo như Linformer, Longformer, Performanceer, Dynamic Convolution và Big Bird đã được giới thiệu. Tuy nhiên, trong thời gian gần đây, các mô hình giống như Mạng thần kinh tái phát đang trở nên nổi bật nhờ khả năng đào tạo song song và mang lại hiệu suất hiệu quả trên các chuỗi dài hơn. Được hướng dẫn bởi hiệu suất vượt trội do các mô hình giống RNN mang lại, các nhà nghiên cứu đang cố gắng giới thiệu và sử dụng dòng mô hình Mamba vào các nhiệm vụ nhận dạng trực quan vì bộ trộn mã thông báo của các mô hình Mamba là mô hình không gian trạng thái có cấu trúc theo tinh thần của Mạng thần kinh tái phát . Tuy nhiên, kết quả thử nghiệm chỉ ra rằng các khung dựa trên mô hình không gian trạng thái cho tầm nhìn hoạt động kém hiệu quả đối với các nhiệm vụ tầm nhìn trong thế giới thực khi so sánh với các mô hình tích chập hiện đại và dựa trên sự chú ý. 

MambaOut là một nỗ lực nhằm điều tra bản chất của Mamba nhóm mô hình và tóm tắt rằng Mamba phù hợp với các nhiệm vụ tự hồi quy hoặc có trình tự dài do mô hình không gian trạng thái có cơ chế RNN vốn có. Tuy nhiên, phần lớn các nhiệm vụ tầm nhìn không có cả hai đặc điểm này và trên cơ sở một số thử nghiệm, MambaOut đề xuất hai giả thuyết sau. Đầu tiên, mô hình không gian trạng thái không cần thiết cho việc phân loại hình ảnh vì nhiệm vụ phân loại hình ảnh không tuân theo các đặc điểm tự hồi quy hay chuỗi dài. Thứ hai, các mô hình không gian trạng thái về mặt giả thuyết có thể có lợi cho việc phân đoạn cá thể và phân đoạn ngữ nghĩa cùng với việc phát hiện đối tượng, vì chúng tuân theo các đặc điểm chuỗi dài mặc dù chúng không có tính chất tự hồi quy. Các kết quả thử nghiệm được tiến hành để phân tích cơ chế giống như Mạng thần kinh tái phát của mô hình không gian trạng thái kết luận rằng khung Mamba phù hợp với các tác vụ có đặc điểm tự hồi quy hoặc chuỗi dài và không cần thiết cho các tác vụ phân loại hình ảnh. Đến với chính khung MambaOut, đó là một loạt các mô hình Mamba dựa trên các khối Mạng thần kinh chuyển đổi có cổng không có mô hình không gian trạng thái và kết quả thử nghiệm cho thấy khung MambaOut có khả năng vượt trội so với các mô hình Mamba trong các nhiệm vụ phân loại hình ảnh, nhưng không thể tái tạo hiệu suất của các nhiệm vụ phát hiện và phân đoạn hình ảnh. 

Mamba phù hợp với những nhiệm vụ gì?

Bộ trộn mã thông báo của khung Mamba là một mô hình không gian trạng thái chọn lọc xác định bốn tham số phụ thuộc vào đầu vào. Thuộc tính lặp lại của khung phân biệt các mô hình không gian trạng thái giống RNN với sự chú ý nhân quả. Trạng thái ẩn có thể được coi là bộ nhớ có kích thước cố định để lưu trữ thông tin lịch sử. Kích thước cố định có nghĩa là bộ nhớ bị mất nhưng nó cũng đảm bảo độ phức tạp tính toán của việc tích hợp bộ nhớ với đầu vào hiện tại không đổi. Ngược lại, các lớp chú ý nhân quả lưu trữ tất cả các khóa và giá trị từ mã thông báo trước đó và mở rộng bằng cách thêm khóa và giá trị của mã thông báo hiện tại với mỗi đầu vào mới và về mặt lý thuyết, bộ nhớ này không bị mất. Tuy nhiên, kích thước bộ nhớ tăng lên khi có nhiều mã thông báo được nhập vào hơn, làm tăng độ phức tạp của việc tích hợp bộ nhớ với đầu vào hiện tại. Sự khác biệt giữa các cơ chế bộ nhớ giữa sự chú ý nguyên nhân và các mô hình giống RNN được minh họa trong hình sau. 

Vì bộ nhớ của mô hình không gian trạng thái vốn có tính chất mất mát nên nó không thể sánh với bộ nhớ không mất mát của sự chú ý nhân quả, và kết quả là, Người mẫu Mamba không thể chứng tỏ sức mạnh của mình trong việc xử lý các chuỗi ngắn, một lĩnh vực mà cơ chế chú ý nhân quả hoạt động tốt một cách dễ dàng. Tuy nhiên, trong các tình huống liên quan đến chuỗi dài, cách tiếp cận chú ý nhân quả sẽ bị chùn bước do độ phức tạp bậc hai. Trong trường hợp này, khung Mamba thể hiện tính hiệu quả của nó trong việc hợp nhất bộ nhớ với đầu vào hiện tại và có thể xử lý các chuỗi dài một cách mượt mà, cho thấy dòng mô hình Mamba rất phù hợp để xử lý các chuỗi dài. 

Cũng cần lưu ý rằng một mặt, khi tính chất lặp lại của mô hình không gian trạng thái cho phép mô hình Mamba xử lý các chuỗi dài một cách hiệu quả, nó đưa ra một hạn chế nhất định vì nó chỉ có thể truy cập thông tin từ dấu thời gian hiện tại và trước đó, và kiểu này trộn mã thông báo được gọi là chế độ nhân quả và được minh họa trong hình sau. Do tính chất nhân quả của nó, phương pháp này phù hợp cho nhiệm vụ tạo tự hồi quy

Chế độ hiển thị đầy đủ phù hợp để hiểu các tác vụ trong đó mô hình có thể truy cập tất cả các đầu vào cùng một lúc. Hơn nữa, theo mặc định, sự chú ý ở chế độ hiển thị đầy đủ và có thể dễ dàng chuyển sang chế độ nhân quả bằng cách áp dụng mặt nạ nhân quả cho bản đồ chú ý và các mô hình giống RNN vốn hoạt động ở chế độ nhân quả do đặc tính lặp lại của chúng. Tóm lại, khung Mamba phù hợp với các tác vụ liên quan đến xử lý chuỗi dài hoặc các tác vụ yêu cầu chế độ trộn mã thông báo nhân quả.

Nhiệm vụ nhận dạng hình ảnh, mã trộn mã thông báo nhân quả và các chuỗi rất lớn

Như đã thảo luận trước đó, chế độ trộn mã thông báo hiển thị đầy đủ cho phép phạm vi trộn không hạn chế trong khi chế độ nguyên nhân giới hạn mã thông báo hiện tại chỉ truy cập thông tin từ các mã thông báo trước đó. Hơn nữa, nhận dạng hình ảnh được phân loại là một nhiệm vụ hiểu biết trong đó mô hình có thể nhìn thấy toàn bộ hình ảnh cùng một lúc và điều này giúp loại bỏ nhu cầu hạn chế về việc trộn mã thông báo và việc áp đặt các ràng buộc bổ sung đối với việc trộn mã thông báo có thể làm giảm hiệu suất mô hình. Nói chung, chế độ hiển thị đầy đủ phù hợp để hiểu các nhiệm vụ trong khi chế độ thông thường phù hợp hơn với các nhiệm vụ tự hồi quy. Hơn nữa, tuyên bố này còn được hỗ trợ thêm bởi thực tế là các mô hình BeRT và ViT được sử dụng để hiểu các nhiệm vụ nhiều hơn các mô hình GPT.

Xác minh thử nghiệm và kết quả

Bước tiếp theo là xác minh các giả thuyết do khung MambaOut đề xuất bằng thực nghiệm. Như được minh họa trong hình ảnh sau, khối Mamba dựa trên khối Mạng thần kinh chuyển đổi có cổng và siêu kiến ​​trúc của các khối Mamba và Gated CNN có thể được coi là sự tích hợp đơn giản của bộ trộn mã thông báo của khung MetaFormer và MLP . 

Khối Mamba mở rộng Mạng thần kinh chuyển đổi có cổng với một Mô hình không gian trạng thái bổ sung và sự hiện diện của SSm là điểm phân biệt giữa Gated CNN và khối Mamba. Hơn nữa, để cải thiện tốc độ thực tế, khung MambaOut chỉ tiến hành tích chập theo chiều sâu trên các kênh một phần và như được minh họa trong thuật toán sau, việc triển khai khối Gated CNN rất đơn giản, hiệu quả và tinh tế. 

Nhiệm vụ phân loại hình ảnh

ImageNet đóng vai trò là chuẩn mực cho các nhiệm vụ phân loại hình ảnh vì nó bao gồm hơn một nghìn lớp phổ biến, hơn 1.3 triệu hình ảnh huấn luyện và hơn 50,000 hình ảnh xác thực. Việc tăng cường dữ liệu được sử dụng cho thử nghiệm bao gồm cắt xén có kích thước ngẫu nhiên, Mixup, jitter màu, Xóa ngẫu nhiên, CutMix và Rand Augment. Bảng sau đây tóm tắt hiệu suất của dòng mô hình Mamba, mô hình MambaOut cũng như các mô hình tích chập và dựa trên sự chú ý khác trên tập dữ liệu ImageNet. Như có thể thấy, khung MambaOut không có mô hình không gian trạng thái hoạt động tốt hơn các mô hình Mamba trực quan có SSM một cách nhất quán trên tất cả các kích thước mô hình. 

Ví dụ: mô hình MambaOut-Small trả về điểm chính xác top 1 trên 84%, cao hơn 0.4% so với đối thủ cạnh tranh Mamba gần nhất. Kết quả này ủng hộ mạnh mẽ giả thuyết đầu tiên cho rằng việc giới thiệu mô hình không gian trạng thái cho các nhiệm vụ phân loại hình ảnh là không cần thiết. 

Nhiệm vụ phát hiện đối tượng và phân đoạn đối tượng

COCO đóng vai trò là điểm chuẩn cho các nhiệm vụ phát hiện đối tượng và phân đoạn đối tượng. Mặc dù khung MambaOut có thể vượt qua hiệu suất của một số mô hình Mamba trực quan nhưng nó vẫn kém các mô hình Mamba trực quan hiện đại bao gồm LocalVMamba và VMamba. Sự chênh lệch về hiệu suất của MambaOut so với các mô hình hình ảnh hiện đại nhấn mạnh vào lợi ích của việc tích hợp dòng mô hình Mamba trong các nhiệm vụ trực quan theo trình tự dài. Tuy nhiên, cần lưu ý rằng vẫn tồn tại khoảng cách hiệu suất đáng kể giữa các mô hình kết hợp tích chập-chú ý-hỗn hợp hiện đại và các mô hình Mamba trực quan. 

Kết luận:

Trong bài viết này, chúng tôi đã thảo luận về các khái niệm của họ mô hình Mamba và kết luận rằng nó phù hợp với các nhiệm vụ liên quan đến đặc điểm tự hồi quy và chuỗi dài. MambaOut là một công việc cố gắng đi sâu vào bản chất của khung Mamba và trả lời liệu Mamba có phù hợp lý tưởng cho các nhiệm vụ có đặc điểm tự hồi quy và trình tự dài hay không. Khung MambaOut đưa ra giả thuyết rằng Mamba không cần thiết cho các tác vụ thị giác vì việc phân loại hình ảnh không phù hợp với các đặc điểm chuỗi dài hoặc tự hồi quy. Mặc dù các tác vụ phân đoạn và phát hiện cũng không có tính tự hồi quy nhưng chúng hiển thị các đặc điểm trình tự dài, khiến khung MambaOut đưa ra giả thuyết về tiềm năng của Mamba cho các tác vụ này. Khung MambaOut được xây dựng bằng cách xếp chồng các khối Mamba lên nhau đồng thời loại bỏ mô hình không gian trạng thái, bộ trộn mã thông báo cốt lõi của nó. Các kết quả thử nghiệm ủng hộ giả thuyết được đưa ra bởi khung MambaOut vì nó có thể vượt qua tất cả các mô hình Mamba trực quan trên khung phân loại hình ảnh ImageNet, cho thấy Mamba không cần thiết cho các nhiệm vụ thị giác. Mặt khác, đối với các nhiệm vụ phát hiện và phân đoạn, khung MambaOut không thể tái tạo hiệu suất được cung cấp bởi mô hình Mamba hiện đại, thể hiện tiềm năng của dòng mô hình Mamba đối với các nhiệm vụ trực quan theo trình tự dài. 

 

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.