인공 지능

MambaOut: 시력을 위해 Mamba가 정말 필요한가요?

게재

3 주 전

2024 년 5 월 24 일

최신 기계 학습 및 인공 지능 프레임워크에서 변환기는 GPT 시리즈, 자연어 처리의 BERT, 컴퓨터 비전 작업의 비전 변환기를 포함하여 다양한 도메인에서 가장 널리 사용되는 구성 요소 중 하나입니다. 모델 아키텍처에 변환기를 포함하면 모델 성능이 크게 향상되지만 Transformers의 주의 모듈은 시퀀스 길이에 따라 2차적으로 확장되므로 계산상의 어려움이 커집니다. 수년에 걸쳐 다양한 모델에서는 커널화, 기록 메모리 압축, 토큰 혼합 범위 제한, 낮은 순위 접근 방식과 같은 방법을 포함하여 계산 문제를 해결하기 위한 다양한 전략을 탐색해 왔습니다. 최근 Mamba 및 RWKV를 포함한 방법과 같은 순환 신경망은 대규모 언어 모델에서 유망한 결과로 인해 상당한 주목을 받았습니다.

모델군인 Mamba는 주의 메커니즘의 2차 복잡성을 해결하기 위해 최근 도입된 상태 공간 모델의 토큰 믹서와 같은 순환 신경망을 갖춘 아키텍처를 가지며 이후 비전 작업에 적용되었습니다. 연구자들은 이미 Mamba와 SSM 또는 상태 공간 모델을 시각적 인식 작업에 통합하는 방법을 모색했으며, Vision Transformer와 유사한 등방성 비전 모델을 개발하기 위해 Mamba를 통합한 Vision Mamba가 그 좋은 예입니다. 반면 LocalMamba는 시각적 Mamba 모델을 향상시키기 위해 로컬 귀납적 편향을 통합하고 VMamba 프레임워크는 기본 Mamba 모델을 사용하여 ResNet 및 AlexNet과 유사한 계층적 모델을 구성합니다. 그러나 시각적 인식 컨텍스트 작업에 Mamba 프레임워크가 정말 필수적인가요? 비전 작업을 위한 Mamba 제품군 모델의 성능이 기존의 주의 기반 및 컨볼루셔널 모델과 비교할 때 지금까지 압도적이지 않았기 때문에 문제가 발생합니다.

MambaOut은 Mamba 프레임워크의 본질을 탐구하고 Mamba가 자동 회귀 및 긴 시퀀스 특성을 가진 작업에 이상적으로 적합한지 답하려는 작업입니다. MambaOut 프레임워크는 이미지 분류가 긴 시퀀스 또는 자동 회귀 특성과 일치하지 않기 때문에 비전 작업에 Mamba가 필요하지 않다고 가정합니다. 세분화 및 탐지 작업도 자동 회귀적이지는 않지만 긴 시퀀스 특성을 표시하므로 MambaOut 프레임워크는 이러한 작업에 대한 Mamba의 잠재력을 가정하게 됩니다. MambaOut 프레임워크는 핵심 토큰 믹서인 상태 공간 모델을 제거하면서 Mamba 블록을 서로 쌓아서 구성됩니다. 실험 결과는 ImageNet 이미지 분류 프레임워크의 모든 시각적 Mamba 모델을 능가할 수 있기 때문에 MambaOut 프레임워크가 제시한 가설을 뒷받침하며, 이는 Mamba가 비전 작업에 필요하지 않음을 나타냅니다. 반면에 감지 및 분할 작업의 경우 MambaOut 프레임워크는 최첨단 Mamba 모델이 제공하는 성능을 복제할 수 없습니다. 이는 긴 시퀀스 시각적 작업에 대한 Mamba 모델 제품군의 잠재력을 보여줍니다.

이 글은 MambaOut 프레임워크를 심도있게 다루는 것을 목표로 하며, 프레임워크의 메커니즘, 방법론, 아키텍처를 탐구하고 최신 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.

MambaOut: Mamba가 시력에 정말 필요한가요?

기계 학습 애플리케이션 및 기능이 발전함에 따라 Transformers는 다양한 작업의 주류 백본으로 부상하여 다음을 포함한 주요 모델을 지원합니다. 비전 트랜스포머, GPT 시리즈 모델, BERT 등. 그러나 변환기의 토큰 믹서는 시퀀스 길이와 관련하여 2차 복잡성을 초래하고 더 긴 시퀀스에 대해 심각한 문제를 제기합니다. 이 문제를 해결하기 위해 Linformer, Longformer, Performer, Dynamic Convolution 및 Big Bird와 같이 토큰 길이에 대한 선형 복잡성을 갖는 수많은 토큰 혼합기가 도입되었습니다. 그러나 최근에는 병렬화 가능한 훈련 기능과 더 긴 시퀀스에서 효율적인 성능을 제공하는 모델과 같은 순환 신경망(Recurrent Neural Network)이 주목을 받고 있습니다. Mamba 모델의 토큰 믹서는 Recurrent Neural Networks의 정신에 따른 구조화된 상태 공간 모델이기 때문에 RNN과 유사한 모델이 제공하는 놀라운 성능에 힘입어 연구원들은 Mamba 모델 제품군을 시각적 인식 작업에 도입하고 활용하려고 시도하고 있습니다. . 그러나 실험 결과에 따르면 비전을 위한 상태 공간 모델 기반 프레임워크는 주의 기반 및 최첨단 컨볼루셔널 모델과 비교할 때 실제 비전 작업 전반에 걸쳐 압도적인 성능을 발휘하는 것으로 나타났습니다.

MambaOut은 MambaOut의 본질을 조사하려는 시도입니다. 맘바 상태 공간 모델에는 고유한 RNN 메커니즘이 있으므로 Mamba는 자동 회귀 또는 긴 시퀀스 작업에 적합하다고 요약합니다. 그러나 대부분의 비전 작업은 이러한 특성을 모두 갖추고 있지 않으며 MambaOut은 일부 실험을 기반으로 다음과 같은 두 가지 가설을 제안합니다. 첫째, 이미지 분류 작업은 자기회귀나 긴 시퀀스 특성을 따르지 않기 때문에 상태 공간 모델은 이미지 분류에 필요하지 않습니다. 둘째, 상태 공간 모델은 자기회귀적이지는 않지만 긴 시퀀스 특성을 따르기 때문에 객체 감지와 함께 인스턴스 분할 및 의미론적 분할에 가정적으로 유익할 수 있습니다. 상태 공간 모델의 메커니즘과 같은 순환 신경망을 분석하기 위해 수행된 실험 결과는 Mamba 프레임워크가 자동 회귀 또는 긴 시퀀스 특성을 갖는 작업에 적합하며 이미지 분류 작업에는 필요하지 않다는 결론을 내렸습니다. MambaOut 프레임워크 자체는 상태 공간 모델이 없는 Gated Convolutional Neural Network 블록을 기반으로 한 일련의 Mamba 모델이며, 실험 결과에 따르면 MambaOut 프레임워크는 이미지 분류 작업에서 Mamba 모델보다 뛰어난 성능을 발휘할 수 있지만 복제에는 실패했습니다. 이미지 감지 및 분할 작업 성능.

Mamba는 어떤 작업에 적합합니까?

Mamba 프레임워크의 토큰 믹서는 4개의 입력 종속 매개변수를 정의하는 선택적 상태 공간 모델입니다. 프레임워크의 반복 속성은 RNN과 유사한 상태 공간 모델을 인과적 주의와 구별합니다. 숨겨진 상태는 기록 정보를 저장하는 고정 크기 메모리로 볼 수 있습니다. 고정된 크기는 메모리에 손실이 있다는 것을 의미하지만 메모리를 현재 입력과 통합하는 계산 복잡성이 일정하게 유지되도록 보장합니다. 반대로, 인과 주의 레이어는 이전 토큰의 모든 키와 값을 저장하고 각각의 새로운 입력에 현재 토큰의 키와 값을 추가하여 확장하며 이 메모리는 이론적으로 무손실입니다. 그러나 더 많은 토큰이 입력될수록 메모리 크기가 커지므로 메모리를 현재 입력과 통합하는 복잡성이 증가합니다. 인과적 주의와 RNN 유사 모델 사이의 메모리 메커니즘 간의 차이점은 다음 그림에 설명되어 있습니다.

상태 공간 모델의 기억은 본질적으로 손실이 있기 때문에 인과 주의의 무손실 기억에 미치지 못합니다. 맘바 모델 인과 주의 메커니즘이 쉽게 잘 수행되는 영역인 짧은 시퀀스를 처리하는 데는 강점을 발휘할 수 없습니다. 그러나 긴 시퀀스가 포함된 시나리오에서는 2차 복잡성으로 인해 인과 주의 접근 방식이 불안정해집니다. 이 시나리오에서 Mamba 프레임워크는 메모리를 현재 입력과 병합하는 효율성을 보여주고 긴 시퀀스를 원활하게 처리할 수 있습니다. 이는 Mamba 모델 제품군이 긴 시퀀스를 처리하는 데 적합하다는 것을 나타냅니다.

또한 상태 공간 모델의 반복적 특성으로 인해 Mamba 모델이 긴 시퀀스를 효율적으로 처리할 수 있는 반면, 현재 및 이전 시간 단계의 정보에만 액세스할 수 있다는 점에서 특정 제한 사항이 발생한다는 점도 주목할 가치가 있습니다. 토큰 혼합을 인과 모드라고 하며 다음 그림에 설명되어 있습니다. 인과적 특성으로 인해 이 방법은 다음과 같은 경우에 적합합니다. 자동회귀 생성 작업.

완전 표시 모드는 모델이 모든 입력에 동시에 액세스할 수 있는 작업을 이해하는 데 적합합니다. 또한 Attention은 기본적으로 완전히 표시되는 모드이며 Attention Map에 인과 마스크를 적용하여 쉽게 인과 모드로 전환할 수 있으며 RNN과 같은 모델은 반복 속성으로 인해 본질적으로 인과 모드에서 작동합니다. 요약하자면, Mamba 프레임워크는 긴 시퀀스 처리와 관련된 작업이나 인과 토큰 혼합 모드가 필요한 작업에 적합합니다.

시각적 인식 작업, 원인 토큰 혼합 코드 및 매우 큰 시퀀스

앞에서 설명한 것처럼 완전 표시형 토큰 혼합 모드는 무제한 범위의 혼합을 허용하는 반면 인과 모드는 현재 토큰이 이전 토큰의 정보에만 액세스하도록 제한합니다. 또한 시각적 인식은 모델이 전체 이미지를 한 번에 볼 수 있는 이해 작업으로 분류되므로 토큰 혼합에 대한 제한이 필요 없으며, 토큰 혼합에 추가 제약을 가하면 모델 성능이 잠재적으로 저하될 수 있습니다. 일반적으로 완전 표시 모드는 작업을 이해하는 데 적합하고 캐주얼 모드는 자동 회귀 작업에 더 적합합니다. 또한 이 주장은 BeRT 및 ViT 모델이 GPT 모델보다 작업을 이해하는 데 사용된다는 사실에 의해 더욱 뒷받침됩니다.

실험적 검증 및 결과

다음 단계는 MambaOut 프레임워크가 제안한 가설을 실험적으로 검증하는 것입니다. 다음 이미지에서 볼 수 있듯이 Mamba 블록은 Gated Convolutional Neural Network 블록을 기반으로 하며 Mamba 및 Gated CNN 블록의 메타 아키텍처는 MetaFormer 프레임워크의 토큰 믹서와 MLP의 단순화된 통합으로 처리될 수 있습니다. .

Mamba 블록은 추가 상태 공간 모델을 사용하여 Gated Convolutional Neural Network를 확장하며, SSm의 존재는 Gated CNN과 Mamba 블록을 구별하는 것입니다. 또한 실제 속도를 향상시키기 위해 MambaOut 프레임워크는 부분 채널에 대해 깊이별 컨볼루션만 수행하며 다음 알고리즘에서 입증된 것처럼 Gated CNN 블록의 구현은 간단하면서도 효과적이고 우아합니다.

이미지 분류 작업

ImageNet은 1.3개 이상의 공통 클래스, 50,000만 개 이상의 교육 이미지, XNUMX개 이상의 검증 이미지로 구성되어 이미지 분류 작업의 벤치마크 역할을 합니다. 실험에 사용된 데이터 증대는 Random Resize Crop, Mixup, Color Jitter, Random Erasing, CutMix 및 Rand Augment로 구성됩니다. 다음 표에는 ImageNet 데이터 세트에서 Mamba 모델 제품군, MambaOut 모델, 기타 주의 기반 및 컨볼루션 모델의 성능이 요약되어 있습니다. 볼 수 있듯이 상태 공간 모델이 없는 MambaOut 프레임워크는 모든 모델 크기에 걸쳐 SSM이 포함된 시각적 Mamba 모델보다 일관되게 성능이 뛰어납니다.

예를 들어, MambaOut-Small 모델은 가장 가까운 Mamba 경쟁사보다 1% 더 높은 84%가 넘는 상위 0.4개 정확도 점수를 반환합니다. 이 결과는 이미지 분류 작업을 위해 상태 공간 모델을 도입할 필요가 없다는 첫 번째 가설을 강력하게 뒷받침합니다.

객체 감지 및 인스턴스 분할 작업

COCO는 객체 감지 및 인스턴스 분할 작업에 대한 벤치마크 역할을 합니다. MambaOut 프레임워크는 일부 시각적 Mamba 모델의 성능을 능가할 수 있지만 LocalVMamba 및 VMamba를 포함한 최첨단 시각적 Mamba 모델에는 여전히 부족합니다. 최첨단 시각적 모델과 MambaOut의 성능 차이는 Mamba 제품군 모델을 긴 순서의 시각적 작업에 통합하는 이점을 강조합니다. 그러나 최첨단 컨볼루션-어텐션-하이브리드 모델과 시각적 Mamba 모델 사이에는 여전히 상당한 성능 격차가 존재한다는 점은 주목할 가치가 있습니다.

최종 생각

이 기사에서 우리는 Mamba 계열 모델의 개념에 대해 논의했으며 이것이 자기회귀 및 긴 시퀀스 특성과 관련된 작업에 적합하다는 결론을 내렸습니다. MambaOut은 Mamba 프레임워크의 본질을 탐구하고 Mamba가 자동 회귀 및 긴 시퀀스 특성을 가진 작업에 이상적으로 적합한지 답하려는 작업입니다. MambaOut 프레임워크는 이미지 분류가 긴 시퀀스 또는 자동 회귀 특성과 일치하지 않기 때문에 비전 작업에 Mamba가 필요하지 않다고 가정합니다. 세분화 및 탐지 작업도 자동 회귀적이지는 않지만 긴 시퀀스 특성을 표시하므로 MambaOut 프레임워크는 이러한 작업에 대한 Mamba의 잠재력을 가정하게 됩니다. MambaOut 프레임워크는 핵심 토큰 믹서인 상태 공간 모델을 제거하면서 Mamba 블록을 서로 쌓아서 구성됩니다. 실험 결과는 ImageNet 이미지 분류 프레임워크의 모든 시각적 Mamba 모델을 능가할 수 있기 때문에 MambaOut 프레임워크가 제시한 가설을 뒷받침하며, 이는 Mamba가 비전 작업에 필요하지 않음을 나타냅니다. 반면에 감지 및 분할 작업의 경우 MambaOut 프레임워크는 최첨단 Mamba 모델이 제공하는 성능을 복제할 수 없습니다. 이는 긴 시퀀스 시각적 작업에 대한 Mamba 모델 제품군의 잠재력을 보여줍니다.