Yapay Zekâ
MambaOut: Gerçekten Görme için Mamba’ya İhtiyacımız Var mı?
Modern makine öğrenimi ve yapay zeka çerçevelerinde, transformer’lar çeşitli alanlarda, doğal dil işleme中的 GPT serisi ve BERT ile bilgisayar görüşü görevlerinde Vision Transformer’lar dahil olmak üzere en yaygın olarak kullanılan bileşenlerden biridir. Transformer’ları model mimarisine dahil etmek model performansında önemli bir artış sağlar, ancak Transformer’ların dikkat modülü, dizin uzunluğu ile quadratik olarak ölçeklenir ve bu da yüksek hesaplama zorluklarına neden olur. Geçen yıllar boyunca, farklı modeller farklı stratejiler keşfettiler, bunlar arasında kernelization, tarih belleği sıkıştırma, token karıştırma aralığı sınırlaması ve düşük sıralı yaklaşımlar gibi yöntemler bulunur. Son zamanlarda, Mamba ve RWKV gibi Yinelenebilir Sinir Ağları önemli dikkat topladılar, çünkü büyük dil modellerinde vaat edilen sonuçlar elde ettiler.
Mamba, bir aile olan modeller, bir Recurrent Neural Network gibi token mixer bir devlet alanı modeli ile bir mimariye sahip recently tanıtıldı ve dikkat mekanizmalarının quadratik karmaşıklığını gidermek için uygulanmıştır ve daha sonra görüş görevlerine uygulanmıştır. Araştırmacılar already Mamba ve SSM veya Devlet Alanı Modeli’yi görsel tanıma görevlerine dahil etme yollarını keşfettiler ve Vision Mamba, Mamba’yı izotropik görüş modelleri geliştirmek için Vision Transformer’a benzer bir şekilde kullanır. Diğer taraftan, LocalMamba yerel endüktif önyargıları görsel Mamba modellerini güçlendirmek için kullanır ve VMamba çerçevesi, temel Mamba modelini hiyerarşik modeller oluşturmak için kullanır, bunlar ResNet ve AlexNet’e benzer. Ancak, Mamba çerçevesi gerçekten görsel tanıma bağlamı görevleri için gerekli midir? Bu soru ortaya çıkar, çünkü Mamba ailesi modellerinin görüş görevleri için performansı şimdiye kadar geleneksel dikkat tabanlı ve konvolüsyonel modellere kıyasla hayal kırıcı olmuştur.
MambaOut, Mamba’nın otoregresif ve uzun-dizin özellikleri olan görevler için uygun olup olmadığını araştırmaya çalışır. MambaOut çerçevesi, Mamba’nın görüş görevleri için gerekli olmadığını varsayar, çünkü resim sınıflandırma görevi ne uzun-dizin ne de otoregresif özelliklere uymaz. Ancak, segmentasyon ve nesne algılama görevleri otoregresif değildir, ancak uzun-dizin özellikleri gösterir ve bu nedenle MambaOut çerçevesi, bu görevler için Mamba’nın potansiyelini varsayar. MambaOut çerçevesi, Mamba bloklarını birbirinin üzerine yerleştirirken, devlet alanı modelini, core token mixer’ı kaldırarak oluşturulur. Deneysel sonuçlar, MambaOut çerçevesi tarafından öne sürülen hipotezi destekler, çünkü ImageNet resim sınıflandırma çerçevesinde tüm görsel Mamba modellerini geçebilir, bu da Mamba’nın görüş görevleri için gerekli olmadığını gösterir. Diğer taraftan, nesne algılama ve segmentasyon görevleri için, MambaOut çerçevesi, devlet sanayi Mamba modelinin performansı tekrarlayamaz, bu da uzun-dizin görsel görevleri için Mamba ailesi modellerinin potansiyelini gösterir.
Bu makale, MambaOut çerçevesini derinlemesine kapsamak amaçlamaktadır ve mekanizma, metodoloji, mimari ve diğer devlet sanayi çerçevelerle karşılaştırmasını keşfederiz. Şimdi başlayalım.
MambaOut: Gerçekten Görme için Mamba’ya İhtiyacımız Var mı?
Makine öğrenimi uygulamaları ve yeteneklerinin ilerlemesiyle, Transformer’lar çeşitli görevler için ana yapı taşı olarak ortaya çıktılar, Vision Transformer’lar, GPT serisi modeller, BERT ve daha fazlasını güçlendirirler. Ancak, transformer’ın token mixer’ı, dizin uzunluğu ile quadratik olarak ölçeklenir ve bu da uzun diziler için önemli hesaplama zorluklarına neden olur. Bu sorunu gidermek için, birçok token mixer, Linformer, Longformer, Performer, Dynamic Convolution ve Big Bird gibi, token uzunluğu ile lineer karmaşıklığa sahip olarak tanıtıldı. Ancak, son zamanlarda, Yinelenebilir Sinir Ağları gibi modeller, paralel eğitim yetenekleri ve uzun dizilerde verimli performansları nedeniyle dikkat topladılar. Mamba ailesi modellerinin vaat edilen sonuçlarından esinlenerek, araştırmacılar Mamba modellerini görsel tanıma görevlerine dahil etmeye çalıştılar, çünkü Mamba modellerinin token mixer’ı, Recurrent Neural Network’lerin ruhu ile yapılandırılmış bir devlet alanı modelidir. Ancak, deneysel sonuçlar, devlet alanı modeli tabanlı çerçevelerin görüş görevlerinde geleneksel dikkat tabanlı ve devlet sanayi konvolüsyonel modellere kıyasla hayal kırıcı performans gösterdiğini gösterdi.
MambaOut, Mamba ailesi modellerinin doğasını araştırmaya çalışır ve Mamba’nın otoregresif veya uzun-dizin özellikleri olan görevler için uygun olduğunu varsayar, çünkü devlet alanı modeli, Yinelenebilir Sinir Ağları mekanizmasına sahiptir. Ancak, çoğu görüş görevi bu özelliklere sahip değildir ve bazı deneylerden sonra, MambaOut iki hipotez öne sürer. İlk olarak, devlet alanı modeli resim sınıflandırma görevi için gerekli değildir, çünkü resim sınıflandırma görevi ne otoregresif ne de uzun-dizin özelliklerine uymaz. İkinci olarak, devlet alanı modelleri, instance segmentasyon ve semantic segmentasyon ile nesne algılama görevleri için potansiyel olarak faydalı olabilir, çünkü bu görevler uzun-dizin özelliklerine sahiptir, ancak otoregresif değildir. Devlet alanı modelinin Yinelenebilir Sinir Ağları gibi mekanizmasını analiz eden deneysel sonuçlar, Mamba çerçevesinin otoregresif veya uzun-dizin özellikleri olan görevler için uygun olduğunu ve resim sınıflandırma görevleri için gerekli olmadığını gösterir. MambaOut çerçevesi itself, devlet alanı modeli olmadan Gated Convolutional Neural Network bloklarından oluşur ve deneysel sonuçlar, MambaOut çerçevesinin resim sınıflandırma görevlerinde Mamba modellerini geçebileceğini, ancak nesne algılama ve segmentasyon görevlerinde devlet sanayi Mamba modelinin performansı tekrarlayamadığını gösterir.
Mamba Hangi Görevler için Uygun?
Mamba çerçevesinin token mixer’ı, dört girdi bağımlı parametreyi tanımlayan seçici bir devlet alanı modelidir. Çerçevesinin tekrar eden özelliği, RNN gibi devlet alanı modellerini causal dikkat mekanizmasından ayırır. Gizli durum, sabit boyutlu bir bellek olarak görülebilir, bu bellek tarihi bilgileri depolar. Sabit boyut, belleğin kayıp olduğunu, ancak belleği güncel girdi ile birleştirmenin hesaplama karmaşıklığının sabit kalmasını sağlar. Buna karşılık, causal dikkat katmanları, önceki token’lerin tüm anahtarlarını ve değerlerini depolar ve yeni bir girdi ile birlikte, anahtar ve değerini ekler, bu da belleğin kayıp olmadığını gösterir. Ancak, bellek boyutu, daha fazla token girdi ile birlikte büyür, bu da belleği güncel girdi ile birleştirmenin karmaşıklığını artırır. Causal dikkat ve RNN gibi modeller arasındaki bellek mekanizmaları arasındaki fark aşağıdaki şekilde gösterilir.

Devlet alanı modelinin belleği doğası gereği kayıp olduğu için, causal dikkat mekanizmasının kayıp olmayan belleğine ulaşamaz ve bu nedenle Mamba modelleri, kısa dizilerde causal dikkat mekanizmasının kolayca gerçekleştirebildiği görevlerde güçlüğüne düşer. Ancak, uzun dizilerin olduğu durumlarda, causal dikkat yaklaşımı quadratik karmaşıklık nedeniyle başarısız olur. Bu durumda, Mamba çerçevesi, belleği güncel girdi ile birleştirmenin verimliliğini gösterir ve uzun dizileri sorunsuz bir şekilde işleyebilir, bu da Mamba ailesi modellerinin uzun dizileri işlemek için uygun olduğunu gösterir.
Ayrıca, devlet alanı modelinin tekrar eden doğası, Mamba modellerinin yalnızca güncel ve önceki zaman adımlarından bilgi almasına izin verir, bu da causal mod olarak adlandırılır ve aşağıdaki şekilde gösterilir. Bu tür token karıştırma, otoregresif generation görevleri için uygundur.

Tamamen görünür mod, tüm girdileri aynı anda erişebilen anlama görevleri için uygundur. Ayrıca, dikkat mekanizması tamamen görünür moddadır ve causal dikkat mekanizmasına dönüştürülebilir, RNN gibi modeller ise doğası gereği causal moda sahiptir. Özetle, Mamba çerçevesi, uzun dizileri işlemek veya causal token karıştırma modu gerektiren görevler için uygundur.
Görsel Tanıma Görevleri, Causal Token Karıştırma Kodu ve Çok Büyük Diziler
Önceki olarak bahsedildiği gibi, tamamen görünür token karıştırma modu, karıştırma aralığını sınırlamaz, ancak causal mod, güncel token’in yalnızca önceki token’lerin bilgilerine erişmesine izin verir. Ayrıca, görsel tanıma, tüm görüntüyü aynı anda görebilen bir anlama görevi olarak sınıflandırılır, bu da token karıştırma üzerinde ek kısıtlamalara gerek olmadığını gösterir, bu da model performansı üzerinde olumsuz etkileri olabilir. Genel olarak, tamamen görünür mod, anlama görevleri için uygundur, ancak causal mod, otoregresif görevler için daha uygundur. Bu iddia, BeRT ve ViT modellerinin anlama görevleri için daha çok kullanıldığını gösteren bir gerçeği destekler.
Deneysel Doğrulama ve Sonuçlar
Sonraki adım, MambaOut çerçevesi tarafından öne sürülen hipotezleri deneysel olarak doğrulamaktır. Aşağıdaki resimdeki gibi, Mamba bloku, Gated Convolutional Neural Network bloku temel alınarak oluşturulur ve Mamba ve Gated CNN bloklarının meta-mimariği, MetaFormer çerçevesinin token mixer’ı ve bir MLP’nin basitleştirilmiş bir birleşimi olarak düşünülebilir.

Mamba bloku, Gated Convolutional Neural Network’u, ek bir Devlet Alanı Modeli ile genişletir ve Devlet Alanı Modeli’nin varlığı, Gated CNN ve Mamba bloklarını ayıran özelliktir. Ayrıca, pratik hızını artırmak için, MambaOut çerçevesi yalnızca kısmi kanallarda derinlemesine convolution gerçekleştirir ve aşağıdaki algoritma, Gated CNN bloku’nun uygulanmasının basit, ancak etkili ve elegant olduğunu gösterir.

Resim Sınıflandırma Görevi
ImageNet, resim sınıflandırma görevleri için bir referans noktası olarak kullanılır, çünkü 1000’den fazla ortak sınıf, 1,3 milyon eğitim resmi ve 50.000 doğrulama resmi içerir. Deney için kullanılan veri artırma, rasgele yeniden boyutlandırma, Mixup, renk bozma, Rasgele Silme, CutMix ve Rand Augment’i içerir. Aşağıdaki tablo, Mamba ailesi modellerinin, MambaOut modelinin ve diğer dikkat tabanlı ve konvolüsyonel modellerin ImageNet veri setindeki performansını özetler. Görüldüğü gibi, devlet alanı modeli olmadan MambaOut çerçevesi, tüm görsel Mamba modellerini tutarlı bir şekilde geçer.

Örneğin, MambaOut-Small modeli, en yakın Mamba rakibine kıyasla %84’in üzerinde bir üst-1 doğruluk puanı sağlar, bu da ilk hipotezi destekler ve devlet alanı modelinin resim sınıflandırma görevleri için gerekli olmadığını gösterir.
Nesne Algılama ve Instance Segmentasyon Görevleri
COCO, nesne algılama ve instance segmentasyon görevleri için bir referans noktası olarak kullanılır. MambaOut çerçevesi, bazı görsel Mamba modellerinin performansını geçerse de, devlet sanayi Mamba modellerinin, LocalVMamba ve VMamba’nın performansını tekrarlayamaz. MambaOut’un performansındaki fark, uzun-dizin görsel görevlerde Mamba ailesi modellerinin faydalarını vurgular. Ancak, devlet sanayi konvolüsyon-attention-hybrid modeller ile görsel Mamba modelleri arasındaki önemli performans farkı hala mevcuttur.

Son Düşünceler
Mamba ailesi modelleri, otoregresif ve uzun-dizin özellikleri olan görevler için uygun görünmektedir. MambaOut çerçevesi, Mamba’nın görüş görevleri için gerekli olmadığını varsayar, çünkü resim sınıflandırma görevi ne uzun-dizin ne de otoregresif özelliklerine uymaz. Ancak, segmentasyon ve nesne algılama görevleri otoregresif değildir, ancak uzun-dizin özellikleri gösterir, bu da MambaOut çerçevesinin bu görevler için Mamba’nın potansiyelini varsaymasına neden olur. MambaOut çerçevesi, Mamba bloklarını birbirinin üzerine yerleştirirken, devlet alanı modelini kaldırarak oluşturulur. Deneysel sonuçlar, MambaOut çerçevesi tarafından öne sürülen hipotezi destekler, çünkü ImageNet resim sınıflandırma çerçevesinde tüm görsel Mamba modellerini geçer, bu da Mamba’nın görüş görevleri için gerekli olmadığını gösterir. Diğer taraftan, nesne algılama ve segmentasyon görevleri için, MambaOut çerçevesi, devlet sanayi Mamba modelinin performansı tekrarlayamaz, bu da uzun-dizin görsel görevlerde Mamba ailesi modellerinin potansiyelini gösterir.












