Yapay Zeka

MambaOut: Vizyon için Mamba'ya Gerçekten İhtiyacımız Var mı?

Yayınlanan Mayıs 24, 2024

Güncellenmiş 15 Kasım 2024

Kunal Kejriwal

Modern makine öğrenimi ve yapay zeka çerçevelerinde transformatörler, GPT serisi, Doğal Dil İşleme'de BERT ve bilgisayarlı görme görevlerinde Görüntü Transformatörleri dahil olmak üzere çeşitli alanlarda en yaygın kullanılan bileşenlerden biridir. Transformatörlerin model mimarisine dahil edilmesi model performansında önemli bir artış sağlasa da, Transformers'taki dikkat modülü dizi uzunluğuyla ikinci dereceden ölçeklenir ve bu da yüksek hesaplama zorluklarına yol açar. Yıllar boyunca farklı modeller, çekirdekleştirme, geçmiş bellek sıkıştırması, belirteç karıştırma aralığı sınırlaması ve düşük dereceli yaklaşımlar gibi yöntemler dahil olmak üzere hesaplama zorluklarının üstesinden gelmek için farklı stratejiler araştırdı. Son zamanlarda, Mamba ve RWKV gibi yöntemler gibi Tekrarlayan Sinir Ağları, büyük dil modellerinde umut verici sonuçlar vermesi nedeniyle büyük ilgi topladı.

Bir model ailesi olan Mamba, dikkat mekanizmalarının ikinci dereceden karmaşıklığını ele almak için yakın zamanda tanıtılan ve daha sonra görme görevlerine uygulanan bir durum alanı modelinin jeton karıştırıcısı gibi Tekrarlayan Sinir Ağı'na sahip bir mimariye sahiptir. Araştırmacılar, Mamba ve SSM'yi veya Durum Uzay Modelini görsel tanıma görevlerine dahil etmenin yollarını zaten araştırdılar ve Vision Transformer'a benzer izotropik görüş modelleri geliştirmek için Mamba'yı birleştiren Vision Mamba, bunun harika bir örneğidir. Öte yandan, LocalMamba, görsel Mamba modellerini geliştirmek için yerel endüktif önyargıları içerir ve VMamba çerçevesi, ResNet ve AlexNet'e benzer hiyerarşik modeller oluşturmak için temel Mamba modelini kullanır. Ancak Mamba çerçevesi görsel tanıma bağlamı görevleri için gerçekten gerekli midir? Bu soru ortaya çıkıyor çünkü Mamba model ailesinin görme görevlerine yönelik performansı, geleneksel dikkat temelli ve evrişimli modellerle karşılaştırıldığında şu ana kadar yetersiz kalıyor.

MambaOut, Mamba'nın otoregresif ve uzun dizi özelliklerine sahip görevler için ideal olup olmadığını yanıtlamaya çalışır. MambaOut çerçevesi, görüntü sınıflandırmasının uzun dizi veya otoregresif özelliklerle uyumlu olmaması nedeniyle Mamba'nın görme görevleri için gerekli olmadığını varsayar. Segmentasyon ve tespit görevleri de otoregresif olmasa da uzun dizi özelliklerini gösterirler ve bu da MambaOut çerçevesini bu görevler için Mamba'nın potansiyelini varsaymaya yönlendirir. MambaOut çerçevesi, çekirdek belirteç karıştırıcısı olan durum alanı modelini kaldırırken Mamba bloklarını üst üste istifleyerek oluşturulur. Deneysel sonuçlar, MambaOut çerçevesinin ImageNet görüntü sınıflandırma çerçevesindeki tüm görsel Mamba modellerini geçebildiği için öne sürdüğü hipotezi destekler ve bu da Mamba'nın görme görevleri için gerekli olmadığını gösterir. Öte yandan, tespit ve segmentasyon görevleri için MambaOut çerçevesi, en son teknoloji Mamba modelinin sunduğu performansı tekrarlayamaz ve bu da Mamba model ailesinin uzun dizi görsel görevleri için potansiyelini gösterir.

Bu makale MambaOut çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım.

MambaOut: Mamba Görme İçin Gerçekten Gerekli mi?

Makine öğrenimi uygulamalarının ve yeteneklerinin ilerlemesiyle birlikte Transformers, bir dizi görev için ana omurga olarak ortaya çıktı ve aşağıdakiler de dahil olmak üzere öne çıkan modellere güç verdi: Görüntü Transformatörleri, GPT serisi modeller, BERT ve birkaç tane daha. Bununla birlikte, transformatörün jeton karıştırıcısı dizi uzunluğuna göre ikinci dereceden bir karmaşıklığa neden olur ve daha uzun diziler için önemli zorluklar ortaya çıkarır. Bu sorunu çözmek için Linformer, Longformer, Performer, Dynamic Convolution ve Big Bird gibi jeton uzunluğuna kadar doğrusal karmaşıklığa sahip çok sayıda jeton karıştırıcısı tanıtıldı. Ancak son zamanlarda, Tekrarlayan Sinir Ağı benzeri modeller, paralelleştirilebilir eğitim yetenekleri ve daha uzun dizilerde verimli performans sunmaları nedeniyle önem kazanmaktadır. RNN benzeri modellerin sunduğu dikkat çekici performansın rehberliğinde araştırmacılar, Mamba modellerinin jeton karıştırıcısının Tekrarlayan Sinir Ağları ruhu altında yapılandırılmış durum uzay modeli olması nedeniyle Mamba model ailesini görsel tanıma görevlerine tanıtmaya ve kullanmaya çalışıyorlar. . Bununla birlikte, deneysel sonuçlar, görme için durum uzayı modeli tabanlı çerçevelerin, dikkat tabanlı ve son teknoloji evrişimli modellerle karşılaştırıldığında, gerçek dünyadaki görme görevlerinde çok düşük bir performans gösterdiğini göstermektedir.

MambaOut, doğanın doğasını araştırmaya yönelik bir girişimdir. Mamba Model ailesi, durum uzayı modelinin doğal bir RNN mekanizmasına sahip olması nedeniyle Mamba'nın otoregresif veya uzun dizili görevler için uygun olduğunu özetlemektedir. Ancak görme görevlerinin çoğunluğu bu özelliklerin her ikisini de içermiyor ve bazı deneylere dayanarak MambaOut aşağıdaki iki hipotezi öneriyor. İlk olarak, görüntü sınıflandırma görevi ne otoregresif ne de uzun dizi özelliklerine uymadığından görüntü sınıflandırma için durum uzayı modeli gerekli değildir. İkincisi, durum uzayı modelleri, otoregresif olmasalar da uzun dizi özelliklerini takip ettiklerinden, nesne tespiti ile birlikte bölümleme ve anlamsal bölümleme gibi varsayımsal olarak yararlı olabilir. Durum uzayı modelinin Tekrarlayan Sinir Ağı benzeri mekanizmasını analiz etmek için yürütülen deneysel sonuçlar, Mamba çerçevesinin otoregresif veya uzun dizili özelliklere sahip görevler için uygun olduğu ve görüntü sınıflandırma görevleri için gereksiz olduğu sonucuna varmıştır. MambaOut çerçevesinin kendisine gelince, durum alanı modeli olmayan Geçitli Evrişimli Sinir Ağı bloklarına dayanan bir dizi Mamba modelidir ve deneysel sonuçlar, MambaOut çerçevesinin görüntü sınıflandırma görevlerinde Mamba modellerinden daha iyi performans gösterebildiğini ancak çoğaltmakta başarısız olduğunu göstermektedir. görüntü algılama ve segmentasyon görevlerindeki performans.

Mamba hangi görevler için uygundur?

Mamba çerçevesinin jeton karıştırıcısı, girdiye bağlı dört parametreyi tanımlayan seçici bir durum alanı modelidir. Çerçevenin yinelenen özelliği, RNN benzeri durum alanı modellerini nedensel dikkatten ayırır. Gizli durum, geçmiş bilgileri saklayan sabit boyutlu bir bellek olarak görülebilir. Sabit boyut, belleğin kayıplı olduğu anlamına gelir, ancak aynı zamanda belleğin mevcut girişle entegre edilmesinin hesaplama karmaşıklığının sabit kalmasını da sağlar. Bunun tersine, nedensel dikkat katmanları önceki belirteçlerden gelen tüm anahtarları ve değerleri saklar ve her yeni girişle mevcut belirtecin anahtarını ve değerini ekleyerek genişler ve bu bellek teorik olarak kayıpsızdır. Bununla birlikte, daha fazla jeton girildikçe bellek boyutu büyür ve bu da belleğin mevcut girişle entegre edilmesinin karmaşıklığını artırır. Nedensel dikkat ile RNN benzeri modeller arasındaki hafıza mekanizmaları arasındaki fark aşağıdaki şekilde gösterilmektedir.

Durum uzayı modelinin hafızası doğası gereği kayıplı olduğundan, nedensel dikkatin kayıpsız hafızasına göre yetersiz kalır ve sonuç olarak, Mamba modelleri nedensel dikkat mekanizmasının kolaylıkla iyi performans gösterdiği bir alan olan kısa dizileri ele alma konusundaki gücünü gösteremez. Ancak uzun diziler içeren senaryolarda ikinci dereceden karmaşıklık nedeniyle nedensel dikkat yaklaşımı sekteye uğrar. Bu senaryoda Mamba çerçevesi, belleği geçerli girdiyle birleştirme konusundaki verimliliğini sergiliyor ve uzun dizileri sorunsuz bir şekilde işleyebiliyor; bu da Mamba model ailesinin uzun dizileri işlemek için çok uygun olduğunu gösteriyor.

Durum uzayı modelinin yinelenen doğasının, Mamba modellerinin uzun dizileri verimli bir şekilde ele almasına izin verdiği bir yandan, yalnızca mevcut ve önceki zaman adımlarından bilgiye erişebilmesi nedeniyle belirli bir sınırlama getirdiğini ve bu tür belirteç karıştırma nedensel mod olarak adlandırılır ve aşağıdaki şekilde gösterilmektedir. Nedensel doğası nedeniyle bu yöntem aşağıdakiler için uygundur: otoregresif oluşturma görevleri.

Tamamen görünür mod, modelin tüm girdilere aynı anda erişebildiği görevleri anlamak için uygundur. Ayrıca dikkat, varsayılan olarak tam görünür moddadır ve dikkat haritalarına nedensel maskeler uygulanarak kolayca nedensel moda dönüştürülebilir ve RNN benzeri modeller, yinelenen özelliklerinden dolayı doğası gereği nedensel modda çalışır. Özetlemek gerekirse, Mamba çerçevesi, uzun dizilerin işlenmesini içeren görevler veya nedensel belirteç karıştırma modu gerektiren görevler için uygundur.

Görsel Tanıma Görevleri, Nedensel Belirteç Karıştırma Kodu ve Çok Büyük Diziler

Daha önce tartışıldığı gibi, tamamen görünür jeton karıştırma modu, sınırsız karıştırma aralığına izin verirken nedensel mod, mevcut jetonun yalnızca önceki jetonlardan gelen bilgilere erişmesini sınırlar. Ayrıca, görsel tanıma, modelin görüntünün tamamını aynı anda görebildiği bir anlama görevi olarak kategorize edilir ve bu, jeton karışımına ilişkin kısıtlamalara olan ihtiyacı ortadan kaldırır ve jeton karışımına ek kısıtlamalar getirilmesi, model performansını potansiyel olarak düşürebilir. Genel olarak, tamamen görünür mod görevlerin anlaşılması için uygunken gündelik mod otoregresif görevlere daha iyi uyum sağlar. Ayrıca BeRT ve ViT modellerinin görevleri anlamak için GPT modellerine göre daha fazla kullanılması da bu iddiayı daha da güçlendirmektedir.

Deneysel Doğrulama ve Sonuçlar

Bir sonraki adım, MambaOut çerçevesi tarafından önerilen hipotezlerin deneysel olarak doğrulanmasıdır. Aşağıdaki görüntüde gösterildiği gibi, Mamba bloğu Geçitli Evrişimli Sinir Ağı bloğunu temel alır ve Mamba ile Geçitli CNN bloklarının meta mimarisi, MetaFormer çerçevesinin belirteç karıştırıcısının ve bir MLP'nin basitleştirilmiş bir entegrasyonu olarak ele alınabilir. .

Mamba bloğu, Kapılı Evrişimli Sinir Ağını ek bir Durum Uzayı Modeli ile genişletir ve Kapılı CNN ile Mamba bloğunu ayıran şey bir SSm'nin varlığıdır. Ayrıca, pratik hızı artırmak için MambaOut çerçevesi, kısmi kanallarda yalnızca derinlemesine evrişim gerçekleştirir ve aşağıdaki algoritmada gösterildiği gibi, Geçitli CNN bloğunun uygulanması basit, yine de etkili ve zariftir.

Görüntü Sınıflandırma Görevi

ImageNet, binden fazla ortak sınıftan, 1.3 milyondan fazla eğitim görüntüsünden ve 50,000'den fazla doğrulama görüntüsünden oluştuğu için görüntü sınıflandırma görevleri için referans noktası olarak hizmet vermektedir. Deney için kullanılan veri büyütme, rastgele yeniden boyutlandırılmış kırpma, Karıştırma, renk değişimi, Rastgele Silme, CutMix ve Rand Augment'ten oluşur. Aşağıdaki tablo, Mamba model ailesinin, MambaOut modelinin ve diğer dikkat tabanlı ve evrişim modellerinin ImageNet veri kümesindeki performansını özetlemektedir. Görülebileceği gibi, durum alanı modeli olmayan MambaOut çerçevesi, tüm model boyutlarında sürekli olarak SSM'li görsel Mamba modellerinden daha iyi performans göstermektedir.

Örneğin, MambaOut-Small modeli, en yakın Mamba rakibinden %1 daha yüksek olan %84'ün üzerinde ilk 0.4 doğruluk puanı verir. Bu sonuç, görüntü sınıflandırma görevleri için bir durum uzayı modelinin getirilmesinin gerekli olmadığını iddia eden ilk hipotezi güçlü bir şekilde desteklemektedir.

Nesne Algılama ve Örnek Segmentasyon Görevleri

COCO, nesne algılama ve örnek bölümleme görevleri için bir kıyaslama görevi görür. MambaOut çerçevesi bazı görsel Mamba modellerinin performansını aşabilse de, LocalVMamba ve VMamba dahil olmak üzere son teknoloji ürünü görsel Mamba modellerinin gerisinde kalıyor. MambaOut'un son teknoloji ürünü görsel modellere göre performansındaki eşitsizlik, Mamba model ailesinin uzun sıralı görsel görevlere entegre edilmesinin faydalarını vurgulamaktadır. Ancak, son teknoloji ürünü evrişim-dikkat-hibrit modeller ile görsel Mamba modelleri arasında hala önemli bir performans farkının bulunduğunu belirtmekte fayda var.

Son Düşüncelerimiz

Mamba model ailesi, otoregresif ve uzun dizili özellikleri içeren görevler için uygun görünüyor. MambaOut çerçevesi, görüntü sınıflandırmasının uzun dizili veya otoregresif özelliklerle uyumlu olmaması nedeniyle Mamba'nın görme görevleri için gerekli olmadığını varsayar. Segmentasyon ve tespit görevleri de otoregresif olmasa da, uzun dizili özellikler gösterir ve bu da MambaOut çerçevesini bu görevler için Mamba'nın potansiyelini varsaymaya yönlendirir. MambaOut çerçevesi, çekirdek belirteç karıştırıcısı olan durum alanı modelini kaldırırken Mamba bloklarını üst üste istifleyerek oluşturulur. Deneysel sonuçlar, MambaOut çerçevesinin ImageNet görüntü sınıflandırma çerçevesindeki tüm görsel Mamba modellerini geçebildiği için öne sürdüğü hipotezi destekler ve bu da Mamba'nın görme görevleri için gerekli olmadığını gösterir. Öte yandan, tespit ve segmentasyon görevleri için MambaOut çerçevesi, en son teknoloji Mamba modelinin sunduğu performansı tekrarlayamaz ve bu da Mamba model ailesinin uzun dizili görsel görevler için potansiyelini gösterir.

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.