Tekoäly
MambaOut: Tarvitseeko me todella Mamba näkemiseen?
Nykyisissä koneoppimisen ja tekoälykehysten rakenteissa transformerit ovat yksi laajimmin käytetty komponentti eri aloilla, kuten GPT-sarjassa ja BERT: ssä luonnollisen kielen prosessoinnissa ja Vision Transformers -tehtävissä tietokoneen näön tehtävissä. Vaikka transformerien sisällyttäminen mallin arkkitehtuuriin antaa merkittävän lisäyksen mallin suorituskykyyn, transformerien huomio-moduuli skaalautuu sekvenssin pituuden neliösuhteessa, mikä johtaa suuriin laskennallisiin haasteisiin. Vuosien varrella eri mallit ovat tutkineet erilaisia strategioita laskennallisten haasteiden ratkaisemiseksi, mukaan lukien menetelmiä kuten kernelisointi, historia muisti pakkauksen, token sekoitus alueen rajoitus ja matalan sijan lähestymistavat. Viime aikoina Recurrent Neural Network -mallit, kuten Mamba ja RWKV, ovat keränneet merkittävää huomiota lupaavien tuloksien ansiosta suurissa kielen mallissa.
Mamba, mallien perhe, jolla on arkkitehtuuri, jossa on Recurrent Neural Network -tyyppinen token-sekoitin tilan avaruusmallissa, esiteltiin hiljattain ratkaisemaan huomio-mekanismien kvadratisen monimutkaisuuden ja sovellettiin myöhemmin näkemistehtäviin. Tutkijat ovat jo tutkineet keinoja Mamban ja SSM:n tai tilan avaruusmallin sisällyttämiseksi visuaalisen tunnistamisen tehtäviin, ja Vision Mamba, joka sisällyttää Mamban kehittääksesi isotrooppisia näkemismalleja, jotka ovat samanlaisia kuin Vision Transformer, on hyvä esimerkki tästä. Toisaalta LocalMamba sisällyttää paikalliset induktiiviset vinoumat parantamaan visuaalisen Mamban malleja, ja VMamba-kehyksessä käytetään perus-Mamba-mallia rakentamaan hierarkkisia malleja, jotka ovat samanlaisia kuin ResNet ja AlexNet. Onko Mamba-kehyksessä kuitenkaan todella välttämätöntä visuaalisen tunnistamisen kontekstitehtävissä? Kysymys herää, koska Mamba-mallien perheen suorituskyky visuaalisten tehtävien osalla on ollut heikko tähän asti verrattuna perinteisiin huomio-pohjaisiin ja konvoluutio-malleihin.
MambaOut pyrkii vastaamaan siihen, onko Mamba sopiva tehtäville, joilla on autoregressiiviset ja pitkän sekvenssin ominaisuudet. MambaOut-kehyksessä oletetaan, että Mamba ei ole välttämätöntä visuaalisten tehtävien osalla, koska kuvien luokittelu ei vastaa kummankaan autoregressiivisten tai pitkän sekvenssin ominaisuuksia. Vaikka segmentointi- ja havaintotehtävät eivät myöskään ole autoregressiivisia, ne näyttävät pitkän sekvenssin ominaisuuksia, joten MambaOut-kehyksessä oletetaan Mamban potentiaalia näille tehtäville. MambaOut-kehyksessä rakennetaan pinottamalla Mamba-blokeja toistensa päälle poistamalla tilan avaruusmalli, sen ydin token-sekoitin. Kokeelliset tulokset tukevat MambaOut-kehyksessä esitettyä oletusta, koska se pystyy ylittämään kaikki visuaaliset Mamba-mallit ImageNet-kuvien luokittelu kehyksessä, osoittaen, että Mamba ei ole välttämätöntä visuaalisten tehtävien osalla. Toisaalta havainto- ja segmentoinnitehtävissä MambaOut-kehyksessä ei pysty toistamaan valmiiden Mamba-mallien suorituskykyä, osoittaen Mamba-mallien perheen potentiaalia pitkän sekvenssin visuaalisissa tehtävissä.
… (rest of the translation remains the same, following the exact structure and format as the original)












