tunggul BlackMamba: Campuran Ahli pikeun Modél State-Space - Unite.AI
Connect with kami

Kacerdasan buatan

BlackMamba: Campuran Ahli pikeun Modél State-Spasi

mm

dimuat

 on

BlackMamba: Campuran Ahli pikeun Modél State-Spasi

Ngembangkeun Modél Basa Besar (LLM) anu diwangun tina modél trafo ngan ukur dekoder parantos maénkeun peran anu penting dina ngarobih domain Pangolahan Basa Alam (NLP), ogé ngamajukeun aplikasi pembelajaran jero anu rupa-rupa kalebet. pembelajaran tulangan, analisis séri waktos, pamrosésan gambar, sareng seueur deui. Sanajan kitu, sanajan scalability maranéhanana jeung kinerja kuat, LLMs diwangun tina model trafo decoder-hijina masih nyanghareupan shortcomings signifikan. Sanajan ekspresif, mékanisme perhatian dina LLMs turunan trafo merlukeun sumberdaya komputasi tinggi salila duanana inferensi jeung latihan, merlukeun memori badag pikeun panjang runtuyan jeung FLOPs kuadrat. Sarat komputasi anu luhur ieu ngabatesan panjang kontéks modél trafo, ngajantenkeun tugas-tugas generasi autoregressive sacara proporsional mahal kalayan skala, sareng ngahalangan diajar tina aliran data kontinyu sareng kamampuan pikeun ngolah urutan anu henteu terbatas.

Dina jaman ayeuna, Modél Spasi Propinsi (SSMs) parantos nunjukkeun kamampuan sareng kinerja anu luar biasa, bersaing sareng modél trafo-arsitektur dina tolok ukur modél skala ageung bari ngahontal pajeulitna mémori salaku fungsi tina panjang sekuen sareng waktos linier. Sumawona, Mamba, Model Spasi Negara anu nembé dileupaskeun, parantos nunjukkeun prestasi anu luar biasa dina sauntuyan modeling basa sareng tugas ngolah runtuyan panjang. Dina waktos anu sami, modél Campuran Ahli (MoE) ogé parantos nunjukkeun prestasi anu pikaresepeun bari sacara signifikan ngirangan latency sareng komputasi biaya inferensi, sanaos biaya tapak suku mémori anu langkung ageung. Ngawangun modél Mamba sareng MoE, tulisan ieu bakal ngabahas BlackMamba, arsitéktur novel anu ngagabungkeun Modél Spasi Mamba State sareng modél MoE pikeun ngamangpaatkeun mangpaat anu ditawarkeun ku duanana kerangka. Percobaan dina BlackMamba geus nunjukkeun kamampuhna outperform kerangka Mamba aya na trafo baselines duanana latihan FLOPs na inferensi. Kinerja anu luar biasa tina kerangka BlackMamba nunjukkeun yén éta tiasa sacara efektif ngagabungkeun kamampuan kerangka Mamba sareng MoE, nawiskeun inferensi anu gancang sareng murah ti MoE sareng generasi pajeulitna linier ti Mamba.

Artikel ieu boga tujuan pikeun nutupan kerangka BlackMamba di jero. Urang ngajalajah mékanisme, metodologi, sareng arsitéktur kerangka, sareng ngabandingkeunana sareng kerangka gambar sareng generasi pidéo anu canggih. Hayu urang ngamimitian.

BlackMamba: Hiji Perkenalan pikeun MoE pikeun Modél Spasi Propinsi

Kamajuan Modél Basa Besar (LLM), khususna anu dumasar kana arsitéktur trafo ngan ukur dekoder, parantos mangaruhan pangaruh Ngolah Alami Basa (NLP) lapangan sareng dilegakeun kana sababaraha aplikasi diajar anu jero, kalebet diajar penguatan, analisis séri waktos, pamrosésan gambar, sareng saluareun. Sanajan kitu, sanajan scalability maranéhanana sarta kinerja mantap, LLMs basis trafo decoder-hijina ieu sapatemon tantangan kasohor. Mékanisme perhatian, fitur konci dumasar-trafo LLMss, nungtut sumberdaya komputasi éksténsif pikeun duanana inferensi jeung latihan. Ieu ngalibatkeun kabutuhan memori anu tumuwuh kalayan panjang runtuyan jeung operasi komputasi (FLOPs) nu ngaronjat quadratically. Kabutuhan komputasi intensif sapertos ngabatesan panjang kontéks modél, naékkeun biaya tugas generasi autoregressive salaku skala modél, sareng ngahalangan kamampuan modél diajar tina aliran data kontinyu atanapi urutan prosés anu panjangna henteu terbatas sacara éfisién. 

Usaha anu signifikan parantos dilakukeun dina sababaraha taun ka pengker dina usaha pikeun ngatasi watesan ieu, sareng perhatian parantos dialihkeun kana nyiptakeun alternatif arsitéktur pikeun modél trafo perhatian padet canonical kalayan modél SSM sareng MoE anu janten arsitéktur calon anu paling ngajangjikeun. Kauntungan konci anu diraih ku milih Modél Spasi Propinsi tibatan modél arsitéktur trafo nyaéta pajeulitna komputasi linier anu aya hubunganana sareng panjang urutan input anu ditawarkeun ku SSM sabalikna tina kompleksitas kuadrat anu ditawarkeun ku trafo. Sacara téoritis, pajeulitna komputasi linier ngeunaan panjang runtuyan input ngamungkinkeun Modél Spasi Propinsi ngolah runtuyan leuwih badag batan model trafo-arsitektur pikeun FLOPS atanapi Floating-point operasi per anggaran detik, sarta ngajadikeun autoregressive generasi konstan dina itungan tanpa cache KV. Modél Spasi Nagara anu nembe dikembangkeun kalebet Mamba, RetNet sareng sababaraha anu sanésna nunjukkeun inferensi sareng pelatihan urutan panjang anu efisien, sareng prestasi tugas modél basa anu kompetitif pikeun trafo anu gaduh sipat skala anu sami. Di sisi anu sanés, arsitéktur modél Campuran Ahli janten populer salaku alternatif pikeun trafo padet sabab ngagampangkeun pangurangan anu signifikan dina inferensi sareng latihan FLOP penting pikeun ngahontal kualitas anu sabanding sareng modél padet. MoE (Campuran Ahli) model beroperasi ku ngaktipkeun ngan pilihan sparse tina total parameter salila pass maju tunggal. Aranjeunna ngagunakeun fungsi routing pikeun nangtukeun mana 'ahli' nu disebut kana aksi dumasar kana konteks dibikeun. Pendekatan ieu nyiptakeun pamisahan antara biaya komputasi inferensi sareng jumlah total parameter, ngamungkinkeun pikeun ningkatkeun kinerja dina anggaran inferensi anu tetep, sanaos kalayan jumlah parameter sareng sarat mémori anu langkung ageung.

Kamajuan dina arsitéktur ieu nawiskeun kauntungan anu penting pikeun trafo tradisional sareng ngagambarkeun arah anu pikaresepeun pikeun pangwangunan salajengna. Kami yakin yén ngahijikeun paningkatan ieu kana modél gabungan Mamba-MoE tiasa sacara signifikan ngagancangkeun kamampuan modél basa sareng efisiensi saluareun modél trafo standar. Kaunggulan anu diantisipasi tina arsitéktur Mamba-MoE dibandingkeun sareng modél trafo padet tradisional kalebet:

Mamba: Ngahontal pajeulitna komputasi linier relatif ka panjang runtuyan input boh fase latihan jeung inferensi. Éta ngamungkinkeun generasi autoregressive lumangsung dina pigura waktos konstan sareng nganggo memori konstan.

MoE: Nawarkeun kagancangan inferensi sareng efisiensi komputasi latihan anu dibandingkeun sareng modél garis dasar anu langkung alit, bari ngajaga tingkat kualitas modél anu saingan sareng modél anu gaduh jumlah parameter anu sami sareng versi anu langkung padet.

Kalayan éta, penting pikeun nyatakeun yén modél arsitéktur trafo masih kénéh canggih, sareng parantos nunjukkeun prestasi anu konsisten sareng luar biasa dina tugas modél basa sareng tugas ngolah urutan. Dina inti na, arsitéktur trafo employs timer perhatian nu ngalakukeun kuadrat sadaya-ka-kabeh ngabandingkeun tina kamiripan produk titik antara embeddings of tokens béda dina runtuyan, sarta ngalakukeun peta linier ka vektor kaluaran. Modél trafo diwangun ku blok timer perhatian tumpuk antara MLP atanapi Multi-Lapisan Perceptron blok nu salajengna diwangun ku MLP dua-lapisan kalawan fungsi aktivasina dibikeun. 

BlackMamba: Arsitéktur sarta Métodologi

Modél Spasi Propinsi

Modél Spasi Propinsi kagolong kana grup model runtuyan kalawan pajeulitna linier nu patali jeung panjang runtuyan input. Arsitéktur Modél Spasi Propinsi langkung saluyu sareng Jaringan Neural Recurrent sareng Jaringan Neural Convolutional tinimbang arsitéktur dumasar-perhatian, sareng diideuan tina sistem dinamis kontinyu anu peta fungsi 1 diménsi ngaliwatan rohangan laten implisit. Sistem dinamis linier ngajadikeun komputasi paralel éfisién ngagunakeun boh associative atanapi convolution scan. Dina skénario praktis, sifat ngulang deui State Space Models mangrupikeun alesan naha éta masih kedah diadopsi dina parangkat AI paralel pisan sapertos GPU. Sanajan kitu, mecenghulna SSMs kawas RWKV jeung mamba geus dipaké kernels scan paralel pikeun peta operasi ngulang éfisién pikeun GPUs, sahingga facilitating palatihan arsitéktur novel kalawan efisiensi comparable jeung nu kahontal ku model trafo. 

Pajeulitna kuadrat anu aya hubunganana sareng panjang sekuen dina trafo mangrupikeun watesan anu terkenal anu ngahalangan penalaran sareng pamahaman dina kontéks anu panjang pisan. Inovasi panganyarna geus ngawanohkeun gagasan manjangkeun panjang konteks, sangkan trafo dilatih dina skala meujeuhna saméméh dilarapkeun ka konteks leuwih lila salila inferensi. Sanajan kamajuan ieu, prosés inferensi masih merlukeun jumlah considerable sumberdaya komputasi jeung memori, utamana pikeun ngajaga Key-Value (KV) cache, sahingga usaha sumberdaya-intensif. Usaha panalungtikan panganyarna geus fokus kana ngaronjatkeun kamampuh ekspresif model kaayaan-spasi ku incorporating mékanisme gating gumantung input, sarupa jeung Query, Key, Value (QKV) matrices kapanggih dina mékanisme perhatian. 

Usaha ieu boga tujuan pikeun ngawétkeun progression inherently linier rekursi kaayaan-spasi, sahingga pikeun palaksanaan efisien ngaliwatan boh convolution atawa prosés scan selektif. Pendekatan ieu sacara signifikan ngahususkeun bédana kinerja sareng trafo dina aplikasi praktis. Diantara kamajuan ieu, Mamba nangtung kaluar salaku modél state-spasi nu eunteung tujuan panalungtikan saméméhna, némbongkeun tingkat kinerja impressive comparable mun trafo dina skala nepi ka 2.8 milyar parameter. Ieu ngahontal ieu ku nerapkeun gating gumantung input kana inputs tina model state-space (SSM) recursion, bari mastikeun itungan efisien ngaliwatan pamakéan kernels scan selektif bespoke.

Campuran Modél Ahli

Modél Campuran Ahli (MoE) ngahontal pamisahan antara biaya inferensi sareng jumlah parameter total ku cara ngaktipkeun parameter sacara selektif salami maju. Gantina ngagunakeun sagala parameter, model ieu tokens langsung ka ahli husus Multilayer Perceptron (MLP). Ideally, unggal ahli tailored pikeun ngolah tipe husus tina input, kalawan mékanisme routing, dasarna jaringan neural kompak, nangtukeun ahli paling cocog pikeun tiap token. Pendekatan ieu boga tujuan pikeun ngawétkeun kakuatan éksprésif komprehensif model kalawan jumlah parameter sarimbag dina konfigurasi denser, tapi kalawan considerably ngurangan tungtutan komputasi. Biasana, router mangrupikeun pemetaan lapisan linier tina token ka indéks ahli kalayan masing-masing ahli ngan ukur janten trafo standar Multilayer Perceptron. Nanging, pamekar henteu acan terang metode latihan anu optimal pikeun router sabab masalah tugas ahli henteu tiasa dibédakeun, sareng Model Campuran Ahli sering bajoang sareng balancing beban sareng stabilitas latihan antara para ahli anu béda pikeun efisiensi hardware. 

gawena undagi

Dina inti na, BlackMamba employs model trafo baku diwangun ku blok MLP interleaved sarta blok perhatian ditambahkeun dina urutan sapanjang aliran residual. Ayeuna, seuseueurna modél Campuran Ahli ngan ukur ngagentos blok perceptron multilayer sareng lapisan ahli anu dialihkeun. Di sisi séjén, kerangka BlackMamba teu ngan ngaganti blok perceptron multilayer dina trafo jeung lapisan ahli routed, tapi ogé ngagantikeun lapisan perhatian ku lapisan Modél Spasi Mamba Propinsi. Arsitéktur kerangka BlackMamba ditingalikeun dina gambar di handap ieu. 

Pelatihan sareng Dataset

Modél BlackMamba dilatih dina leuwih 300 miliar tokens dina susunan data custom, sarta ngagunakeun fungsi aktivasina SwiGLU pikeun perceptrons multilayer ahli. Kerangka ngalatih sareng 8 ahli, sajumlah anu dipendakan ku pamekar mangrupikeun kasaimbangan anu leres sareng dagang antara tapak suku mémori sareng biaya inferensi modél. Dataset khusus anu dianggo pikeun ngalatih kerangka BlackMamba diwangun ku campuran set data open source anu tos aya kalebet Starcoder, SlimPajama, Pile, sareng seueur deui. Tabel di handap ieu nunjukkeun beurat unggal set data anu dianggo pikeun ngalatih kerangka BlackMamba. Gemblengna, aya 1.8 triliun token dina set data. 

BlackMamba : Hasil

Pikeun mastikeun perbandingan anu adil antara Mamba sareng BlackMamba, pamekar parantos ngalatih duanana modél sareng parameter latihan anu sami dina data latihan anu sami. Kerangka BlackMamba tiasa ngaunggulan modél Mamba sareng trafo pikeun ukuran modél maju anu idéntik dina waktos inferensi ogé ngalatih operasi Floating-point per detik. Gambar di handap ieu nunjukkeun waktos anu dicandak pikeun ngahasilkeun sekuen panjangna sacara autoregressively tina ajakan hiji-token awal salaku fungsi tina panjang sekuen. 

Saterusna, mangpaat latency duanana Modél Mixture of Expert jeung Mamba digabungkeun dina kerangka BlackMamba hasilna kali inferensi nyata gancang mun dibandingkeun jeung model trafo, model Mamba murni, jeung model MoE. Saterusna, kaunggulan inferensi kerangka BlackMamba langsung sabanding jeung panjang runtuyan, sahingga BlackMamba pohara efektif dina generasi runtuyan panjang. Pindah sapanjang, inohong di handap illustrates jumlah tokens ditugaskeun ka model BlackMamba kalawan mungguh 340 juta sarta 640 juta parameter. Salaku bisa ditempo, seuseueurna lapisan nunjukkeun tingkat luhur kasaimbangan ahli salaku hasil tina ningkat algoritma Sinkhorn dilaksanakeun ku model BlackMamba. 

Tabél di handap nyertakeun skor évaluasi kerangka BlackMamba dibandingkeun sareng sauntuyan modél basa anu dilatih open-source. Salaku bisa dititénan, kerangka BlackMamba bisa bersaing jeung outperform kalawan mayoritas frameworks sakuliah sakabéh baselines. Saterusna, eta sia noting yén model nu outperform BlackMamba boga angka considerably luhur parameter, sarta gap kinerja minimal, nunjukkeun kamampuh kerangka BlackMamba kalawan parameter kirang. 

Pikiran final

Dina artikel ieu, urang ngobrol ngeunaan BlackMamba, arsitéktur novél anu ngagabungkeun Modél Spasi Mamba State jeung Campuran model Ahli pikeun metik mangpaat ditawarkeun ku duanana frameworks ieu. Percobaan dina BlackMamba geus nunjukkeun eta outperform kerangka Mamba aya na trafo baselines boh latihan FLOPs jeung inferensi. Kinerja luar biasa tina kerangka BlackMamba nunjukkeun yén éta tiasa ngawariskeun sareng ngagabungkeun kamampuan kerangka Mamba sareng MoE sacara luar biasa sabab ngagabungkeun inferensi anu murah sareng gancang ti MoE sareng generasi kompleksitas linier ti Mamba. Kami parantos nyarioskeun kumaha arsitéktur kerangka BlackMamba tiasa ngaunggulan Modél Basa Besar anu dilatih kuat, kerangka Mamba anu aya, sareng Model Campuran Ahli dina hal latihan FLOP sareng biaya inferensi. Saterusna, kerangka BlackMamba ogé inherits generasi FLOPs sarta ngurangan palatihan ti duanana Campuran model Ahli sarta kerangka Mamba sakaligus. 

 

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.