Вештачка интелигенција

Mamba: Редефинирање на моделирање на секвенци и надобразување на архитектурата на трансформаторите

Објавено

пред 5 месеци

Декември 18, 2023

Во оваа статија за mamba, ќе истражиме како овој иновативен модел на простор-државен простор (SSM) го револуционизира моделирањето на секвенците. Развиена од Алберт Гу и Три Дао, Мамба се одликува со својата ефикасност во обработката на сложени секвенци во области како обработка на јазици, геномика и аудио анализа. Неговото моделирање на линеарно временска секвенца со селективни простори на состојби обезбедува исклучителни перформанси на овие различни модалитети.

Ќе истражуваме во способноста на Мамба да ги надмине пресметковните предизвици со кои се соочуваат традиционалните трансформатори, особено со долги секвенци. Неговиот селективен пристап во моделите на простор на состојба овозможува побрзо заклучување и линеарно скалирање со должина на секвенцата, значително подобрување на пропусната моќ.

Уникатноста на Mamba лежи во неговата способност за брза обработка, селективен SSM слој и хардверски дизајн инспириран од FlashAttention. Овие карактеристики му овозможуваат на Mamba да ги надмине многу постоечки модели, вклучувајќи ги и оние базирани на пристапот на трансформаторот, што го прави забележлив напредок во машинското учење.

Трансформатори наспроти mamba

Трансформаторите, како GPT-4, поставија репери во обработката на природниот јазик. Сепак, нивната ефикасност се намалува со подолги секвенци. Еве каде Mamba скока напред, со неговата способност поефикасно да обработува долги секвенци и со својата уникатна архитектура која го поедноставува целиот процес.

Трансформаторите вешти во ракување со секвенци на податоци, како што е текстот за јазични модели. За разлика од претходните модели кои обработуваа податоци последователно, трансформаторите обработуваат цели секвенци истовремено, овозможувајќи им да доловат сложени односи во податоците.

Тие користат механизам за внимание, кој му овозможува на моделот да се фокусира на различни делови од низата кога прави предвидувања.

Ова внимание се пресметува со користење на три групи тежини: прашања, клучеви и вредности, добиени од влезните податоци. Секој елемент во низата се споредува со секој друг елемент, обезбедувајќи тежина што ја означува важноста или „вниманието“ што секој елемент треба да го добие при предвидување на следниот елемент во низата.

Трансформаторите одржуваат два главни блока: енкодерот, кој ги обработува влезните податоци и декодерот, кој го генерира излезот. Кодерот се состои од повеќе слоеви, секој од нив содржи два под-слоеви: механизам за само-внимание со повеќе глави и едноставна, целосно поврзана положбена мрежа за пренасочување. Нормализацијата и преостанатите врски се користат на секој подслој за да помогнат во обуката на длабоките мрежи.

Декодерот, исто така, има слоеви со два под-слоеви слични на енкодерот, но додава трет под-слој кој врши внимание на повеќе глави над излезот на енкодерот. Секвенцијалната природа на декодерот осигурува дека предвидувањата за позиција можат да ги земат предвид само претходните позиции, зачувувајќи го авторегресивното својство.

За разлика од Transformers, моделот Mamba има поинаков пристап. Додека Transformers се справуваат со прашањето на долгите секвенци со користење на посложени механизми за внимание, Mamba користи селективни простори на состојби, обезбедувајќи повеќе пресметување

Еве преглед на високо ниво за тоа како функционира трансформаторот:

Обработка на влезови: Трансформаторите прво ги кодираат влезните податоци во формат што моделот може да го разбере, често користејќи вградувања кои исто така ја вклучуваат позицијата на секој елемент во низата.
Механизам за внимание: Во неговото јадро, механизмот за внимание пресметува резултат што претставува колку фокус треба да се стави на другите делови од влезната низа кога се разбира тековниот елемент.
Архитектура на енкодер-декодер: Моделот на трансформаторот е составен од енкодер за обработка на влезот и декодер за генерирање на излезот. Секој се состои од повеќе слоеви кои го подобруваат разбирањето на моделот за влезот.
Внимание со повеќе глави: И во енкодерот и во декодерот, вниманието со повеќе глави му овозможува на моделот истовремено да посетува различни делови од низата од различни репрезентативни простори, подобрувајќи ја неговата способност да учи од различни контексти.
Позиционирано Feed-Forward Networks: По вниманието, едноставна невронска мрежа го обработува излезот од секоја позиција посебно и идентично. Ова се комбинира со влезот преку резидуална врска и проследено со нормализација на слојот.
Излез генерирање: Декодерот потоа предвидува излезна секвенца, под влијание на контекстот на енкодерот и она што тој го генерирал досега.

Способноста на трансформаторот да се справува со секвенци паралелно и неговиот робустен механизам за внимание го прават моќен за задачи како превод и генерирање текст.

Спротивно на тоа, моделот Мамба работи поинаку со користење на селективни простори на состојби за обработка на секвенци. Овој пристап се однесува на пресметковната неефикасност во трансформаторите кога се работи со долги секвенци. Дизајнот на Mamba овозможува побрзо заклучување и линеарно скалирање со должината на секвенцата, поставувајќи нова парадигма за моделирање на секвенци што би можело да биде поефикасно, особено кога секвенците стануваат се подолги.

mamba

Она што ја прави Mamba навистина уникатна е неговото отстапување од традиционалното внимание и MLP блоковите. Ова поедноставување води до полесен, побрз модел кој линеарно се скали со должината на низата - подвиг што не се споредува со неговите претходници.

Главните карактеристики на Mamba вклучуваат:

Селективни ССМ: Тие му овозможуваат на Mamba да ги филтрира ирелевантните информации и да се фокусира на релевантни податоци, подобрувајќи го неговото ракување со секвенците. Оваа селективност е клучна за ефикасно расудување базирано на содржина.
Хардвер-свесен алгоритам: Mamba користи паралелен алгоритам кој е оптимизиран за модерен хардвер, особено графички процесори. Овој дизајн овозможува побрзо пресметување и ги намалува барањата за меморија во споредба со традиционалните модели.
Поедноставена архитектура: Со интегрирање на селективни SSM и елиминирање на блоковите за внимание и MLP, Mamba нуди поедноставна, похомогена структура. Ова води до подобра приспособливост и перформанси.

Mamba покажа супериорни перформанси во различни домени, вклучувајќи јазик, аудио и геномика, извонредни и во пред-тренинг и во задачи специфични за домен. На пример, во јазичното моделирање, Mamba одговара или ги надминува перформансите на поголемите модели на Transformer.

Кодот на Mamba и претходно обучените модели се отворено достапни за употреба во заедницата во GitHub.

Стандардните задачи за копирање се едноставни за линеарни модели. Селективните глави за копирање и индукција бараат динамична меморија, свесна за содржината за LLM.

Моделите на Структурен простор на состојбата (S4) неодамна се појавија како ветувачка класа на модели на секвенца, опфаќајќи црти од RNN, CNN и класичните модели на простор на состојбата. Моделите S4 црпат инспирација од континуирани системи, особено тип на систем кој мапира еднодимензионални функции или секвенци преку имплицитна латентна состојба. Во контекст на длабокото учење, тие претставуваат значајна иновација, обезбедувајќи нова методологија за дизајнирање модели на секвенца кои се ефикасни и високо прилагодливи.

Динамиката на моделите S4

SSM (S4) Ова е основниот модел на структуриран државен простор. Потребна е низа x и произведува излез y користејќи ги научените параметри A, B, C, и параметар за одложување Δ. Трансформацијата вклучува дискретизирање на параметрите (претворање на континуираните функции во дискретни) и примена на операцијата SSM, која е временски непроменлива - што значи дека не се менува во различни временски чекори.

Значењето на дискретизацијата

Дискретизацијата е клучен процес кој ги трансформира континуираните параметри во дискретни преку фиксни формули, овозможувајќи им на моделите S4 да одржуваат врска со системите со континуирано време. Ова им дава на моделите дополнителни својства, како што е непроменливоста на резолуцијата и обезбедува соодветна нормализација, подобрување на стабилноста и перформансите на моделот. Дискретизацијата, исто така, повлекува паралели со механизмите за влез што се наоѓаат во RNN, кои се клучни за управување со протокот на информации низ мрежата.

Линеарна временска непроменливост (LTI)

Основна карактеристика на моделите S4 е нивната линеарна временска непроменливост. Ова својство имплицира дека динамиката на моделот останува конзистентна со текот на времето, при што параметрите се фиксирани за сите временски чекори. LTI е камен-темелник на повторување и конволуции, нудејќи поедноставена, но моќна рамка за градење модели на секвенци.

Надминување на основните ограничувања

Рамката S4 традиционално е ограничена од нејзината LTI природа, која поставува предизвици во моделирањето на податоците кои бараат адаптивна динамика. Неодамнешниот истражувачки труд претставува пристап кој ги надминува овие ограничувања со воведување на временски променливи параметри, со што се отстранува ограничувањето на LTI. Ова им овозможува на моделите S4 да се справат со поразновидни секвенци и задачи, што значително ја проширува нивната применливост.

Терминот „модел на државен простор“ нашироко опфаќа секој повторлив процес кој вклучува латентна состојба и се користи за опишување на различни концепти низ повеќе дисциплини. Во контекст на длабокото учење, моделите S4 или структурирани SSM се однесуваат на специфична класа на модели кои се оптимизирани за ефикасно пресметување додека ја задржуваат способноста за моделирање сложени секвенци.

Моделите S4 можат да се интегрираат во архитектури на невронски мрежи од крај до крај, функционирајќи како самостојни трансформации на секвенци. Тие може да се гледаат како аналогни на слоевите на конволуција во CNN, обезбедувајќи ја основата за моделирање на секвенци во различни архитектури на невронски мрежи.

SSM vs SSM + Избор

Мотивација за селективност при моделирање на секвенци

Структурирани ССМ

Трудот тврди дека фундаменталниот аспект на моделирањето на секвенците е компресирањето на контекстот во состојба која може да се управува. Моделите кои можат селективно да се фокусираат или да ги филтрираат влезовите обезбедуваат поефективни средства за одржување на оваа компресирана состојба, што доведува до поефикасни и помоќни модели на секвенца. Оваа селективност е од витално значење за моделите приспособливо да контролираат како информациите течат долж димензијата на секвенцата, што е суштинска способност за справување со сложени задачи во јазичното моделирање и пошироко.

Селективните SSM ги подобруваат конвенционалните SSM со тоа што дозволуваат нивните параметри да зависат од влезот, што воведува одреден степен на приспособливост што претходно беше недостижен со временски непроменливи модели. Ова резултира со временски променливи SSM-и кои повеќе не можат да користат конволуции за ефикасно пресметување, туку се потпираат на линеарен механизам за повторување, значително отстапување од традиционалните модели.

SSM + Избор (S6) Оваа варијанта вклучува механизам за селекција, додавајќи влезна зависност на параметрите B C, и параметар за одложување Δ. Ова му овозможува на моделот селективно да се фокусира на одредени делови од влезната низа x. Параметрите се дискретизирани земајќи го предвид изборот, а операцијата SSM се применува на временски променлив начин користејќи операција на скенирање, која ги обработува елементите последователно, приспособувајќи го фокусот динамично со текот на времето.

Изведба Определување на Mamba

Mamba е најдобар во класата за секој резултат од евалуацијата

Во однос на перформансите, Mamba се истакнува и во брзината и точноста на заклучоците. Неговиот дизајн овозможува подобро искористување на подолги контексти, што се демонстрира и при моделирање на ДНК и аудио, надминувајќи ги претходните модели за сложени задачи за кои е потребна зависност од долг дострел. Неговата разновидност е нагласена и во проценките на нула-снимки низ повеќе задачи, поставувајќи нов стандард за таквите модели во однос на ефикасноста и приспособливоста.

Започнување со Mamba

За оние кои се заинтересирани да користат Mamba, техничките барања вклучуваат Linux OS, NVIDIA GPU, PyTorch 1.12+ и CUDA 11.6+. Инсталирањето вклучува едноставни пип команди за инсталирање на потребните пакети од Мамба складиште. Ако се појават проблеми со компатибилноста со верзиите на PyTorch, користењето на знамето –no-build-isolation со pip може да помогне. Овие модели, обучени за обемни сетови на податоци, како што се натписот Pile и SlimPajama, се дизајнирани да задоволат различни пресметковни потреби и репери за перформанси.

Mamba нуди различни нивоа на интерфејси, од селективниот SSM слој до блокот Mamba и комплетните структури на јазичен модел. Блокот Mamba, кој е главниот модул на архитектурата, користи каузален Conv1d слој и може лесно да се интегрира во дизајните на невронската мрежа. Обезбедениот пример за употреба во Python покажува инстантирање на моделот Mamba и обработка на податоци преку него, истакнувајќи ја едноставноста и флексибилноста на системот.

Достапни се претходно обучени модели на Mamba Гушкање на лицето, со големини кои се движат од 130M до 2.8B параметри, обучени за обемната база на податоци на Pile и базата на податоци SlimPajama. Овие модели се дизајнирани да задоволат различни барања за пресметување и перформанси, придржувајќи се до димензионалните стандарди на GPT-3. Корисниците можат да очекуваат висока пропусност и прецизност од овие модели, што го прави Mamba конкурентен избор за различни апликации, вклучувајќи, но не ограничувајќи се на јазично моделирање.

Влијанието на Мамба

Mamba претставува скок напред во моделирањето на секвенците, нудејќи моќна алтернатива на архитектурите на Transformer за обработка на податоци густи за информации. Неговиот дизајн се усогласува со барањата на современиот хардвер, оптимизирајќи ги и користењето меморија и можностите за паралелна обработка. Достапноста со отворен код на базата на кодови на Mamba и нејзините претходно обучени модели ја прави достапна и силна алатка за истражувачите и програмерите во областа на вештачката интелигенција и длабокото учење.

Поврзани теми:механизам за внимание GPT mamba трансформатори

Следно

HierSpeech++: Хиерархиско варијациско заклучување за синтеза на говор со нула

Не ја пропуштајте

Определување и придонеси од NeurIPS 2023

Ајуш Митал

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.