кочан MoE-LLaVA: Смес от експерти за големи визуално-езични модели - Unite.AI
Свържете се с нас

Изкуствен интелект

MoE-LLaVA: Смес от експерти за големи визуално-езични модели

mm
Обновено on
MoE-LLaVA: Смес от експерти за големи визуално-езични модели

Последните постижения в Large Vision Language Models (LVLM) показаха, че мащабирането на тези рамки значително повишава производителността при различни задачи надолу по веригата. LVLM, включително MiniGPT, LLaMA и други, са постигнали забележителни възможности чрез включване на слоеве за визуална проекция и енкодер на изображения в своята архитектура. Чрез прилагането на тези компоненти LVLM подобряват възможностите за визуално възприемане на големите езикови модели (LLM). Производителността може да бъде допълнително подобрена чрез увеличаване на размера на модела и броя на параметрите, както и чрез разширяване на мащаба на набора от данни.

Модели като InternVL разшириха своя енкодер на изображения до над 6 милиарда параметъра, докато други разшириха бекенда на LVLM до 13 милиарда параметъра, постигайки превъзходна производителност при широк набор от задачи. IDEFICS е обучил LVLM с над 80 милиарда параметри. Тези методи за мащабиране съответстват или надвишават производителността на LLMs, предварително обучени на над 34, 70 или дори 100 милиарда параметъра. Мащабирането обаче има обратна страна: значително увеличава разходите за обучение и изводи. Това е така, защото изисква всички параметри да са активни за всеки токен в изчислението, което води до големи изчислителни нужди и, следователно, по-високи разходи.

Тази статия обсъжда MoE-LLaVA, базирана на смесица от експерти (MoE) рядка LVLM архитектура, която използва ефективна стратегия за обучение, MoE-Tuning, за LVLM. MoE-Tuning иновативно се справя с влошаването на производителността при мултимодално разредено обучение, което води до модел с голям брой параметри, но последователни разходи за обучение и изводи. Архитектурата на MoE-LLaVA е проектирана да активира само най-добрите k експерти по време на внедряването, като останалите остават неактивни.

Ще проучим рамката на MoE-LLaVA, като изследваме нейния механизъм, методология, архитектура и как се сравнява с водещите рамки за генериране на изображения и видео.

MoE-LLaVA: Достъпно мащабиране на езикови модели с голяма визия

В допълнение към използването на слоеве за визуална проекция и енкодери на изображения, Large Vision Language Models също увеличават размера на модела чрез увеличаване на броя на параметрите, за да подобрят производителността на модела. Някои забележителни примери за Large Vision Language Models, които са следвали този подход, за да подобрят своята производителност, са MiniGPT-4, InternGPT, InternVL и други. В приложения от реалния свят мащабирането на голям езиков модел или езиков модел с голяма визуализация с висококачествени данни за обучение често се превръща в необходимост за подобряване на производителността на модела. Въпреки че мащабирането на размера на модела наистина подобрява производителността, то също така увеличава изчислителните разходи за обучение и внедряване на модела и допълнително увеличава усложненията и ефективността на едновременното разполагане на модела на паралелни устройства. Основна причина зад увеличените разходи за обучение и изводи заедно с изчислителните изисквания е, че всеки токен в рамката изисква изчисление с всеки един параметър в рамките на модела, известен като плътен модел. 

От друга страна, разредените MoE или смес от експертни модели демонстрират ефективно мащабиране на рамки чрез обработка на данни с помощта на фиксирани активирани параметри, подход, който е широко възприет в областта на обработката на естествен език. Използването на Mixture of Expert за директно обучение на разпръснати Large Vision Language Models обаче е предизвикателство, тъй като конвертирането на LLM в LVLM и разреждането на модела едновременно води до значително влошаване на производителността. За да приложите смес от модели за мащабиране на LLM и LVLM, е важно първо да инициализирате LVLM за разреждане. За да се постигне това, рамката MoE-LLaVA въвежда MoE-Tuning, проста, но ефективна трифазна стратегия за обучение. 

Както е показано на фигурата по-горе, процесът на MoE-Tuning първо обучава MLP или многослоен перцептрон, който адаптира визуалните токени към голям езиков модел в първия етап. След това рамката обучава всички параметри на LLM, за да даде възможност на Large Vision Language Model с общи мултимодални възможности за разбиране. И накрая, в третия етап, рамката възпроизвежда FFN или Feed Forward Network като инициализационни тегла за експертите и обучава само сместа от експертни слоеве. Като цяло процесът на обучение помага за постепенния преход на разредения модел от инициализация на LVLM към разредена смес от експертни модели. 

След като обхванем процеса на обучение, нека хвърлим малко светлина върху MoE-LLaVA, базова линия за езикови модели с голяма визия със смес от експертни модели, която включва обучаеми рутери и модели на MoE. В основата си моделът MoE-LLaVA се състои от множество редки пътища и рамката използва тези пътища, за да изпрати всеки токен на различни експерти чрез обучаемия рутер. След това токените се обработват колективно от активираните експерти, като същевременно неактивните пътища се пазят безшумни. След това рамката подрежда итеративно сместа от слоеве на експертни енкодери, за да осигури рядък път към по-голям и по-мощен LVLM. 

Благодарение на подхода, приложен от рамката на MoE-LLaVA, той е в състояние да превъзхожда модели с подобен брой активирани параметри и да ги надминава с голяма разлика в бенчмарка за халюцинации на обект POPE, въпреки че има само 2.2 милиарда параметъра. Освен това рамката MoE-LLaVA с 2.2 милиарда параметри е в състояние да постигне производителност, сравнима с рамката InternVL-Chat-19B с близо 8 пъти повече активирани параметри. 

Бяха внедрени мощни големи езикови модели със силно обобщение и възможности за следване на инструкции Езикови модели с голяма визия. Ранните LLM като BLIP кодираха визуални сигнали в поредица от визуални токени, което им позволяваше да адаптират визията към LLM успешно, използвайки множество проекционни слоеве. В същото време последните работи се фокусират върху подобряване на производителността на модела чрез прилагане на методи като разширяване на набора от данни за настройка на инструкции, увеличаване на разделителната способност на изображението, оптимизиране на стратегии за обучение, подравняване на входа, подобряване на енкодерите на изображения и много други. Тези подходи помогнаха за овластяването на LVLM с мощни възможности за визуално разбиране чрез разширяване на набора от данни за фина настройка на визуалните инструкции и скалите на модела. Освен това, някои LVLM също притежават способности за разбиране на фини изображения, като разбиране на региони и много региони, заедно с възможности за заземяване на пиксели. Въпреки това изчислителните разходи, придружени от мащабиране на плътни визуални данни и модели, често са значително високи, което го прави предизвикателство за носене. От друга страна, рамката на MoE-LLaVA има за цел да направи изследванията на LVLM по-достъпни чрез използване на възможностите на моделите на MoE. 

MoE-LLaVA: Метод и архитектура

В основата си рамката MoE-LLaVA се състои от визуален проекционен слой (Multilayer Perceptron), визуален енкодер, MoE блокове, множество подредени LLM блокове и слой за вграждане на думи. 

архитектура

Следната таблица обобщава подробните конфигурации на рамката MoE-LLaVA. 

За дадено RGB изображение визуалният енкодер обработва изображенията, за да получи последователност от визуални токени с визуален проекционен слой, картографиращ последователността от визуални токени към входни изображения. Въведеният текст се обработва от слоя за вграждане на дума, който след това го проектира, за да получи токените на последователността. В същото време рамката на MoE-LLaVA свързва текстовите и визуалните токени заедно и ги подава към Магистър по право. Рамката обаче обучава само визуалния проекционен слой с големия езиков модел, състоящ се от FFN или Feedforward невронни мрежи и слоеве за самовнимание с няколко глави. И накрая, рамката прилага остатъчни връзки и нормализиране на слоя към всеки блок. 

Придвижвайки се напред, рамката на MoE-LLaVA възпроизвежда FFN или Feedforward Neural Networks от втория етап, за да формира ансамбъл от експерти като стъпка на инициализация. Тъй като рутерът е линеен слой, прогнозира вероятността всеки токен да бъде присвоен на всеки експерт. Всеки токен се обработва от най-добрите k експерти с максимална вероятност и изчислява претеглената сума въз основа на мекия резултат от вероятностите. 

MoE-Настройка

MoE-Tuning е проста, но ефективна трифазна стратегия за обучение, която първо обучава MLP или многослоен персептрон, който адаптира визуалните токени към голям езиков модел в първия етап. След това рамката обучава всички параметри на LLM, за да даде възможност на Large Vision Language Model с общи мултимодални възможности за разбиране. И накрая, в третия етап, рамката възпроизвежда FFN или Feed Forward Network като инициализационни тегла за експертите и обучава само сместа от експертни слоеве. 

Етап 1

В първия етап основната цел е да се адаптират токените на изображението към големия езиков модел, който позволява на LLM да разбере екземплярите в изображението. Рамката MoE-LLaVA използва многослоен персептрон за проектиране на токените на изображението във входния домейн на големия езиков модел и третира кръпките на изображения като токени на псевдо текст. В този етап рамката MoE-LLaVA обучава LLM да описва изображенията и не прилага слоевете MoE към LLM по време на този етап.

Етап 2

Във втория етап MoE-LLaVA се опитва да подобри възможностите и контролируемостта на рамката чрез настройка на модела с мултимодални данни за инструкции. Рамката MoE-LLaVA постига това чрез коригиране на LLM, за да стане LVLM с мултимодални възможности за разбиране. Рамката използва по-сложни инструкции, включително задачи за разпознаване на текст и логическо мислене на изображения, които изискват моделът да притежава по-силни мултимодални възможности. Традиционно процесът на обучение за плътни модели се счита за завършен с тази стъпка. Рамката на MoE-LLaVA обаче се сблъска с предизвикателства при трансформирането на LLM в a LVLM едновременно с разреждането на LVLM. За да се противопостави на това предизвикателство, рамката използва теглата от етапа като инициализация за следващия етап в опит да облекчи трудностите при обучението на разредения модел. 

Етап 3

В третия етап моделът репликира невронната мрежа с предварителна връзка няколко пъти, за да инициализира експертите като процедура за инициализация. След това рамката подава токените за текст и изображение в сместа от експертни слоеве, след което рутерът изчислява съвпадащите тегла между експертите и всеки токен. След това всеки токен се обработва от най-добрите k експерти с обобщения резултат, изчислен чрез претеглено сумиране въз основа на теглата на рутера. След като топ-k експертите са активирани, моделът затваря останалите експерти, подход, който оборудва рамката на MoE-LLaVA с безкрайно възможни редки пътища, като по този начин оборудва модела с широка гама от възможности. 

MoE-LLaVA: Резултати и експерименти

Рамката MoE-LLaVA приема CLIP-Large като визуален енкодер с многослоен персептрон, състоящ се от два слоя със слой за активиране GELU, разделящ двата. По подразбиране рамката използва редуваща се замяна на невронните мрежи с пренасочена връзка със смес от експертни слоеве, което означава, че сместа от експертни слоеве съставлява 50% от общия брой слоеве. Следващата таблица съдържа различните набори от данни заедно с техния размер на извадката, използвани за обучение и оценка на рамката MoE-LLaVA. 

Zero-Shot Image Отговор на въпрос

Следващата фигура показва, че MoE-LLaVA е разреден модел с мек рутер, базиран на LVLM. Рамката е оценена по 5 бенчмарка за отговор на въпроси за изображения и както може да се види, рамката MoE-LLaVA демонстрира забележителни възможности за разбиране на изображения и предоставя сравнима производителност с най-модерната рамка LLaVA 1.5 на пет различни бенчмарка. 

Оценка на обектни халюцинации

За да оцени халюцинацията на обекта, рамката на MoE-LLaVA приема конвейера за оценка на POPE, метод на запитване, базиран на анкети, и резултатите са демонстрирани в следващата таблица. Както може да се види, от всички рамки, MoE-LLaVA дава най-силни резултати, което показва способността на рамката да генерира обекти, съответстващи на входното изображение. Освен това си струва да се отбележи, че рамката на MoE-LLaVA балансира добре съотношението „да“, което показва способността на разредения модел да осигури точна обратна връзка за дадения въпрос. 

Следното изображение съдържа разпределението на експертните зареждания, където прекъснатите линии представляват добре балансирано разпределение на токени между модалностите или експертите. Първата фигура илюстрира натоварването на експертите, докато останалите изображения демонстрират представянето на експертите по отношение на различни модалности. 

Освен това следващата фигура показва разпределението на модалностите между различните експерти. 

Заключителни мисли

В тази статия говорихме за MoE-LLaVA, базова линия за езикови модели с голяма визия със смес от експертни модели, която включва обучаеми рутери и модели на MoE. В основата си моделът MoE-LLaVA се състои от множество редки пътища и рамката използва тези пътища, за да изпрати всеки токен на различни експерти чрез обучаемия рутер. След това токените се обработват колективно от активираните експерти, като същевременно неактивните пътища се пазят безшумни. След това рамката подрежда итеративно сместа от слоеве на експертни енкодери, за да осигури рядък път към по-голям и по-мощен LVLM. Стратегията MoE-Tuning се занимава с общия проблем с влошаването на производителността при мултимодално разредено обучение по новаторски начин, като впоследствие конструира модел със значително голям брой параметри, но последователни разходи за обучение и изводи. Архитектурата на рамката MoE-LLaVA е проектирана по начин, който активира само най-добрите k експерти по време на внедряването, като същевременно поддържа останалите експерти неактивни. 

„Инженер по професия, писател по душа“. Kunal е технически писател с дълбока любов и разбиране на AI и ML, посветен на опростяването на сложни концепции в тези области чрез своята ангажираща и информативна документация.