стуб МОЕ-ЛЛаВА: Мешавина стручњака за велике моделе визуелног језика - Уните.АИ
Повежите се са нама

Вештачка интелигенција

МОЕ-ЛЛаВА: Мешавина експерата за велике моделе на језику вида

mm
Ажурирано on
МОЕ-ЛЛаВА: Мешавина експерата за велике моделе на језику вида

Недавни напредак у моделима језика великих видова (ЛВЛМ) показао је да скалирање ових оквира значајно повећава перформансе у низу низводних задатака. ЛВЛМ-ови, укључујући МиниГПТ, ЛЛаМА и друге, постигли су изузетне могућности уградњом слојева визуелне пројекције и енкодера слике у своју архитектуру. Имплементацијом ових компоненти, ЛВЛМ побољшавају могућности визуелне перцепције великих језичких модела (ЛЛМ). Перформансе се могу додатно побољшати повећањем величине модела и броја параметара, као и проширењем скале скупа података.

Модели као што је ИнтернВЛ проширили су свој кодер слике на преко 6 милијарди параметара, док су други проширили позадину ЛВЛМ-а на 13 милијарди параметара, постижући супериорне перформансе на широком спектру задатака. ИДЕФИЦС је обучио ЛВЛМ са преко 80 милијарди параметара. Ове методе скалирања су се поклапале или премашиле перформансе ЛЛМ-а унапред обучених на преко 34, 70 или чак 100 милијарди параметара. Међутим, скалирање има лошу страну: значајно повећава трошкове обуке и закључивања. То је зато што захтева да сви параметри буду активни за сваки токен у прорачуну, што доводи до великих рачунарских потреба и, последично, већих трошкова.

Овај чланак говори о МоЕ-ЛЛаВА, ретки ЛВЛМ архитектури заснованој на мешавини стручњака (МоЕ) која користи ефикасну стратегију обуке, МоЕ-Тунинг, за ЛВЛМ. МоЕ-Тунинг се иновативно бави деградацијом перформанси у мултимодалном учењу оскудности, што резултира моделом са великим бројем параметара, али доследним трошковима обуке и закључивања. Архитектура МоЕ-ЛЛаВА је дизајнирана да активира само врхунске стручњаке током имплементације, држећи остале неактивне.

Истражићемо оквир МоЕ-ЛЛаВА, испитујући његов механизам, методологију, архитектуру и како се пореди са водећим оквирима за генерисање слика и видео записа.

МоЕ-ЛЛаВА: Приуштиво скалирање модела језика великог вида

Поред коришћења слојева визуелне пројекције и кодера слике, Ларге Висион Лангуаге Модели такође повећавају величину модела повећањем броја параметара како би побољшали перформансе модела. Неки значајни примери модела језика велике визије који су пратили овај приступ како би побољшали своје перформансе су МиниГПТ-4, ИнтернГПТ, ИнтернВЛ и други. У реалним апликацијама, скалирање великог језичког модела или језичког модела велике визије са висококвалитетним подацима за обуку често постаје неопходност за побољшање перформанси модела. Иако скалирање величине модела побољшава перформансе, оно такође повећава рачунске трошкове обуке и примене модела, и даље повећава компликације и ефикасност истовременог постављања модела на паралелне уређаје. Главни разлог за повећане трошкове обуке и закључивања, заједно са рачунарским захтевима, је тај што сваки токен у оквиру захтева израчунавање са сваким појединачним параметром унутар модела познатог као густи модел. 

С друге стране, ретки МОЕ или Миктуре оф Екперт Моделс су демонстрирали ефикасно скалирање оквира обрадом података уз помоћ фиксних активираних параметара, приступ који је широко прихваћен у области обраде природног језика. Међутим, коришћење Миктуре оф Екперт за директно тренирање оскудних Ларге Висион Лангуаге Модела представља изазов јер претварање ЛЛМ-а у ЛВЛМ и спарсификовање модела истовремено резултира значајном деградацијом перформанси. Да бисте применили мешавину модела за скалирање ЛЛМ-ова и ЛВЛМ-ова, неопходно је прво иницијализовати ЛВЛМ за спарсификацију. Да би се ово постигло, оквир МоЕ-ЛЛаВА уводи МоЕ-Тунинг, једноставну, али ефикасну стратегију обуке у три фазе. 

Као што је приказано на горњој слици, процес МоЕ-Тунинг прво обучава МЛП или вишеслојни перцептрон који прилагођава визуелне токене моделу великог језика у првој фази. Оквир затим обучава целокупне параметре ЛЛМ-а да унапред оснажи језички модел велике визије са општим мултимодалним могућностима разумевања. Коначно, у трећој фази, оквир реплицира ФФН или Феед Форвард Нетворк као иницијализационе тежине за стручњаке и обучава само мешавину слојева стручњака. Све у свему, процес обуке помаже у постепеном преласку оскудног модела са ЛВЛМ иницијализације на ретку мешавину експертских модела. 

Пошто је процес обуке покривен, хајде да осветлимо МоЕ-ЛЛаВА, основну линију за моделе језика великог вида са мешавином стручних модела који укључује рутере који се могу научити и моделе МоЕ. У својој сржи, модел МоЕ-ЛЛаВА се састоји од више ретких путања, а оквир користи ове путање да пошаље сваки токен различитим стручњацима преко рутера који се може научити. Токени се затим колективно обрађују од стране активираних стручњака док неактивне путање остају тихе. Фрамеворк затим слаже слојеве Миктуре оф Екперт енкодера итеративно како би обезбедио ретки пут ка већем и моћнијем ЛВЛМ-у. 

Захваљујући приступу који имплементира оквир МоЕ-ЛЛаВА, он је у стању да надмаши моделе са сличним бројем активираних параметара, и надмаши их великом разликом на бенчмарку халуцинације ПОПЕ објеката, упркос томе што има само 2.2 милијарде параметара. Штавише, оквир МоЕ-ЛЛаВА са 2.2 милијарде параметара, може да постигне перформансе упоредиве са оквиром ИнтернВЛ-Цхат-19Б са скоро 8 пута већим бројем активираних параметара. 

Имплементирани су моћни модели великих језика са снажном генерализацијом и могућностима праћења инструкција Ларге Висион Лангуаге Моделс. Рани ЛЛМ-ови као што је БЛИП су кодирали визуелне сигнале у низ визуелних токена омогућавајући им да успешно прилагоде визију ЛЛМ-овима користећи више слојева пројекције. У исто време, недавни радови се фокусирају на побољшање перформанси модела применом метода као што су проширење скупа података за подешавање инструкција, повећање резолуције слике, оптимизација стратегија обуке, поравнавање улаза, побољшање кодера слике и још много тога. Ови приступи су помогли да се ЛВЛМ-ови оснаже са моћним могућностима визуелног разумевања проширењем визуелних инструкција за фино подешавање скупа података и скала модела. Штавише, неки ЛВЛМ-ови такође поседују фино-зрнасте могућности разумевања слике, као што су разумевање региона и више региона, заједно са могућностима уземљења у пикселима. Међутим, рачунски трошкови праћени повећањем густих визуелних података и модела често су значајно високи што га чини изазовним за ношење. С друге стране, оквир МоЕ-ЛЛаВА има за циљ да учини ЛВЛМ истраживање приступачнијим коришћењем могућности МОЕ модела. 

МОЕ-ЛЛаВА : Метод и архитектура

У својој сржи, оквир МоЕ-ЛЛаВА се састоји од слоја визуелне пројекције (вишеслојни перцептрон), енкодера вида, МоЕ блокова, вишеструких наслаганих ЛЛМ блокова и слоја за уграђивање речи. 

Архитектура

Следећа табела сумира детаљне конфигурације оквира МоЕ-ЛЛаВА. 

За дату РГБ слику, кодер за вид обрађује слике да би добио низ визуелних токена са слојем визуелне пројекције који мапира секвенцу визуелног токена у улазне слике. Уноси текста се обрађују слојем за уграђивање речи који га затим пројектује да би добио токене секвенце. У исто време, оквир МоЕ-ЛЛаВА повезује текстуалне и визуелне токене заједно и доводи их у ЛЛМ. Међутим, оквир тренира само слој визуелне пројекције са великим језичким моделом који се састоји од ФФН или Неуралне мреже напредног протока и слојева самопажње са више глава. Коначно, оквир примењује преостале везе и нормализацију слоја на сваки блок. 

Крећући се даље, оквир МоЕ-ЛЛаВА реплицира ФФН или Неуралне мреже напредовања из друге фазе да би формирао ансамбл стручњака као корак иницијализације. Рутер који је линеарни слој, предвиђа вероватноћу да ће сваки токен бити додељен сваком стручњаку. Сваки токен обрађује топ-к стручњака са максималном вероватноћом и израчунава пондерисани збир на основу софтмак резултата вероватноће. 

МоЕ-Тунинг

МоЕ-Тунинг је једноставна, али ефикасна стратегија обуке у три фазе која прво обучава МЛП или вишеслојни перцептрон који прилагођава визуелне токене Великом језичком моделу у првој фази. Оквир затим обучава целокупне параметре ЛЛМ-а да унапред оснажи језички модел велике визије са општим мултимодалним могућностима разумевања. Коначно, у трећој фази, оквир реплицира ФФН или Феед Форвард Нетворк као иницијализационе тежине за стручњаке и обучава само мешавину слојева стручњака. 

Фаза КСНУМКС

У првој фази, примарни циљ је прилагођавање токена слике великом језичком моделу који омогућава ЛЛМ-у да схвати инстанце на слици. Оквир МоЕ-ЛЛаВА користи вишеслојни перцептрон за пројектовање токена слике у улазни домен великог језичког модела и третира закрпе слике као псеудо-текстуалне токене. У овој фази, оквир МоЕ-ЛЛаВА обучава ЛЛМ да опише слике и не примењује слојеве МоЕ на ЛЛМ током ове фазе.

Фаза КСНУМКС

У другој фази, МОЕ-ЛЛаВА покушава да побољша могућности и управљивост оквира подешавањем модела са мултимодалним подацима о инструкцији. Оквир МоЕ-ЛЛаВА то постиже прилагођавањем ЛЛМ-а да постане ЛВЛМ са мултимодалним могућностима разумевања. Оквир користи сложеније инструкције укључујући препознавање текста и задатке логичког закључивања слика који захтевају да модел поседује јаче мултимодалне способности. Традиционално, процес обуке за густе моделе се сматра завршеним овим кораком. Међутим, оквир МОЕ-ЛЛаВА наишао је на изазове у трансформацији ЛЛМ у а ЛВЛМ истовремено са спарсификовањем ЛВЛМ-а. Да би се супротставио овом изазову, оквир користи тежине из фазе као иницијализацију за следећу фазу у покушају да ублажи потешкоће у учењу оскудног модела. 

Фаза КСНУМКС

У трећој фази, модел неколико пута реплицира неуронску мрежу унапред да би иницијализовао стручњаке као процедуру иницијализације. Оквир затим убацује текстуалне и сликовне токене у мешавину експертских слојева након чега рутер израчунава подударне тежине између стручњака и сваког токена. Сваки токен затим обрађује врхунски к стручњаци са агрегираним излазом израчунатим пондерисаним сумирањем на основу тежина рутера. Када се активирају врхунски к експерти, модел искључује преостале стручњаке, приступ који опрема МоЕ-ЛЛаВА оквир са бесконачно могућим ретким путањама, опремајући тако модел широким спектром могућности. 

МОЕ-ЛЛаВА : Резултати и експерименти

Оквир МоЕ-ЛЛаВА усваја ЦЛИП-Ларге као енкодер за вид са вишеслојним перцептроном који се састоји од два слоја са ГЕЛУ активационим слојем који их раздваја. Подразумевано, оквир користи наизменичну замену неуронских мрежа унапред са мешавином експертских слојева, што значи да мешавина експертских слојева чини 50% укупног броја слојева. Следећа табела садржи различите скупове података заједно са њиховом величином узорка који се користи за обуку и процену оквира МоЕ-ЛЛаВА. 

Зеро-Схот Имаге Одговор на питање

Следећа слика показује да је МоЕ-ЛЛаВА ретки модел са меким рутером заснованим на ЛВЛМ. Оквир се процењује на основу 5 мерила за одговоре на питања о слици, и као што се може приметити, оквир МоЕ-ЛЛаВА демонстрира изванредне способности разумевања слике и пружа упоредиве перформансе са најсавременијим оквиром ЛЛаВА 1.5 на пет различитих мерила. 

Процена халуцинације објекта

Да би проценио халуцинацију објекта, оквир МоЕ-ЛЛаВА усваја ПОПЕ евалуациони цевовод, метод упита заснован на анкетирању, а резултати су приказани у следећој табели. Као што се може приметити, од свих оквира, МоЕ-ЛЛаВА даје најјаче резултате, што указује на способност оквира да генерише објекте који су у складу са улазном сликом. Поред тога, вреди напоменути да оквир МоЕ-ЛЛаВА добро балансира однос да, што указује на способност оскудног модела да пружи тачне повратне информације за дато питање. 

Следећа слика садржи дистрибуцију оптерећења стручњака, где дисконтинуалне линије представљају добро избалансирану дистрибуцију токена међу модалитетима или стручњацима. Прва слика илуструје оптерећење стручњака, док преостале слике показују учинак стручњака према различитим модалитетима. 

Штавише, следећа слика показује дистрибуцију модалитета међу различитим стручњацима. 

Завршне мисли

У овом чланку смо говорили о МоЕ-ЛЛаВА, основној линији за моделе језика великог вида са мешавином модела стручњака који укључује рутере који се могу научити и моделе МоЕ. У својој сржи, модел МоЕ-ЛЛаВА се састоји од више ретких путања, а оквир користи ове путање да пошаље сваки токен различитим стручњацима преко рутера који се може научити. Токени се затим колективно обрађују од стране активираних стручњака док неактивне путање остају тихе. Фрамеворк затим слаже слојеве Миктуре оф Екперт енкодера итеративно како би обезбедио ретки пут ка већем и моћнијем ЛВЛМ-у. Стратегија МОЕ-Тунинг се на иновативан начин бави уобичајеним питањем деградације перформанси у мултимодалном оскудном учењу, сходно томе конструишући модел са значајно великим бројем параметара, али доследним трошковима обуке и закључивања. Архитектура оквира МоЕ-ЛЛаВА је дизајнирана на начин да активира само врхунске стручњаке током имплементације док преостале стручњаке држи неактивним. 

„Инжењер по занимању, писац по срцу“. Кунал је технички писац са дубоком љубављу и разумевањем АИ и МЛ, посвећен поједностављивању сложених концепата у овим областима кроз своју занимљиву и информативну документацију.