Вештачка интелигенција

ЛоРа, КЛоРА и КА-ЛоРА: Ефикасна прилагодљивост у великим језичким моделима кроз факторизацију матрице ниског ранга

објављен

КСНУМКС месеци пре

Октобар КСНУМКС, КСНУМКС

ЛоРА : Нискорангована адаптација великих језичких модела

Велики језички модели (ЛЛМ) су урезали јединствену нишу, нудећи неупоредиве могућности у разумевању и генерисању текста налик човеку. Моћ ЛЛМ-а може се пратити до њихове огромне величине, која често има милијарде параметара. Иако ова огромна размера подстиче њихове перформансе, она истовремено рађа изазове, посебно када је у питању прилагођавање модела за специфичне задатке или домене. Конвенционални путеви управљања ЛЛМ-има, као што је фино подешавање свих параметара, представљају тежак рачунски и финансијски данак, што представља значајну препреку њиховом широком усвајању у реалним апликацијама.

У претходни чланак, задубили смо се у фино подешавање модела великих језика (ЛЛМ) да бисмо их прилагодили специфичним захтевима. Истражили смо различите методологије финог подешавања као што су фино подешавање засновано на инструкцији, фино подешавање једног задатка и фино подешавање ефикасног параметра (ПЕФТ), свака са својим јединственим приступом оптимизацији ЛЛМ-а за различите задатке. Централно у дискусији била је архитектура трансформатора, кичма ЛЛМ-а, и изазови које представљају рачунарски и меморијски захтеви за руковање огромним бројем параметара током финог подешавања.

https://huggingface.co/blog/hf-bitsandbytes-integration

Горња слика представља скалу различитих великих језичких модела, сортираних по броју параметара. Посебно: Палма, БЛООМ, итд

Од ове године дошло је до напретка који је довео до још већих модела. Међутим, подешавање таквих гигантских модела отвореног кода на стандардним системима је неизводљиво без специјализованих техника оптимизације.

У овом случају Мицрософт је представио Ентер Лов-Ранк Адаптатион (ЛоРА). папир, са циљем да ублажи ове изазове и учини ЛЛМ приступачнијим и прилагодљивијим.

Суштина ЛоРА лежи у његовом приступу прилагођавању модела без упуштања у замршености поновног обучавања читавог модела. За разлику од традиционалног финог подешавања, где је сваки параметар подложан промени, ЛоРА усваја паметнији пут. Замрзава унапред обучене тежине модела и уводи матрице декомпозиције ранга које се могу обучити у сваки слој архитектуре Трансформера. Овај приступ драстично смањује број параметара који се могу обучити, обезбеђујући ефикаснији процес прилагођавања.

Еволуција стратегија подешавања ЛЛМ

Размишљајући о путу подешавања ЛЛМ-а, може се идентификовати неколико стратегија које су практичари користили током година. У почетку, фокус је био на фином подешавању унапред обучених модела, стратегији која подразумева свеобухватну промену параметара модела како би одговарала специфичном задатку. Међутим, како су модели расли по величини и сложености, тако су расли и рачунски захтеви овог приступа.

Следећа стратегија која је добила на снази је фино подешавање подскупа, уздржанија верзија свог претходника. Овде је само подскуп параметара модела фино подешен, смањујући рачунско оптерећење до неке мере. Упркос својим предностима, фино подешавање подскупа и даље није било у стању да прати стопу раста величине ЛЛМ-ова.

Како су се практичари усуђивали да истраже ефикасније путеве, потпуно фино подешавање се појавило као ригорозан, али исплатив приступ.

Увод у ЛоРА

Ранг матрице нам даје увид у димензије које стварају њене колоне, које се одређују бројем јединствених редова или колона које има.

Матрица пуног ранга: Њен ранг одговара мањем броју између његових редова или колона.
Матрица ниског ранга: Са рангом који је знатно мањи од броја редова и колона, обухвата мање функција.

Сада, велики модели схватају широко разумевање свог домена, као што је језик у језичким моделима. Али, њихово фино подешавање за специфичне задатке често треба само нагласити мали део ових разумевања. Ево где ЛоРА блиста. То сугерише да матрица која приказује ова подешавања тежине може бити ниског ранга, чиме обухвата мање карактеристика.

ЛоРА паметно ограничава ранг ове матрице за ажурирање тако што је дели на две мање матрице ранга. Дакле, уместо да мења целу матрицу тежине, мења само њен део, чинећи задатак финог подешавања ефикаснијим.

Примена ЛоРА на трансформаторе

ЛоРА помаже да се минимизира оптерећење тренинга у неуронским мрежама фокусирајући се на специфичне матрице тежине. Под архитектуром трансформатора, одређене матрице тежине су повезане са механизмом самопажње, односно Вк, Вк, Вв и Во, поред још две у модулу вишеслојног перцептрона (МЛП).

Трансформерс Арцхитецтуре

Трансформаторске главе за пажњу

Математичко објашњење уз ЛоРА

Хајде да разложимо математику иза ЛоРА:

Унапред обучена матрица тежине $W_{0}$ :
- Почиње са унапред обученом матрицом тежине $W_{0}$ од димензија $d \times k$ . То значи да матрица има $d$ редови и $k$ колоне.
Декомпозиција ниског ранга:
- Уместо директног ажурирања целе матрице $W_{0}$ , што може бити рачунарски скупо, метода предлаже приступ декомпозиције ниског ранга.
- Ажурирање $Δ W$ до $W_{0}$ може се представити као производ две матрице: $B$ $A$ .
  - $B$ има димензије $d \times r$
  - $A$ има димензије $r \times k$
- Кључна ствар овде је да је ранг $r$ је много мањи од оба $d$ $k$ , што омогућава рачунарски ефикасније представљање.
тренинг:
- Током процеса обуке, $W_{0}$ остаје непромењена. Ово се назива „замрзавање“ тежине.
- С друге стране, $A$ $B$ су параметри који се могу обучити. То значи да се током тренинга прилагођавају матрице $A$ $B$ да побољша перформансе модела.
Множење и сабирање:
- Оба $W_{0}$ и ажурирање $Δ W$ (који је производ од $B$ $A$ ) се помноже са истим уносом (означено као $x$ ).
- Излази ових множења се затим сабирају.
- Овај процес је сажет у једначини: $h = W_{0} x + Δ W x = W_{0} x + B A x.$ Ево, $h$ представља коначни излаз након примене ажурирања на улазу $x$ .

Укратко, овај метод омогућава ефикаснији начин ажурирања матрице велике тежине представљањем ажурирања коришћењем декомпозиције ниског ранга, што може бити корисно у смислу рачунарске ефикасности и употребе меморије.

ЛОРА

Иницијализација и скалирање:

Код модела обуке, начин на који иницијализујемо параметре може значајно утицати на ефикасност и ефективност процеса учења. У контексту нашег ажурирања матрице тежине коришћењем $A$ $B$ :

Иницијализација матрица $A$ $B$ :
- матрица $A$ : Ова матрица је иницијализована насумичним Гаусовим вредностима, такође позната као нормална дистрибуција. Разлог за коришћење Гаусове иницијализације је да се прекине симетрија: различити неурони у истом слоју ће научити различите карактеристике када имају различите почетне тежине.
- матрица $B$ : Ова матрица је иницијализована нулама. Радећи ово, ажурирање $Δ W = B A$ почиње као нула на почетку тренинга. То осигурава да нема нагле промене у понашању модела на почетку, омогућавајући моделу да се постепено прилагођава како $B$ учи одговарајуће вредности током тренинга.
Скалирање излаза из $Δ W$ :
- Након израчунавања ажурирања $Δ W$ , његов излаз је скалиран фактором од $r α$ где $α$ је константа. Скалирањем се контролише величина ажурирања.
- Скалирање је посебно важно када се ранг $r$ Промене. На пример, ако одлучите да повећате ранг ради веће тачности (по цену израчунавања), скалирање обезбеђује да нећете морати да прилагођавате многе друге хиперпараметре у процесу. Обезбеђује ниво стабилности модела.

Практични утицај ЛоРА-е

ЛоРА је показала свој потенцијал да ефикасно прилагоди ЛЛМ специфичне уметничке стилове од стране људи из АИ заједнице. Ово је посебно приказано у адаптацији модела који опонаша уметнички стил Грег Рутковски.

Као што је истакнуто у раду са ГПТ-3 175Б као примером. Поседовање појединачних примерака фино подешених модела са по 175Б параметара је прилично скупо. Али, са ЛоРА-ом, параметри за обуку падају 10,000 пута, а употреба ГПУ меморије је смањена на трећину.

ЛоРа утицај на фино подешавање ГПТ-3

Методологија ЛоРА не само да оличава значајан корак ка томе да ЛЛМ постане приступачнија, већ и наглашава потенцијал да се премости јаз између теоријских напретка и практичних примена у домену вештачке интелигенције. Ублажавајући рачунарске препреке и подстичући ефикаснији процес прилагођавања модела, ЛоРА је спремна да игра кључну улогу у ширем усвајању и примени ЛЛМ-а у реалним сценаријима.

КЛоРА (квантизовано)

Док ЛоРА мења игру у смањењу потреба за складиштењем, и даље захтева огроман ГПУ за учитавање модела за обуку. Ево где КЛоРА, или Куантизед ЛоРА, ступа на снагу, мешајући ЛоРА са квантизацијом за паметнији приступ.

Квантизација

Обично се параметри тежине чувају у 32-битном формату (ФП32), што значи да сваки елемент у матрици заузима 32 бита простора. Замислите када бисмо исте информације могли да угурамо у само 8 или чак 4 бита. То је основна идеја иза КЛоРА. Квантизација се односи на процес пресликавања континуалних бесконачних вредности у мањи скуп дискретних коначних вредности. У контексту ЛЛМ-а, то се односи на процес претварања тежина модела из типова података веће прецизности у типове података ниже прецизности.

Квантизација у ЛЛМ

Ево једноставнијег прегледа КЛоРА:

Иницијална квантизација: Прво, модел великог језика (ЛЛМ) је квантизован на 4 бита, значајно смањујући меморијски отисак.
ЛоРА Траининг: Затим се изводи ЛоРА обука, али у стандардној 32-битној прецизности (ФП32).

Сада, можда се питате, зашто се враћати на 32 бита за обуку након што сте се смањили на 4 бита? Па, да бисте ефикасно обучили ЛоРА адаптере у ФП32, тежине модела такође морају да се врате на ФП32. Ово пребацивање напред-назад се врши на паметан начин, корак по корак, како би се избегло преоптерећење ГПУ меморије.

ЛоРА своју практичну примену налази у Лицу за грљење Ефикасно фино подешавање параметара (ПЕФТ) библиотеку, поједностављујући њено коришћење. За оне који желе да користе КЛоРА, доступан је кроз комбинацију битсандбитес и ПЕФТ библиотеке. Поред тога, ХуггингФаце Библиотека Трансформер Реинфорцемент Леарнинг (ТРЛ). олакшава надгледано фино подешавање са интегрисаном подршком за ЛоРА. Заједно, ове три библиотеке обезбеђују суштински сет алата за фино подешавање одабраног унапред обученог модела, омогућавајући генерисање убедљивих и кохерентних описа производа када се то од њих затражи специфична упутства о атрибутима.

Након финог подешавања од КЛоРА, тежине се морају вратити у формат високе прецизности, што може довести до губитка тачности и недостаје оптимизација за убрзавање процеса.

Предложено решење је груписање матрице тежине у мање сегменте и примена квантизације и прилагођавања ниског ранга на сваку групу појединачно. Нова метода, названа КА-ЛоРА, покушава да споји предности квантизације и прилагођавања ниског ранга док истовремено одржава процес ефикасним, а модел ефикасним за жељене задатке.

Zakljucak

У овом чланку смо се дотакли изазова које поставља њихова огромна величина параметара. Задубили смо се у традиционалне праксе финог подешавања и њихове повезане рачунарске и финансијске захтеве. Суштина ЛоРА лежи у његовој способности да модификује унапред обучене моделе без потпуног поновног обучавања, чиме се смањују параметри који се могу обучити и процес прилагођавања постаје исплативији.

Такође смо се укратко задубили у Куантизед ЛоРА (КЛоРА), мешавину ЛоРА и Куантизатион која смањује меморијски отисак модела, задржавајући суштинску прецизност за обуку. Са овим напредним техникама, практичари су сада опремљени робусним библиотекама, олакшавајући лакше усвајање и примену ЛЛМ-а у низу сценарија из стварног света.

матрица

Ове стратегије су направљене тако да балансирају између прилагођавања ЛЛМ-а за специфичне задатке и обезбеђивања да процеси финог подешавања и примене нису претерано захтевни у смислу ресурса за рачунање и складиштење.

Уп Нект

ЛламаИндек: Лако проширите своје ЛЛМ апликације прилагођеним подацима

Не пропустите

МиниГПТ-5: Интерлеавед Висион-и-Лангуаге Генератион виа Генеративе Вокенс

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.