никулец LoReFT: Representation Finetuning за јазични модели - Unite.AI
Поврзете се со нас

Вештачка интелигенција

LoReFT: Репрезентативно подесување за јазични модели

mm

Објавено

 on

LoReFT: Репрезентативно подесување за јазични модели

Параметарски ефикасните методи за фино подесување или PeFT се обидуваат да приспособат големи јазични модели преку ажурирања на мал број тежини. Сепак, поголемиот дел од постоечката работа за интерпретабилност покажа дека претставите кодираат семантички богати информации, што сугерира дека можеби е подобра и помоќна алтернатива за уредување на овие претстави. Претходно обучените големи модели често се фино подесени за да се користат за нови домени или задачи, а за време на процесот на фино подесување, еден основен модел може да се прилагоди на широк спектар на задачи дури и со достапни само мали количини на податоци во доменот. на моделот. Меѓутоа, процесот на дотерување на цел модел одзема ресурси и скап, особено за јазичните модели со значително поголем број на големина и параметри. 

Параметарски ефикасните методи за фино подесување или PeFT предлагаат да се решат високите трошоци поврзани со дотерувањето на целиот модел со ажурирање само на мал дел од вкупните достапни тежини, процес кој помага во намалувањето на времето за обука заедно со употребата на меморијата. Она што е уште поважно е што методите за фино подесување или PeFT со ефикасно прилагодување на параметрите покажаа слични перформанси како дотерувањето во неколку практични поставки. Адаптерите, вообичаена фамилија на методи за фино подесување на параметри или PeFT, учат уредување што може да се додаде на дополнителен сет на тежини што работат заедно со замрзнатиот основен модел, со неодамнешните адаптери како LoRA го намалуваат бројот на параметри што може да се обучуваат во научените Ажурирања на тежината со користење на апроксимации со низок ранг наместо матрици со целосна тежина при тренирање на адаптерите. 

Со претходните дела кои демонстрираа уредување претстави може да биде подобра алтернатива на методите за фино подесување или PeFT ефикасно со параметри, во овој напис ќе зборуваме за методите за фино подесување или ReFT кои работат на замрзнат модел и ќе научиме специфични за задачите. интервенции на скриени претстави. Оваа статија има за цел да ја опфати рамката за фино подесување ReFt или Претставување, а ние ги истражуваме механизмите, методологијата, архитектурата на рамката заедно со нејзината споредба со најсовремените рамки. Па ајде да започнеме. 

ReFT: Претставување фино подесување за јазични модели

Во обид да се усвојат претходно обучени јазични модели на нови домени и задачи, сегашните рамки често ги прилагодуваат овие претходно обучени јазични модели, бидејќи со имплементираниот процес на фино подесување, еден основен модел може да се прилагоди на различни задачи дури и кога работите со мала количина на податоци во доменот. Иако процесот на дотерување навистина ги зголемува вкупните перформанси, тој е скап процес особено ако јазичниот модел има значително висок број на параметри. За да се справите со овој проблем и да ги намалите поврзаните трошоци, PeFT или Параметарски ефикасен фино подесување рамки ажурирајте само мал дел од вкупните тежини, процес кој не само што го намалува времето за обука, туку и ја намалува употребата на меморијата, дозволувајќи им на рамките на PeFT да постигнат слични перформанси во споредба со пристапите за целосно дотерување во практични сценарија. Адаптерите, заедничко семејство на PeFT, работат со учење на уредување што може да се додаде на дополнителен сет на тежини заедно со подмножество тежини кои работат во дует со основниот модел со замрзнати тежини. Неодамнешните рамки за адаптер како LoRA и QLoRA покажаа дека е можно да се обучуваат адаптери со целосна прецизност над моделите со намалена прецизност без да се влијае на перформансите. Адаптерите обично се поефикасни и поефикасни кога се споредуваат со други методи кои воведуваат нови компоненти на моделот. 

Главен белег на сегашната состојба на уметноста Рамките за фино подесување со ефикасни параметри е тоа што наместо да ги менуваат претставите, тие ги менуваат тежините. Сепак, рамки кои се занимаваат со интерпретабилност покажаа дека репрезентациите кодираат богати семантички информации, што сугерира дека уредувањето на претставите може да биде подобар и помоќен пристап во споредба со ажурирањата на тежината. Оваа претпоставка дека уредувањето на претставите е подобар пристап е она што ја формира основата на рамката за фино подесување ReFT или Претставување која ги обучува интервенциите наместо да ги прилагодува тежините на моделот, дозволувајќи му на моделот да манипулира со мал дел од сите репрезентации во обид да го насочи однесувањето на моделот за решавање на низводните задачи за време на заклучувањето. Методите за фино подесување ReFT или Representation се замена за падови на PeFT базирани на тежина или рамки за фино подесување со ефикасни параметри. Пристапот ReFT црпи инспирација од неодамнешните модели кои работат со голема интерпретабилност на моделите кои интервенираат на претставите за да најдат верни причински механизми и го насочуваат однесувањето на моделот за време на заклучоците, и затоа може да се гледа како генерализација на моделите за репрезентативно уредување. Надоврзувајќи се на истото, LoReFT или Low-Rank Subspace ReFT е силен и ефективен примерок на ReFT и е параметаризација на ReFT што интервенира на скриени претстави во линеарниот простор опфатен со матрица за проекција со низок ранг и се гради директно на DAS или Рамка за пребарување на дистрибуирано усогласување. 

Движејќи се заедно, спротивно на целосното дотерување, рамката за фино подесување PeFT или параметри ефикасна обучува само мал дел од параметрите на моделот и успева да го прилагоди моделот на задачите надолу. Рамката за фино подесување со ефикасна параметри може да се класифицира во три главни категории:

  • Методи базирани на адаптери: Методите базирани на адаптери обучуваат дополнителни модули како што се целосно поврзани слоеви на врвот на претходно обучениот модел со замрзнати тежини. Сериските адаптери вметнуваат компоненти помеѓу повеќеслојниот перцептрон или MLP и LM или големите слоеви за внимание на моделот, додека паралелните адаптери додаваат модули заедно со постоечките компоненти. Бидејќи адаптерите додаваат нови компоненти кои не можат лесно да се преклопат во постојните тежини на моделот, тие претставуваат дополнителен товар при заклучувањето. 
  • ЛоРА: LoRA, заедно со неговите неодамнешни варијанти, ги приближуваат адитивните тежини за време на тренингот со користење на матрици од низок ранг, и тие не бараат дополнителни трошоци за време на заклучувањето, бидејќи ажурирањата на тежината може да се спојат во моделот и тоа е причината зошто тие се сметаат за тековни најсилните рамки на PeFT. 
  • Методи засновани на брза помош: Методите базирани на брза помош додаваат меки токени кои се иницијализираат случајно во влезот и ги обучуваат нивните вградувања додека ги задржуваат тежините на јазичниот модел замрзнати. Перформансите што ги нудат овие методи честопати не се задоволителни кога ќе се споредат со другите пристапи на PeFT, и тие исто така носат значителен заклучок за режиски трошоци. 

Наместо да ги ажурира тежините, рамката ReFT учи интервенции за менување на мал дел од вкупните претстави. Понатаму, неодамнешните работи на репрезентативното инженерство и управувањето со активирање покажаа дека додавањето фиксни управувачки вектори на преостанатиот тек може да олесни одреден степен на контрола над претходно обучените големи генерации на модели без да бара интензивни ресурси фино подесување. Други рамки покажаа дека уредувањето претстави со научена операција за скалирање и преведување може да се обиде да се совпадне, но не и да ги надмине перформансите што ги нудат LoRA адаптерите на широк спектар на задачи со помалку научени параметри. Понатаму, успехот на овие рамки низ низа задачи покажа дека претставите воведени од претходно обучени јазични модели носат богата семантика, иако изведбата на овие модели е потоптимална, што резултира со PeFT да продолжат како најсовремен пристап. без дополнително оптоварување за заклучок. 

ReFT: Методологија и архитектура

За да го одржи процесот на зачувување на стилот едноставен, рамката ReFT претпоставува голем модел базиран на трансформатор како негов целен модел кој е способен да произведува контекстуализирано претставување на низата токени. За дадена секвенца со n број на влезни токени, рамката ReFT прво ги вградува овие влезни токени во листа на претстави по која m слоевите ја пресметуваат листата на скриени претстави сукцесивно како функција од претходната листа на скриени претстави. Секое скриено претставување е вектор, а јазичниот модел ги користи последните скриени претстави за да ги произведе предвидувањата. Рамката ReFT ги разгледува и моделите на маскирани јазици и моделите на авторегресивни јазици. Сега, според хипотезата за линеарно претставување, во невронските мрежи, концептите се кодирани во линеарните потпростори на претставите. Неодамнешните модели открија дека ова тврдење е точно кај моделите на невронски мрежи обучени на природен јазик заедно со други влезни дистрибуции. 

Понатаму, во студиите за интерпретабилност, рамката за случајна апстракција користи интервенции за размена за случајно да ја утврди улогата на компонентите на невронската мрежа при спроведување на одредени однесувања. Логиката зад интервентската интервенција е дека ако некој ја поправи претставата на она што би било за контрафактичен влез, и оваа интервенција влијае на излезот на моделот доследно на начинот на кој тврдењата направени од рамката ReFT за компонентата одговорна за производство тоа претставување, тогаш компонентата игра причинска улога во однесувањето. Иако постојат неколку методи, интервенцијата со дистрибуирана размена е идеален пристап за тестирање дали концептот е кодиран во линеарен потпростор на претставата, како што се тврди со хипотезата за линеарно претставување. Понатаму, DAS методот се користеше претходно за да се најде линеарно претставување во јазичните модели на атрибути на ентитети, чувства, лингвистички карактеристики и математичко расудување. Сепак, неколку експерименти покажаа дека методот DAS е многу експресивен и поседува способност да најде каузално ефикасни потпростори дури и кога моделот на јазикот на трансформаторот е иницијализиран случајно, и затоа допрва треба да научи какви било репрезентации специфични за задачата, што резултира со дебатираат дали DAS е доволно ефикасен и одговорен за задачите за толкување. 

Експресивноста понудена од DAS сугерира дека пристапот може да биде идеална алатка за контрола на однесувањето на јазичниот модел заедно со неговата работа на контролирано генерирање и одговорно уредување. Затоа, за да се приспособат јазичните модели за задачите низводно, рамката ReFT ја користи операцијата за интервенција со дистрибуирана размена за да направи нов параметар ефикасен метод. Понатаму, методот ReFT е збир на интервенции, а рамката наметнува дека за било кои две интервенции кои работат на ист слој, позициите за интервенција мора да бидат разделени, при што параметрите на сите интервентни функции остануваат независни. Како резултат на тоа, ReFT е генеричка рамка која опфаќа интервенции на скриени претстави за време на моделот напред поминување. 

ReFT: Експерименти и резултати

За да ги оцени неговите перформанси во однос на постојните PEFT рамки, рамката ReFT спроведува експерименти на четири различни одредници за обработка на природни јазици и опфаќа над 20 збирки на податоци, со примарна цел да се обезбеди богата слика за тоа како функционира рамката LoReFT во различни сценарија. Понатаму, кога рамката LoReFT се имплементира во реалниот живот, програмерите треба да одлучат колку интервенции да научат заедно со влезните позиции и слоеви за да се примени секоја од нив. За да се заврши задачата, рамката ReFT подесува четири хиперпараметри. 

  1. Бројот на позиции на префиксот на кои треба да се интервенира. 
  2. Бројот на позиции на наставката на кои треба да се интервенира. 
  3. На кој сет на слоеви да се интервенира. 
  4. Дали да се врзат или не параметрите за интервенција низ различни позиции во истиот слој. 

Со тоа, рамката ReFT го поедноставува просторот за пребарување на хиперпараметри и обезбедува само фиксен дополнителен трошок за заклучување што не се скалира со должината на промптот. 

Горенаведената табела ја споредува точноста на LLaMA-7B и LLaMA-13B рамки со постоечките PEFT модели во 8 множество на податоци за расудување. Како што може да се забележи, моделот LoReFT ги надминува постоечките PEFT пристапи со пристојна маргина, и покрај тоа што има многу помалку параметри, при што просечната изведба на три вртења се пријавени со различни параметри за моделот LoReFT. Парамот(%) се пресметува со делење на бројот на параметри што може да се обучуваат со бројот на вкупните параметри на основниот голем модел. 

Горенаведената табела ја резимира споредбата на точноста на рамки LLaMA-7B и LLaMA-13B со постоечките PEFT модели во 4 различни збирки на податоци за аритметичко расудување, при што рамката известува за просечната изведба на три вртења со различни случајни семиња. Како што може да се забележи, и покрај тоа што има многу помалку парами (%), рамката LoReFT ги надминува постоечките PEFT рамки со значителна маргина. 

Горенаведената табела ја резимира споредбата на точноста на RoBERTa-базите и RoBERTa-големите рамки со постојните модели PEFT низ реперот GLUE, при што рамката известува за просечните перформанси од пет вртења со различни случајни семиња. Како што може да се забележи, и покрај тоа што има многу помалку парами (%), рамката LoReFT ги надминува постоечките PEFT рамки со значителна маргина. 

Последни мисли

Во оваа статија, зборувавме за LoReFT, моќна алтернатива на постојните PEFT рамки што постигнува силни перформанси на репери од четири различни домени, а истовремено нуди и до 50 пати поголема ефикасност што ја нудат претходните најсовремени модели на PEFT. Претходно обучените големи модели често се фино подесени за да се користат за нови домени или задачи, а за време на процесот на фино подесување, еден основен модел може да се прилагоди на широк спектар на задачи дури и со достапни само мали количини на податоци во доменот. на моделот. Меѓутоа, процесот на дотерување на цел модел одзема ресурси и скап, особено за јазичните модели со значително поголем број на големина и параметри. Параметарски ефикасните методи за фино подесување или PeFT предлагаат да се решат високите трошоци поврзани со дотерувањето на целиот модел со ажурирање само на мал дел од вкупните достапни тежини, процес кој помага во намалувањето на времето за обука заедно со употребата на меморијата. Имено, LoReFT воспоставува нови најсовремени перформанси за разумно расудување, следење на инструкции и разбирање природен јазик против најсилните PEFT.

„Инженер по професија, писател напамет“. Кунал е технички писател со длабока љубов и разбирање за вештачката интелигенција и ML, посветен на поедноставување на сложените концепти во овие области преку неговата ангажирана и информативна документација.