Umělá inteligence
LoReFT: Představování jemného ladění pro jazykové modely
Metody jemného ladění s efektivními parametry nebo PeFT se snaží přizpůsobit velké jazykové modely pomocí aktualizací malé části váh. Nicméně, většina stávajících prací na interpretovatelnosti prokázala, že reprezentace kódují bohaté sémantické informace, což naznačuje, že úprava těchto reprezentací by mohla být lepší a účinnější alternativou. Předtrénované velké modely jsou často jemně laděny pro použití v nových doménách nebo úkolech, a během procesu jemného ladění lze jeden základní model přizpůsobit širokému spektru úkolů, i když je k dispozici pouze malý počet dat v doméně. Nicméně, proces jemného ladění celého modelu je náročný na zdroje a drahý, zejména pro jazykové modely s významně vyšším počtem parametrů.
Metody jemného ladění s efektivními parametry nebo PeFT navrhují řešit vysoké náklady spojené s jemným laděním celého modelu aktualizací pouze malé části dostupných váh, což pomáhá snižovat dobu trénování a využití paměti. Co je důležitější, metody jemného ladění s efektivními parametry nebo PeFT prokázaly podobné výsledky jako jemné ladění v několika praktických scénářích. Adaptéry, běžná rodina metod jemného ladění s efektivními parametry nebo PeFT, se učí úpravu, která může být přidána k další sadě váh, které fungují společně se zmrazeným základním modelem, a recentní adaptéry, jako je LoRA, snížily počet trénovatelných parametrů v učených weight updates pomocí low-rank aproximací místo plných weight matic při trénování adaptérů.
S předchozími pracemi, které prokázaly, že úprava reprezentací by mohla být lepší alternativou k metodám jemného ladění s efektivními parametry nebo PeFT, v tomto článku budeme diskutovat o metodách jemného ladění reprezentací nebo ReFT, které fungují na zmrazeném modelu a učí se úkolově specifické zásahy do skrytých reprezentací. Tento článek si klade za cíl pokrýt rámec ReFT nebo jemného ladění reprezentací do hloubky a prozkoumáme mechanismus, metodologii, architekturu rámce a jeho srovnání se stávajícími rámci.
ReFT: Jemné ladění reprezentací pro jazykové modely
V pokusu o přizpůsobení předtrénovaných jazykových modelů novým doménám a úkolem, současné rámce často jemně ladí tyto předtrénované jazykové modely, a během procesu jemného ladění lze jeden základní model přizpůsobit širokému spektru úkolů, i když je k dispozici pouze malý počet dat v doméně. Nicméně, proces jemného ladění celého modelu je náročný na zdroje a drahý, zejména pro jazykové modely s významně vyšším počtem parametrů. Metody jemného ladění s efektivními parametry nebo PeFT navrhují řešit vysoké náklady spojené s jemným laděním celého modelu aktualizací pouze malé části dostupných váh, což pomáhá snižovat dobu trénování a využití paměti.
Hlavní výhodou stávajících rámců jemného ladění s efektivními parametry nebo PeFT je, že místo úpravy reprezentací upravují váhy. Nicméně, rámce zabývající se interpretovatelností prokázaly, že reprezentace kódují bohaté sémantické informace, což naznačuje, že úprava reprezentací by mohla být lepší a účinnější alternativou. Tato domněnka, že úprava reprezentací by mohla být lepší alternativou, je základem rámce ReFT nebo jemného ladění reprezentací, který učí se zásahy místo přizpůsobování modelových vah, což umožňuje modelu manipulovat malou částí všech reprezentací a řídit chování modelu při řešení úkolů. Rámec ReFT nebo jemného ladění reprezentací je obecným rámcem, který zahrnuje zásahy do skrytých reprezentací během předávání modelu.
Dále, vzhledem k tomu, že předchozí práce prokázaly, že úprava reprezentací by mohla být lepší alternativou k metodám jemného ladění s efektivními parametry nebo PeFT, v tomto článku budeme diskutovat o metodách jemného ladění reprezentací nebo ReFT, které fungují na zmrazeném modelu a učí se úkolově specifické zásahy do skrytých reprezentací. Rámec ReFT nebo jemného ladění reprezentací je drop-in náhradou za rámce jemného ladění s efektivními parametry nebo PeFT.
ReFT: Metodologie a architektura
Abychom udrželi proces uchování stylu jednoduchý, rámec ReFT předpokládá, že cílový model je založen na transforméru a je schopen produkovat kontextualizované reprezentace sekvence tokenů. Pro danou sekvenci s n tokeny rámec ReFT nejprve vloží tyto tokeny do seznamu reprezentací a poté m vrstev vypočte seznam skrytých reprezentací postupně jako funkci předchozího seznamu skrytých reprezentací. Každá skrytá reprezentace je vektor a jazykový model používá konečnou skrytou reprezentaci k produkci předpovědí. Rámec ReFT zvažuje jak maskované jazykové modely, tak autoregresivní jazykové modely.
Dále, vzhledem k tomu, že recentní modely prokázaly, že koncepty jsou zakódovány v lineárních podprostorech reprezentací, rámec ReFT předpokládá, že reprezentace kódují bohaté sémantické informace. Logika za rámcem ReFT je, že pokud se reprezentace zmrazí na to, co by bylo pro kontrafaktickou vstupní hodnotu, a tato úprava ovlivňuje výstup modelu konzistentně způsobem, který je popsán rámcem ReFT, pak reprezentace hraje kauzální roli v chování modelu.
Rámec ReFT je obecným rámcem, který zahrnuje zásahy do skrytých reprezentací během předávání modelu. Rámec ReFT je drop-in náhradou za rámce jemného ladění s efektivními parametry nebo PeFT.
ReFT: Experimenty a výsledky
Abychom vyhodnotili jeho výkon proti stávajícím rámcům jemného ladění s efektivními parametry nebo PeFT, rámec ReFT provedl experimenty napříč čtyřmi různými přírodními jazykovými zpracováními benchmarky a pokryl více než 20 datových sad, s primárním cílem poskytnout bohatý obraz toho, jak rámec LoReFT funguje v různých scénářích. Dále, když je rámec LoReFT implementován v reálném životě, vývojáři musí rozhodnout, kolik zásahů se naučit, spolu s vstupními pozicemi a vrstvami, na kterých se každý zásah aplikuje.
Rámec ReFT zjednodušuje prostor hyperparametrů a zajišťuje pouze pevnou dodatečnou náklad na inferenci, která se nezvyšuje s délkou vstupní hodnoty.

Tabulka výše srovnává přesnost rámců LLaMA-7B a LLaMA-13B proti stávajícím rámcům jemného ladění s efektivními parametry nebo PeFT napříč 8 benchmarky pro rozumění společnému smyslu. Jak je vidět, rámec LoReFT překonává stávající rámce jemného ladění s efektivními parametry nebo PeFT o významný rozdíl, a to navzdory tomu, že má mnohem méně parametrů, s průměrným výkonem tří běhů, které jsou hlášeny s odlišnými parametry semen pro rámec LoReFT.

Tabulka výše shrnuje srovnání přesnosti rámců LLaMA-7B a LLaMA-13B proti stávajícím rámcům jemného ladění s efektivními parametry nebo PeFT napříč 4 benchmarky pro aritmetické rozumění, s rámcem, který hlásí průměrný výkon tří běhů s odlišnými náhodnými semeny. Jak je vidět, navzdory tomu, že má mnohem méně parametrů (%), rámec LoReFT překonává stávající rámce jemného ladění s efektivními parametry nebo PeFT o významný rozdíl.

Tabulka výše shrnuje srovnání přesnosti rámců RoBERTa-base a RoBERTa-large proti stávajícím rámcům jemného ladění s efektivními parametry nebo PeFT napříč benchmarkem GLUE, s rámcem, který hlásí průměrný výkon pěti běhů s odlišnými náhodnými semeny. Jak je vidět, navzdory tomu, že má mnohem méně parametrů (%), rámec LoReFT překonává stávající rámce jemného ladění s efektivními parametry nebo PeFT o významný rozdíl.
Závěrečné myšlenky
V tomto článku jsme diskutovali o LoReFT, silné a efektivní alternativě stávajícím rámcům jemného ladění s efektivními parametry nebo PeFT, která dosahuje silného výkonu napříč benchmarky ze čtyř různých domén, a nabízí až 50krát vyšší efektivitu než předchozí stávající rámce jemného ladění s efektivními parametry nebo PeFT. Předtrénované velké modely jsou často jemně laděny pro použití v nových doménách nebo úkolech, a během procesu jemného ladění lze jeden základní model přizpůsobit širokému spektru úkolů, i když je k dispozici pouze malý počet dat v doméně. Nicméně, proces jemného ladění celého modelu je náročný na zdroje a drahý, zejména pro jazykové modely s významně vyšším počtem parametrů. Metody jemného ladění s efektivními parametry nebo PeFT navrhují řešit vysoké náklady spojené s jemným laděním celého modelu aktualizací pouze malé části dostupných váh, což pomáhá snižovat dobu trénování a využití paměti. Rámec LoReFT zavedl nový stavový výkon na rozumění společnému smyslu, následování pokynů a přirozeném jazykovém porozumění proti nejlepším rámcům jemného ladění s efektivními parametry nebo PeFT.












