Inteligență artificială
LoRa, QLoRA și QA-LoRA: Adaptabilitate eficientă în modelele de limbaj mari prin factorizarea matricelor de rang scăzut

Modelele de limbaj mari (LLM) au creat o nișă unică, oferind capacități de neegalat în înțelegerea și generarea de texte similare cu cele umane. Puterea LLM poate fi urmărită până la dimensiunea lor enormă, având adesea miliarde de parametri. În timp ce această scară enormă alimentează performanța lor, ea dă naștere în același timp unor provocări, în special atunci când vine vorba de adaptarea modelului pentru sarcini sau domenii specifice. Căile convenționale de gestionare a LLM, cum ar fi reglarea fină a tuturor parametrilor, prezintă un cost computațional și financiar ridicat, punând astfel o barieră semnificativă în calea adoptării lor pe scară largă în aplicații din lumea reală.
Într-un articol anterior, am explorat reglarea fină a Modelelor de Limbaj Mari (LLM) pentru a le adapta la cerințe specifice. Am examinat diverse metode de reglare fină, cum ar fi Reglarea fină bazată pe instrucțiuni, Reglarea fină pentru o singură sarcină și Reglarea fină eficientă din punct de vedere al parametrilor (PEFT), fiecare cu abordări unice pentru optimizarea LLM pentru sarcini distincte. Central în discuție a fost arhitectura transformer, coloana vertebrală a LLM, și provocările ridicate de cerințele computaționale și de memorie ale gestionării unui număr vast de parametri în timpul reglării fine.
Imaginea de mai sus reprezintă scara diverselor modele de limbaj mari, sortate după numărul de parametri. Notabil: PaLM, BLOOM, etc.
Până în acest an, au existat progrese care au condus la modele și mai mari. Cu toate acestea, reglarea fină a unor astfel de modele uriașe, deschise, pe sisteme standard este nefezabilă fără tehnici de optimizare specializate.
A intrat în scenă Adaptarea de Rang Scăzut (LoRA), introdusă de Microsoft în acest articol, cu scopul de a atenua aceste provocări și de a face LLM mai accesibile și adaptabile.
Esența LoRA constă în abordarea sa către adaptarea modelului fără a intra în detalii despre reantrenarea întregului model. În contrast cu reglarea fină tradițională, în care fiecare parametru este supus schimbărilor, LoRA adoptă o cale mai inteligentă. Ea îngheață greutățile modelului preantrenat și introduce matrice de descompunere de rang în fiecare strat al arhitecturii Transformer. Acest abordaj reduce drastic numărul de parametri antrenabili, asigurând un proces de adaptare mai eficient.
… (restul conținutului rămâne la fel, până la sfârșitul textului)













