Kunstmatige intelligentie

Een volledige gids voor het fijnafstemmen van grote taalmodellen

Gepubliceerd op 25 maart 2024

Bijgewerkt op 22 mei 2026

Door

Aayush Mittal Mittal

Grote taalmodellen (LLM’s) zoals GPT-4, LaMDA, PaLM en anderen hebben de wereld stormenderhand veroverd met hun opmerkelijke vermogen om menselijke tekst te begrijpen en te genereren op een breed scala aan onderwerpen. Deze modellen zijn vooraf getraind op enorme datasets die bestaan uit miljarden woorden van het internet, boeken en andere bronnen.

Deze voorafgaande trainingsfase geeft de modellen een uitgebreide algemene kennis over taal, onderwerpen, redeneervaardigheden en zelfs bepaalde vooroordelen die aanwezig zijn in de trainingsdata. Echter, ondanks hun ongelooflijke breedte, missen deze vooraf getrainde LLM’s gespecialiseerde expertise voor specifieke domeinen of taken.

Dit is waar fijnafstemming om de hoek komt – het proces van het aanpassen van een vooraf getrainde LLM om uit te blinken in een bepaalde toepassing of gebruiksscenario. Door het model verder te trainen op een kleinere, taak-specifieke dataset, kunnen we de capaciteiten van het model afstemmen op de nuances en vereisten van dat domein.

Fijnafstemming is analoog aan het overdragen van de brede kennis van een hoogopgeleide generalist om een onderwerpdeskundige te creëren die gespecialiseerd is in een bepaald vakgebied. In deze gids zullen we de wat, waarom en hoe van fijnafstemming van LLM’s onderzoeken.

Fijnafstemming van grote taalmodellen

Wat is fijnafstemming?

In essentie houdt fijnafstemming in dat je een grote vooraf getrainde model neemt en de parameters (gewichten en biases) bijwerkt met een tweede trainingsfase op een dataset die is afgestemd op je doeltaak of domein. Dit stelt het model in staat om de nuances, patronen en doelstellingen te leren en te internaliseren die specifiek zijn voor dat smaller gebied.

Terwijl voorafgaande training een brede taalbegrip vangt uit een enorme en diverse tekstcorpus, specialiseert fijnafstemming die algemene competentie. Het is alsof je een Renaissance-man neemt en hem vormt tot een industrie-expert.

De gewichten van het vooraf getrainde model, die de algemene kennis van het model coderen, worden gebruikt als startpunt of initialisatie voor het fijnafstemmingsproces. Het model wordt vervolgens verder getraind, maar deze keer op voorbeelden die direct relevant zijn voor de eindtoepassing.

Door het model bloot te stellen aan deze gespecialiseerde gegevensverdeling en de modelparameters dienovereenkomstig af te stemmen, maken we het LLM nauwkeuriger en effectiever voor het doelgebruik, terwijl we nog steeds profiteren van de brede vooraf getrainde capaciteiten als basis.

Waarom fijnafstemmen?

Er zijn verschillende belangrijke redenen waarom je een groot taalmodel zou willen fijnafstemmen:

Domein-aanpassing: Elke branche, van juridisch tot medisch tot software-engineering, heeft zijn eigen nuance taalconventies, jargon en contexten. Fijnafstemming stelt je in staat om een algemeen model aan te passen om tekst te begrijpen en te produceren die is afgestemd op het specifieke domein.
Taak-specialisatie: LLM’s kunnen worden gefinetuned voor verschillende natuurlijke taalverwerkingstaken zoals tekstsamenvatting, machinetaal, vraagbeantwoording enz. Deze specialisatie verhoogt de prestaties op de doeltaak.
Gegevenscompliantie: Hoge reguliere industrieën zoals gezondheidszorg en financiën hebben strikte gegevensprivacysvereisten. Fijnafstemming stelt je in staat om LLM’s te trainen op bedrijfseigen gegevens terwijl je gevoelige informatie beschermt.
Beperkte gelabelde gegevens: Het verkrijgen van grote gelabelde datasets voor training van modellen van scratch kan moeilijk zijn. Fijnafstemming stelt je in staat om sterke taakprestaties te bereiken vanuit beperkte toezichtige voorbeelden door de capaciteiten van het vooraf getrainde model te benutten.
Model-updating: Als nieuwe gegevens beschikbaar komen over tijd in een domein, kun je modellen verder fijnafstemmen om de nieuwste kennis en capaciteiten op te nemen.
Beperking van vooroordelen: LLM’s kunnen maatschappelijke vooroordelen oppikken uit brede voorafgaande trainingsdata. Fijnafstemming op gecureerde datasets kan helpen om deze ongewenste vooroordelen te verminderen en te corrigeren.

In wezen overbrugt fijnafstemming de kloof tussen een algemeen, breed model en de gefocuste vereisten van een gespecialiseerde toepassing. Het verhoogt de nauwkeurigheid, veiligheid en relevantie van modeluitvoer voor gerichte gebruiksscenario’s.

Fijnafstemming van grote taalmodellen

De verstrekte diagram toont het proces van implementeren en gebruiken van grote taalmodellen (LLM’s), met name voor ondernemingsapplicaties. Aanvankelijk wordt een vooraf getraind model zoals T5 gevoed met gestructureerde en ongestructureerde bedrijfsgegevens, die in verschillende formaten kunnen komen zoals CSV of JSON. Deze gegevens ondergaan een toezichtige, ontoezichtige of overdrachtsfijnafstemmingsproces, waardoor de relevantie van het model voor de specifieke behoeften van het bedrijf wordt verhoogd.

Als het model eenmaal is gefinetuned met de bedrijfsgegevens, worden de gewichten dienovereenkomstig bijgewerkt. Het getrainde model gaat vervolgens door met verdere trainingscycli, waarbij het zijn antwoorden continu verbetert met nieuwe bedrijfsgegevens. Het proces is iteratief en dynamisch, waarbij het model leert en zich aanpast om te evolueren met veranderingen in de gegevenspatronen.

De uitvoer van dit getrainde model – tokens en embeddings die woorden vertegenwoordigen – wordt vervolgens ingezet voor verschillende ondernemingsapplicaties. Deze applicaties kunnen variëren van chatbots tot gezondheidszorg, waarbij elk de model vereist om industrie-specifieke vragen te begrijpen en te beantwoorden. In de financiële sector omvatten applicaties fraudeopsporing en bedreigingsanalyse; in de gezondheidszorg kunnen modellen helpen bij patiëntinformatie en diagnose.

De capaciteit van het getrainde model om nieuwe bedrijfsgegevens te verwerken en te beantwoorden over tijd, zorgt ervoor dat zijn bruikbaarheid wordt gehandhaafd en toeneemt. Als gevolg hiervan kunnen ondernemingsgebruikers interactie hebben met het model via applicaties, vragen stellen en geïnformeerde antwoorden ontvangen die weerspiegelen de training en fijnafstemming van het model op domeinspecifieke gegevens.

Deze infrastructuur ondersteunt een breed scala aan ondernemingsapplicaties, waarbij de veelzijdigheid en aanpasbaarheid van LLM’s wordt getoond wanneer deze correct worden geïmplementeerd en onderhouden in een bedrijfscontext.

Fijnafstemmingsbenaderingen

Er zijn twee primaire strategieën als het gaat om het fijnafstemmen van grote taalmodellen:

1) Volledige model fijnafstemming

In de volledige fijnafstemmingsbenadering worden alle parameters (gewichten en biases) van het vooraf getrainde model bijgewerkt tijdens de tweede trainingsfase. Het model wordt blootgesteld aan de taak-specifieke gelabelde dataset, en het standaard trainingsproces optimaliseert het hele model voor die gegevensverdeling.

Dit stelt het model in staat om meer omvattende aanpassingen te maken en zich holistisch aan te passen aan de doeltaak of domein. Echter, volledige fijnafstemming heeft enkele nadelen:

Het vereist aanzienlijke rekenbronnen en tijd om te trainen, vergelijkbaar met de voorafgaande trainingsfase.
De opslagvereisten zijn hoog, omdat je een aparte gefinetuneerde kopie van het model moet onderhouden voor elke taak.
Er is een risico van “catastrofale vergetelheid”, waarbij fijnafstemming het model ertoe brengt om sommige algemene capaciteiten te verliezen die zijn geleerd tijdens de voorafgaande training.

Ondanks deze beperkingen blijft volledige fijnafstemming een krachtige en veelgebruikte techniek wanneer middelen het toelaten en de doeltaak aanzienlijk afwijkt van algemene taal.

2) Efficiënte fijnafstemmethoden

Om de rekenkundige uitdagingen van volledige fijnafstemming te overwinnen, hebben onderzoekers efficiënte strategieën ontwikkeld die alleen een kleine subset van de modelparameters bijwerken tijdens fijnafstemming. Deze parameter-efficiënte technieken vinden een balans tussen specialisatie en reductie van bronvereisten.

Enkele populaire efficiënte fijnafstemmethoden zijn:

Prefix-Tuning: Hier worden een klein aantal taak-specifieke vectoren of “prefixen” geïntroduceerd en getraind om de aandacht van het vooraf getrainde model te conditioneren voor de doeltaak. Alleen deze prefixen worden bijgewerkt tijdens fijnafstemming.

LoRA (Low-Rank Adaptation): LoRA injecteert trainbare lage-rangmatrices in elke laag van het vooraf getrainde model tijdens fijnafstemming. Deze kleine rangaanpassingen helpen het model te specialiseren met veel minder trainbare parameters dan volledige fijnafstemming.

Zeker, ik kan een gedetailleerde uitleg geven over LoRA (Low-Rank Adaptation) samen met de wiskundige formule en codevoorbeelden. LoRA is een populaire parameter-efficiënte fijnafstemtechniek (PEFT) die aanzienlijke aandacht heeft gekregen in het veld van grote taalmodelaanpassing.

Wat is LoRA?

LoRA is een fijnafstemmethode die een klein aantal trainbare parameters introduceert in het vooraf getrainde LLM, waardoor efficiënte aanpassing aan downstreamtaken mogelijk wordt, terwijl de meerderheid van de oorspronkelijke kennis van het model wordt behouden. In plaats van alle parameters van het LLM bij te werken, injecteert LoRA taak-specifieke lage-rangmatrices in de lagen van het model, waardoor significante rekenkundige en geheugenvoordelen worden behaald tijdens het fijnafstemmingsproces.

Wiskundige formule

LoRA (Low-Rank Adaptation) is een fijnafstemmethode voor grote taalmodellen (LLM’s) die een lage-rangupdate introduceert in de gewichtsmatrices. Voor een gewichtsmatrix $W_{0} \in R^{d \times k}, LoRA voegt een lage-rangmatrix B A toe, met A \in R^{r \times k} en B \in R^{d \times r}, waar r de rang is. Deze benadering vermindert het aantal trainbare parameters aanzienlijk, waardoor efficiënte aanpassing aan downstreamtaken mogelijk wordt met minimale rekenbronnen. De bijgewerkte gewichtsmatrix wordt gegeven door W = W_{0} + B \cdot A .$

Deze lage-rangupdate kan worden geïnterpreteerd als het modificeren van de oorspronkelijke gewichtsmatrix $W_{0}$ door een lage-rangmatrix $BA$ toe te voegen. Het belangrijkste voordeel van deze formule is dat in plaats van alle $d \times k$ parameters in $W_{0}$ bij te werken, LoRA alleen $r \times (d + k)$ parameters in $A$ en $B$ hoeft te optimaliseren, waardoor het aantal trainbare parameters aanzienlijk wordt vermindert.

Hier is een voorbeeld in Python met behulp van de peft-bibliotheek om LoRA toe te passen op een vooraf getraind LLM voor tekstclassificatie:

&amp;lt;/div&amp;gt;
&amp;lt;div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; transformers &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; AutoModelForSequenceClassification
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; peft &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; TaskType
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Laad vooraf getraind model&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; AutoModelForSequenceClassification&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;from_pretrained&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;bert-base-uncased&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; num_labels&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;2&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Definieer LoRA-configuratie&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;peft_config &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;task_type&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;TaskType&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;SEQ_CLS&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;, &amp;lt;/span&amp;gt;r&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;8&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Rang van de lage-rangupdate&amp;lt;/span&amp;gt;
lora_alpha&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;16&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Schaalverdeling voor de lage-rangupdate&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt; target_modules &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;[&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;q_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;v_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;]&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Pas LoRA toe op de query- en waarde-lagen&amp;lt;/span&amp;gt;
&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Maak het LoRA-geactiveerde model&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; peft_config&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Fijnafstem het model met LoRA&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# ... (trainingscode weggelaten voor bondigheid)&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;

In dit voorbeeld laden we een vooraf getraind BERT-model voor sequentieclassificatie en definiëren een LoRA-configuratie. De r-parameter specificeert de rang van de lage-rangupdate, en lora_alpha is een schaalverdeling voor de update. De target_modules-parameter geeft aan welke lagen van het model de lage-rangupdates moeten ontvangen. Nadat we het LoRA-geactiveerde model hebben gemaakt, kunnen we doorgaan met het fijnafstemmingsproces met behulp van de standaard trainingsprocedure.

Adapterlagen: Vergelijkbaar met LoRA, maar in plaats van lage-rangupdates, worden dunne “adapter”-lagen ingevoegd in elke transformatieblok van het vooraf getrainde model. Alleen de parameters van deze enkele nieuwe compacte lagen worden getraind.

Prompt-tuning: Deze benadering houdt het vooraf getrainde model volledig bevroren. In plaats daarvan worden trainbare “prompt”-embeddings geïntroduceerd als invoer om de vooraf getrainde kennis van het model te activeren voor de doeltaak.

Deze efficiënte methoden kunnen tot 100 keer reductie in rekenbronnen opleveren in vergelijking met volledige fijnafstemming, terwijl ze nog steeds concurrerende prestaties op veel taken behalen. Ze verminderen ook de opslagbehoeften door volledige modelduplisering te vermijden.

Echter, hun prestaties kunnen achterblijven bij volledige fijnafstemming voor taken die sterk afwijken van algemene taal of meer holistische specialisatie vereisen.

Het fijnafstemmingsproces

Ongeacht de fijnafstemmingsstrategie, het algemene proces voor het specialiseren van een LLM volgt een algemeen kader:

Dataset-voorbereiding: Je hebt een gelabelde dataset nodig die invoer (prompts) koppelt aan gewenste uitvoer voor je doeltaak. Voor tekstgeneratietaken zoals samenvatting zou dit invoertekst zijn naar samenvatting-uitvoerpairs.
Dataset-splitsing: Volg de beste praktijken door je gelabelde dataset te splitsen in train-, validatie- en testsets. Dit scheidt gegevens voor modeltraining, hyperparameterafstemming en eindbeoordeling.
Hyperparameter-afstemming: Parameters zoals leer tempo, batchgrootte en trainingschema moeten worden afgestemd voor de meest effectieve fijnafstemming op je gegevens. Dit omvat meestal een kleine validatieset.
Modeltraining: Met de afgestemde hyperparameters, voer het fijnafstemmingsoptimalisatieproces uit op de volledige trainingsset totdat de prestaties van het model op de validatieset stoppen met verbeteren (vroege stopzetting).
Beoordeling: Beoordeel de prestaties van het gefinetuneerde model op de afgezette testset, idealiter bestaande uit real-worldvoorbeelden voor het doelgebruik, om de werkelijke effectiviteit te schatten.
Implementatie en monitoring: Zodra voldoende, kan het gefinetuneerde model worden geïmplementeerd voor inferentie op nieuwe invoer. Het is cruciaal om de prestaties en nauwkeurigheid te monitoren over tijd voor conceptdrift.

Hoewel dit het algemene proces schetst, kunnen veel nuances de succesvolle fijnafstemming van een bepaald LLM of taak beïnvloeden. Strategieën zoals curriculum learning, multi-task fijnafstemming en few-shot prompting kunnen de prestaties verder verbeteren.

Bovendien omvatten efficiënte fijnafstemmethoden extra overwegingen. Bijvoorbeeld, LoRA vereist technieken zoals het conditioneren van de uitvoer van het vooraf getrainde model via een combineringslaag. Prompt-tuning heeft zorgvuldig ontworpen prompts nodig om de juiste gedragingen te activeren.

Geavanceerde fijnafstemming: Menselijke feedback incorporeren

Terwijl standaard toezichtige fijnafstemming met gelabelde datasets effectief is, is een spannende ontwikkeling het trainen van LLM’s rechtstreeks met menselijke voorkeuren en feedback. Deze mens-in-de-lus-benadering maakt gebruik van technieken uit versterking learning:

PPO (Proximal Policy Optimization): Hier wordt het LLM behandeld als een versterking learning-agent, met zijn uitvoer als “acties”. Een beloningsmodel wordt getraind om menselijke ratings of kwaliteitsscores voor deze uitvoer te voorspellen. PPO optimaliseert vervolgens het LLM om uitvoer te genereren die de scores van het beloningsmodel maximaliseert.

RLHF (Reinforcement Learning from Human Feedback): Deze breidt PPO uit door menselijke feedback rechtstreeks in het leerproces te incorporeren. In plaats van een vast beloningsmodel, komen de beloningen uit iteratieve menselijke evaluaties van de uitvoer van het LLM tijdens fijnafstemming.

Hoewel rekenintensief, stellen deze methoden het mogelijk om het gedrag van LLM’s meer precies te vormen op basis van gewenste kenmerken die door mensen worden beoordeeld, voorbij wat kan worden vastgelegd in een statische dataset.

Bedrijven zoals Anthropic gebruikten RLHF om hun taalmodellen zoals Claude te voorzien van verbeterde waarheidsgetrouwheid, ethiek en veiligheidsbewustzijn, voorbij alleen taakcompetentie.

Mogelijke risico’s en beperkingen

Terwijl enorm krachtig, is fijnafstemmen van LLM’s niet zonder risico’s die zorgvuldig moeten worden beheerd:

Vooroordeelversterking: Als de fijnafstemmingsgegevens maatschappelijke vooroordelen bevatten rond geslacht, ras, leeftijd of andere kenmerken, kan het model deze ongewenste vooroordelen versterken. Het cureren van representatieve en onbevooroordeelde datasets is cruciaal.

Feitelijke drift: Zelfs na fijnafstemming op hoge kwaliteit gegevens, kunnen taalmodellen “hallucineren” onjuiste feiten of uitvoer die inconsistent zijn met de trainingsvoorbeelden over langere conversaties of prompts. Feitenopzoekmethoden kunnen nodig zijn.

Schaalbaarheidsuitdagingen: Volledige fijnafstemming van enorme modellen zoals GPT-3 vereist immense rekenbronnen die onhaalbaar kunnen zijn voor veel organisaties. Efficiënte fijnafstemming vermindert gedeeltelijk deze uitdaging, maar heeft compromissen.

Catastrofale vergetelheid: Tijdens volledige fijnafstemming kunnen modellen catastrofale vergetelheid ervaren, waarbij ze sommige algemene capaciteiten verliezen die zijn geleerd tijdens de voorafgaande training. Multi-task learning kan nodig zijn.

IP- en privacyrisico’s: Propriëtaire gegevens die voor fijnafstemming worden gebruikt, kunnen lekken in openbaar uitgebrachte taalmodeluitvoer, waardoor risico’s ontstaan. Differentiële privacy en informatiehazardmitigatie zijn actieve onderzoeksgebieden.

Over het algemeen, terwijl uitzonderlijk nuttig, is fijnafstemming een genuanceerd proces dat zorg vereist rond gegevenskwaliteit, identiteitsaspecten, risicobeperking en prestatie-efficiëntie-keuzes op basis van gebruiksscenariovereisten.

De toekomst: Taalmodelaanpassing op schaal

Kijkend naar de toekomst, zullen vooruitgang in fijnafstemming en modelaanpassingstechnieken cruciaal zijn voor het ontsluiten van het volledige potentieel van grote taalmodellen over diverse applicaties en domeinen.

Efficiëntere methoden die fijnafstemming van nog grotere modellen zoals PaLM mogelijk maken met beperkte middelen, kunnen toegang democratiseren. Het automatiseren van datasetcreatiepijplijnen en prompt-engineering kan specialisatie stroomlijnen.

Zelfsuperviserende technieken om fijnafstemming uit te voeren vanuit ruwe gegevens zonder labels, kunnen nieuwe frontiers openen. En compositionele benaderingen om gefinetuneerde submodellen getraind op verschillende taken of gegevens te combineren, kunnen het mogelijk maken om hoog aangepaste modellen op aanvraag te construeren.

Uiteindelijk, naarmate LLM’s meer alomtegenwoordig worden, zal de capaciteit om ze naadloos aan te passen en te specialiseren voor elk denkbare gebruiksscenario, cruciaal zijn. Fijnafstemming en gerelateerde modelaanpassingsstrategieën zijn cruciale stappen in het realiseren van de visie van grote taalmodellen als flexibele, veilige en krachtige AI-assistenten die menselijke capaciteiten versterken over elk domein en onderneming.

Aayush Mittal, Mittal

Ik heb de afgelopen vijf jaar doorgebracht met het onderdompelen van mezelf in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 diverse software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.