인공지능

대규모 언어 모델 미세 조정에 대한 완벽한 가이드

Published March 25, 2024

Updated May 22, 2026

Aayush Mittal Mittal

대규모 언어 모델(LLM)인 GPT-4, LaMDA, PaLM 등은 인간과 같은 텍스트를 이해하고 생성하는 놀라운 능력으로 세계를 놀라게 했습니다. 이러한 모델은 인터넷, 책, 기타 소스에서 수십억 개의 단어가 포함된 거대한 데이터셋에서 事前 학습됩니다.

이 事前 학습 단계는 모델에 언어, 주제, 추론 능력 및 훈련 데이터에 존재하는 일부 편향에 대한 광범위한 지식을 부여합니다. 그러나 이러한 事前 학습된 LLM은 특정 도메인 또는 작업에 대한 전문 지식이 부족합니다.

이것이 미세 조정이 필요한 이유입니다. 미세 조정은 事前 학습된 LLM을 특정 응용 프로그램 또는 사용 사례에 적합하도록 하는 프로세스입니다. 작은 작업별 데이터셋으로 모델을 추가로 훈련함으로써 모델의 능력을 해당 도메인의细节와 요구 사항에 맞출 수 있습니다.

미세 조정은 광범위한 지식을 가진 일반 지식인으로부터 특정 분야의 전문가로 전환하는 것과 유사합니다. 이 가이드에서는 LLM 미세 조정의 무엇, 왜, 어떻게에 대해 살펴보겠습니다.

대규모 언어 모델 미세 조정

미세 조정이란?

본질적으로, 미세 조정은 대규모 事前 학습 모델을 가져와서 작업별 데이터셋으로 두 번째 훈련 단계에서 모델의 매개변수를 업데이트하는 것을 포함합니다. 이로써 모델은 해당 좁은 영역의 세부 사항, 패턴 및 목표를 학습하고 내부화할 수 있습니다.

事前 훈련은 광범위한 언어 이해를 거대한 텍스트 코퍼스에서 캡처하지만 미세 조정은 이러한 일반적인 능력을 전문 능력으로 전환합니다. 이것은 르네상스 사람을 산업 전문가로 성장시키는 것과 비슷합니다.

事前 학습 모델의 가중치(일반 지식을 인코딩)는 미세 조정 프로세스의 시작점 또는 초기화로 사용됩니다. 모델은 다시 훈련되지만, 이번에는 최종 응용 프로그램에 직접 관련된 예제로 훈련됩니다.

모델을 이 작업별 데이터 분포에 노출하고 모델 매개변수를 해당ingly 조정함으로써, 우리는 대상 사용 사례에 대해 LLM을 더 정확하고 효과적으로 만듭니다.同時에 事前 학습된 능력을 기반으로 유지합니다.

LLM을 미세 조정해야 하는 이유

LLM을 미세 조정해야 하는 몇 가지 주요 이유가 있습니다.

도메인 맞춤: 각 분야(법률, 의료, 소프트웨어 엔지니어링 등)는 자신의 언어 규칙, 용어 및 컨텍스트를 가지고 있습니다. 미세 조정으로 일반 모델을 특정 도메인에 맞게 맞출 수 있습니다.
작업 전문: LLM은 다양한 자연어 처리 작업(텍스트 요약, 기계 번역, 질문 응답 등)에 미세 조정할 수 있습니다. 이러한 전문은 대상 작업에서 성능을 향상시킵니다.
데이터 규정 준수:高度 규제 산업(의료, 금융 등)에는 엄격한 데이터 개인 정보 보호 요구 사항이 있습니다. 미세 조정으로 조직의 데이터로 모델을 훈련할 수 있으며 동시에 민감한 정보를 보호할 수 있습니다.
제한된 레이블 데이터: 모델을 처음부터 훈련하는 데 필요한大量 레이블 데이터를 얻는 것은 어려울 수 있습니다. 미세 조정으로 事前 학습된 모델의 능력을 제한된 감독 예제로 강화할 수 있습니다.
모델 업데이트: 도메인에서 시간이 지남에 따라 새로운 데이터가 나타날 때, 모델을 추가로 미세 조정하여 최신 지식과 능력을 포함할 수 있습니다.
편향 완화: LLM은 事前 학습 데이터에서 사회적 편향을 학습할 수 있습니다. 미세 조정으로 이러한 불량 편향을 줄이고 수정할 수 있습니다.

본질적으로, 미세 조정은 일반 모델과 전문 응용 프로그램의 간격을 메웁니다. 모델 출력의 정확성, 안전성 및 관련성을 향상시킵니다.

대규모 언어 모델 미세 조정

제공된 다이어그램은 대규모 언어 모델(LLM)을 구현하고 사용하는 프로세스를 설명합니다. 처음에는 事前 학습된 모델인 T5가 구조화된 회사 데이터와 비구조화된 회사 데이터를 받습니다. 이 데이터는 CSV 또는 JSON 형식일 수 있습니다. 이 데이터는 감독, 비감독 또는 전이 학습 프로세스를 거쳐 모델의 회사에 대한 전문 지식을 향상시킵니다.

모델이 회사 데이터로 미세 조정된 후, 모델의 가중치가 업데이트됩니다. 훈련된 모델은 새로운 회사 데이터를 처리하면서 지속적으로 개선됩니다. 이 프로세스는 반복적이며 동적입니다. 모델은 새로운 데이터 패턴에 적응하기 위해 학습하고 재훈련합니다.

이 훈련된 모델의 출력(단어를 나타내는 토큰과 임베딩)은 다양한 기업 응용 프로그램에 배포됩니다. 이러한 응용 프로그램에는 챗봇, 의료, 금융 등이 포함되며, 각 응용 프로그램은 모델이 산업별 쿼리와 상호 작용할 수 있도록 합니다. 금융에서 응용 프로그램에는 사기 탐지와 위협 분석이 포함됩니다. 의료에서는 모델이 환자 문의와 진단을 지원할 수 있습니다.

모델이 새로운 회사 데이터를 처리하는 능력은 모델의 유용성을 유지하고 향상시킵니다. 따라서 기업 사용자는 모델과 상호 작용하여 질문을 하고, 모델의 훈련과 미세 조정에 따라 정보를 제공받을 수 있습니다.

이 인프라는 다양한 기업 응용 프로그램을 지원하며, LLM의 유연성과 적응성을 비즈니스 컨텍스트에서 구현할 때의 가능성을 보여줍니다.

미세 조정 접근 방식

대규모 언어 모델을 미세 조정하는 두 가지 주요 전략이 있습니다.

1) 전체 모델 미세 조정

전체 미세 조정 접근 방식에서는 事前 학습된 모델의 모든 매개변수(가중치와 편향)를 두 번째 훈련 단계에서 업데이트합니다. 모델은 작업별 레이블 데이터셋에 노출되며, 표준 훈련 프로세스는 모델을 해당 데이터 분포에 최적화합니다.

이것은 모델이 더 포괄적인 조정을 만들고 대상 작업 또는 도메인에 대한 전체적인 적응을 허용합니다. 그러나 전체 미세 조정에는 몇 가지 단점이 있습니다.

사전 훈련 단계와 유사하게 훈련에 상당한 컴퓨팅 자원과 시간이 필요합니다.
저장 요구 사항이 높습니다. 각 작업에 대해 모델의 별도 미세 조정된 복사본을 유지해야 하기 때문입니다.
사전 훈련 중에 학습된 일반 능력을 잃을 수 있는 “참사적인 망각”의 위험이 있습니다.

이러한 제한에도 불구하고, 전체 미세 조정은 자원이 허용되며 대상 작업이 일반 언어와 크게 다르거나 더 전체적인 전문성이 필요한 경우에 널리 사용되는 강력한 기술입니다.

2) 효율적인 미세 조정 방법

전체 미세 조정의 컴퓨팅 도전을 극복하기 위해 연구자들은 모델의 작은 매개변수 하위 집합만 미세 조정하는 효율적인 전략을 개발했습니다. 이러한 매개변수적으로 효율적인 기술은 전문성을 줄이면서도 자원 요구를 줄입니다.

인기 있는 효율적인 미세 조정 방법에는 다음이 포함됩니다.

Prefix-Tuning: 여기서 작업별 벡터 또는 “접두사”가 도입되고 훈련되어 미세 조정 중에 事前 학습된 모델의 주의를 조건화합니다. 미세 조정 중에 이러한 접두사만 업데이트됩니다.

LoRA (Low-Rank Adaptation): LoRA는 미세 조정 중에 事前 학습된 모델의 각 계층에 학습 가능한 저ラン크 행렬을 삽입합니다. 이러한 작은 랭크 조정은 모델을 전문적으로 만드는 데 도움이 됩니다.

LoRA (Low-Rank Adaptation)에 대한 자세한 설명과 수학적 공식 및 코드 예제를 제공할 수 있습니다. LoRA는 대규모 언어 모델(Large Language Model, LLM) 적응을 위한 인기 있는 매개변수 효율적인 미세 조정(PEFT) 기술입니다.

LoRA란?

LoRA는 事前 학습된 모델에 작은 수의 학습 가능한 매개변수를 도입하여 다운스트림 작업에 효율적으로 적응할 수 있게 합니다. 모델의 대부분의 지식을 보존하면서 작업별 저ラン크 행렬을 모델의 계층에 삽입하여 컴퓨팅과 메모리 요구를 줄입니다.

수학적 공식

LoRA (Low-Rank Adaptation)は大規模言語モデルの重み行列に低ランク更新を導入する微調整方法です。重み行列 $W_{0} \in R^{d \times k}, LoRA는 B A 라는 저ラン크 행렬을 추가합니다. 여기서 A \in R^{r \times k} 및 B \in R^{d \times r}, 여기서 r 는 랭크입니다. 이 접근 방식은 훈련 가능한 매개변수의 수를 크게 줄여주어 다운스트림 작업에 효율적으로 적응할 수 있습니다. 업데이트된 가중치 행렬은 W = W_{0} + B \cdot A 로 주어집니다.$

이 저ラン크 업데이트는 원래 가중치 행렬 $W_{0}$을 수정하는 것으로 해석할 수 있습니다. $W_{0}$에 저ラン크 행렬 $BA$를 추가합니다. 이 형식의 주요 이점은 $W_{0}$의 모든 $d \times k$ 매개변수를 업데이트하는 대신, LoRA는 $A$와 $B$의 $r \times (d + k)$ 매개변수만 최적화하면 되므로 훈련 가능한 매개변수의 수가 크게 줄어듭니다.

Python에서 peft 라이브러리를 사용하여 事前 학습된 LLM에 LoRA를 적용하는 예는 다음과 같습니다.

&amp;lt;/div&amp;gt;
&amp;lt;div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; transformers &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; AutoModelForSequenceClassification
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;from&amp;lt;/span&amp;gt; peft &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;import&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; TaskType
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Load pre-trained model&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; AutoModelForSequenceClassification&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;from_pretrained&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;bert-base-uncased&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; num_labels&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;2&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Define LoRA configuration&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;peft_config &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; LoraConfig&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;task_type&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;TaskType&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;.&amp;lt;/span&amp;gt;SEQ_CLS&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;, &amp;lt;/span&amp;gt;r&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;8&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Rank of the low-rank update&amp;lt;/span&amp;gt;
lora_alpha&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;16&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Scaling factor for the low-rank update&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt; target_modules&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;[&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;q_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&quot;v_lin&quot;&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;]&amp;lt;/span&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Apply LoRA to the query and value layers&amp;lt;/span&amp;gt;
&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Create the LoRA-enabled model&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;model &amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;=&amp;lt;/span&amp;gt; get_peft_model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;(&amp;lt;/span&amp;gt;model&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;,&amp;lt;/span&amp;gt; peft_config&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;)&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# Fine-tune the model with LoRA&amp;lt;/span&amp;gt;
&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;div class=&quot;code-block__code !my-0 !rounded-t-lg !text-sm !leading-relaxed&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;code class=&quot;language-python&quot; data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;&amp;lt;span class=&quot;token&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;# ... (training code omitted for brevity)&amp;lt;/span&amp;gt;&amp;lt;/code&amp;gt;&amp;lt;/div&amp;gt;
&amp;lt;/div&amp;gt;
&amp;lt;div data-darkreader-inline-bgimage=&quot;&quot; data-darkreader-inline-bgcolor=&quot;&quot; data-darkreader-inline-color=&quot;&quot;&amp;gt;

이 예제에서는 事前 학습된 BERT 모델을 시퀸스 분류를 위해 로드하고, LoRA 구성도를 정의합니다. r 매개변수는 저ラン크 업데이트의 랭크를 지정하며, lora_alpha는 업데이트의 스케일링 인자입니다. target_modules 매개변수는 모델의 어떤 레이어에 저ラン크 업데이트를 적용할지 지정합니다. LoRA를 사용한 모델을 생성한 후, 표준 훈련 절차를 사용하여 미세 조정을 진행할 수 있습니다.

어댑터 레이어: LoRA와 유사하지만, 저ラン크 업데이트가 아닌 얇은 “어댑터” 레이어를 事前 학습된 모델의 각 트랜스포머 블록에 삽입합니다. 이러한 새로운 컴팩트 레이어의 매개변수만 훈련됩니다.

프롬프트 튜닝: 事前 학습된 모델을 완전히 동결합니다. 대신, 훈련 가능한 “프롬프트” 임베딩을 모델에 입력으로 사용하여 대상 작업에 대한 事前 학습된 지식을 활성화합니다.

이러한 효율적인 방법은 전체 미세 조정과 비교하여 최대 100배의 컴퓨팅 감소를 제공할 수 있으며, 여전히 많은 작업에서 경쟁력 있는 성능을 제공합니다. 또한 모델 복제를 피함으로써 저장 요구 사항을 줄입니다.

그러나 일반 언어나 더 전체적인 전문성이 필요한 작업과 크게 다른 작업의 경우, 전체 미세 조정보다 성능이 뒤처질 수 있습니다.

미세 조정 프로세스

미세 조정 전략과 상관없이, LLM을 전문화하는 프로세스는 일반적인 프레임워크를 따릅니다.

데이터 준비: 대상 작업에 대한 입력(프롬프트)과 원하는 출력을 매핑하는 레이블 데이터셋을 얻거나 생성해야 합니다. 텍스트 생성 작업의 경우, 이는 입력 텍스트에서 요약된 출력 쌍입니다.
데이터 분할: 최상의 관행에 따라 레이블 데이터셋을 훈련, 검증 및 테스트 세트로 분할합니다. 이는 모델 훈련, 하이퍼파라미터 튜닝 및 최종 평가를 위한 데이터를 분리합니다.
하이퍼파라미터 튜닝: 학습률, 배치 크기 및 훈련 일정과 같은 매개변수가 데이터에 가장 효과적으로 미세 조정되도록 튜닝되어야 합니다. 이는 일반적으로 작은 검증 세트를 포함합니다.
모델 훈련: 튜닝된 하이퍼파라미터를 사용하여 전체 훈련 세트에서 미세 조정 최적화를 실행합니다. 모델의 성능이 검증 세트에서 더 이상 개선되지 않을 때까지(조기 중지).
평가: 미세 조정된 모델의 성능을 테스트 세트(대상 사용 사례의 실제 세계 예제로 구성)에서 평가하여 실제 세계의 효능을 추정합니다.
배포 및 모니터링: 만족할 만한 성능을 보인 후, 미세 조정된 모델을 새로운 입력에 대한 추론을 위해 배포할 수 있습니다. 성능과 정확성을 시간이 지남에 따라 모니터링하는 것이 중요합니다.

이 프로세스를 요약했지만, 특정 LLM 또는 작업에 대한 미세 조정 성공에 영향을 미치는 많은 세부 사항이 있습니다. 커리큘럼 학습, 멀티 작업 미세 조정 및 少샷 프롬프트와 같은 전략을 사용하여 성능을 더욱 향상시킬 수 있습니다.

또한, 효율적인 미세 조정 방법에는 추가적인 고려 사항이 있습니다. 예를 들어, LoRA는 事前 학습된 모델 출력을 조합 레이어를 통해 조건화하는 기술이 필요합니다. 프롬프트 튜닝에는 올바른 동작을 활성화하기 위해 신중하게 설계된 프롬프트가 필요합니다.

고급 미세 조정: 인간 피드백 통합

표준 감독 미세 조정을 사용하는 레이블 데이터셋이 효과적이지만, 인간의 선호도 및 피드백을 직접 사용하여 LLM을 훈련하는 것은 흥미로운 전방입니다. 이 인간-루프 접근 방식은 강화 학습 기술을 활용합니다.

PPO (Proximal Policy Optimization): 여기서 LLM을 강화 학습 에이전트로 처리하며, 모델의 출력을 “작업”으로 간주합니다. 인간 등급 또는 품질 점수를 모델의 출력에 대한 예측 모델을 훈련합니다. PPO는 모델의 출력을 최적화하여 예측 모델의 점수를 최대화합니다.

RLHF (Reinforcement Learning from Human Feedback): 이 접근 방식은 PPO를 확장하여 미세 조정 중에 직접 인간 피드백을 통합합니다. 고정된 보상 모델 대신, 보상은 미세 조정 중에 모델의 출력에 대한 반복적인 인간 평가에서 나옵니다.

이 방법은 계산 집중적이지만, 인간이 평가하는 원하는 특성을 모델의 동작을 형성하는 데 사용할 수 있습니다. 이는 정적 데이터셋으로는 포착할 수 없는 것입니다.

Anthropic과 같은 회사들은 RLHF를 사용하여 Claude와 같은 언어 모델에 진실성, 윤리 및 안전 인식을 향상시켰습니다.

잠재적 위험 및 제한

LLM을 미세 조정하는 것은 강력하지만, 관리해야 할 위험이 있습니다.

편향 증폭: 미세 조정 데이터에 사회적 편향(성별, 인종, 연령 등)이 포함되어 있으면, 모델은 이러한 바람직하지 않은 편향을 증폭할 수 있습니다. 대표적이고 편향되지 않은 데이터셋을 구축하는 것이 중요합니다.

사실 드리프트: 높은 품질의 데이터로 미세 조정했더라도, 언어 모델은 더 긴 대화 또는 프롬프트에서 잘못된 사실이나 훈련 예제와 일치하지 않는 출력을 “환상”할 수 있습니다. 사실 검색 방법이 필요할 수 있습니다.

확장성 문제: GPT-3와 같은 거대한 모델의 전체 미세 조정에는 많은 컴퓨팅 자원이 필요할 수 있습니다. 효율적인 미세 조정 방법은 부분적으로 이러한 문제를 완화하지만, 트레이드오프가 있습니다.

참사적인 망각: 전체 미세 조정 중에 모델은 事前 훈련 중에 학습한 일부 일반 능력을 잃을 수 있습니다. 멀티 작업 학습이 필요할 수 있습니다.

지적 재산 및 개인 정보 보호 위험: 미세 조정에 사용되는 사유 데이터는 공개적으로 출시된 언어 모델 출력에 누출될 수 있으며, 위험을 초래할 수 있습니다. 차별적 개인 정보 보호 및 정보 위험 완화 기술은 활발한 연구 분야입니다.

전반적으로, 미세 조정은 데이터 품질, 정체성 고려, 위험 완화 및 성능-효율성 트레이드오프에 대한 균형과 같은 세부 사항에 주의가 필요합니다.

미래: 대규모 언어 모델 맞춤화

앞으로, 미세 조정 및 모델 적응 기술의 발전은 다양한 응용 프로그램 및 도메인에서 대규모 언어 모델의 전체 잠재력을 실현하는 데 중요합니다.

자원에 제한된 더 큰 모델을 미세 조정할 수 있는 더 효율적인 방법은 접근성을 민주화할 수 있습니다. 자동화된 데이터셋 생성 파이프라인 및 프롬프트 엔지니어링은 전문성을 간소화할 수 있습니다.

원시 데이터에서 미세 조정할 수 있는 자가 지도 학습 기술은 새로운 전선을 열 수 있습니다. 또한, 다양한 작업 또는 데이터에 미세 조정된 하위 모델을 구성하여 요구 사항에 따라 맞춤형 모델을 생성할 수 있습니다.

궁극적으로, LLM이 보편적으로 사용됨에 따라, 모든 사용 사례에 대해 모델을 원활하게 맞춤화하고 전문화할 수 있는 능력은 결정적입니다. 미세 조정 및 관련 모델 적응 전략은 대규모 언어 모델을 유연하고, 안전하고, 강력한 AI 어시스턴트로 만드는 비전을 실현하는 데 중요한 단계입니다.

Aayush Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.