부본 LLM 미세 조정 이해: 고유한 요구 사항에 맞게 대규모 언어 모델 조정 - Unite.AI
Rescale 미팅 예약

신속한 엔지니어링

LLM 미세 조정 이해: 고유한 요구 사항에 맞게 대규모 언어 모델 조정

mm
업데이트 on
LLM 미세 조정 표현 - Midjourney

2023년 XNUMX월 현재 LLM(Large Language Models) 환경에서는 여전히 Alpaca, Falcon, 라마 2, GPT-4 및 기타 여러 가지.

이러한 LLM의 잠재력을 활용하는 중요한 측면은 사전 훈련된 모델을 사용자 정의하여 특정 작업에 정밀하게 맞출 수 있는 전략인 미세 조정 프로세스에 있습니다. 이러한 미세 조정을 통해 이러한 모델은 개별화된 요구 사항에 맞게 조정될 수 있으며 혁신적이고 고유한 요구 사항에 맞는 솔루션을 제공할 수 있습니다.

그러나 모든 미세 조정 방법이 동일하게 생성되는 것은 아니라는 점에 유의하는 것이 중요합니다. 예를 들어, GPT-4의 미세 조정 기능에 액세스하려면 프리미엄이 필요하므로 시중에 판매되는 다른 옵션에 비해 상대적으로 더 비싼 유료 구독이 필요합니다. 반면, 오픈 소스 도메인은 대규모 언어 모델의 힘을 활용하기 위한 보다 접근 가능한 경로를 제공하는 대안으로 넘쳐납니다. 이러한 오픈 소스 옵션은 고급 AI 기술에 대한 액세스를 민주화하여 빠르게 진화하는 AI 환경에서 혁신과 포용성을 촉진합니다.

LLM 미세 조정이 중요한 이유는 무엇입니까?

LLM 미세 조정은 기술적 향상 그 이상입니다. 다양한 작업에 보다 구체적이고 세련된 적용을 허용하는 것은 LLM 모델 개발의 중요한 측면입니다. 미세 조정은 사전 훈련된 모델을 특정 데이터 세트에 더 잘 맞게 조정하여 특정 작업의 성능을 향상하고 보다 타겟화된 애플리케이션을 보장합니다. 이는 새로운 데이터에 적응하는 LLM의 놀라운 능력을 발휘하여 AI 응용 프로그램에 대한 관심이 계속 증가하는 데 필수적인 유연성을 보여줍니다.

대규모 언어 모델을 미세 조정하면 많은 기회가 열리므로 감정 분석부터 의학 문헌 검토에 이르기까지 특정 작업에서 탁월한 성능을 발휘할 수 있습니다. 기본 모델을 특정 사용 사례에 맞게 조정함으로써 새로운 가능성을 열어 모델의 효율성과 정확성을 향상시킵니다. 또한 미세 조정에는 모델을 처음부터 훈련하는 것보다 컴퓨팅 성능이 덜 필요하므로 시스템 리소스를 보다 경제적으로 활용할 수 있습니다.

이 가이드를 더 자세히 살펴보면서 LLM 미세 조정의 복잡성에 대해 논의하고 해당 분야의 최신 발전 사항과 모범 사례를 기반으로 한 포괄적인 개요를 제공할 것입니다.

명령어 기반 미세 조정

미세 조정 단계에서는 제너레이티브 AI 아래 그림에 표시된 라이프사이클은 단계별 추론의 예와 결합된 명령 입력 및 출력의 통합이 특징입니다. 이 접근 방식은 관련성이 있을 뿐만 아니라 모델에 입력된 특정 지침과 정확하게 일치하는 응답을 생성하는 모델을 촉진합니다. 이 단계에서는 사전 훈련된 모델이 개별 작업 및 사용 사례를 해결하고 개인화된 데이터 세트를 활용하여 기능을 향상하도록 조정됩니다.

생성적 AI 라이프사이클 - 미세 조정, 프롬프트 엔지니어링 및 RLHF

생성적 AI 수명주기 – 미세 조정

단일 작업 미세 조정

단일 작업 미세 조정은 요약과 같은 특정 작업에 대한 모델의 전문 지식을 연마하는 데 중점을 둡니다. 이 접근 방식은 법률 문서 및 고객 지원 티켓을 포함하여 상당한 문서 또는 대화 스레드와 관련된 워크플로를 최적화하는 데 특히 유용합니다. 놀랍게도, 이 미세 조정은 사전 훈련 단계에서 사용되는 수십억 개의 토큰과 달리 500에서 1000까지의 비교적 작은 예제 세트를 사용하여 상당한 성능 향상을 달성할 수 있습니다.

단일 작업 미세 조정 예시 그림

단일 작업 미세 조정 예시 그림

 

LLM 미세 조정의 기초 LLM: 트랜스포머 아키텍처 및 그 이상

LLM 미세 조정을 이해하는 여정은 LLM을 구성하는 기본 요소를 이해하는 것에서 시작됩니다. 이 모델의 핵심은 변압기 아키텍처는 self-attention 메커니즘을 활용하여 문장에서 단어의 근접성보다 단어의 맥락을 우선시하는 신경망입니다. 이 혁신적인 접근 방식은 입력에 포함된 토큰 간의 먼 관계에 대한 더 깊은 이해를 촉진합니다.

변환기의 복잡성을 탐색하면서 우리는 인코더에서 시작되는 다단계 프로세스를 접하게 됩니다. 이 초기 단계에는 입력을 토큰화하고 입력과 문장에서의 위치를 ​​나타내는 임베딩 벡터를 만드는 작업이 포함됩니다. 후속 단계에는 다음과 같은 행렬을 사용한 일련의 계산이 포함됩니다. 질문, 가치관, 문장의 다양한 부분과 다양한 토큰에 초점을 맞추는 자기 주의 점수로 정점을 이룹니다.

트랜스포머 아키텍처

트랜스포머 아키텍처

미세 조정은 보다 바람직한 결과를 얻기 위해 미묘한 조정을 수반하는 프로세스인 LLM 개발에서 중요한 단계입니다. 이 단계는 필수적이지만 수많은 매개변수를 처리하기 위한 계산 및 저장 요구를 포함하여 일련의 과제를 제시합니다. PEFT(Parameter Efficient Fine-Tuning)는 미세 조정해야 하는 매개변수 수를 줄여 훈련 프로세스를 단순화하는 기술을 제공합니다.

LLM 사전 교육: 강력한 기반 구축

LLM 개발의 초기 단계에서는 사전 훈련이 중심이 되어 과도하게 매개변수화된 변환기를 기본 아키텍처로 활용합니다. 이 프로세스에는 대규모 비지도 말뭉치에 대한 양방향, 자동 회귀 또는 시퀀스 대 시퀀스와 같은 다양한 방식으로 자연어를 모델링하는 작업이 포함됩니다. 여기서의 목표는 작업별 목표를 도입하여 나중에 특정 다운스트림 작업에 대해 미세 조정할 수 있는 기반을 만드는 것입니다.

사전 훈련, 미세 조정

사전 훈련, 미세 조정

이 영역에서 주목할만한 추세는 매개변수 수로 측정되는 사전 훈련된 LLM 규모의 불가피한 증가입니다. 경험적 데이터는 더 많은 데이터와 결합된 더 큰 모델이 거의 항상 더 나은 성능을 제공한다는 것을 일관되게 보여줍니다. 예를 들어, 3억 개의 매개변수를 갖춘 GPT-175는 고품질 자연어를 생성하고 다양한 제로샷 작업을 능숙하게 수행하는 데 있어 기준을 세웠습니다.

미세 조정: 모델 적응을 위한 경로

사전 교육 후에 LLM은 특정 작업에 적응하기 위해 미세 조정을 거칩니다. GPT-3와 같은 사전 훈련된 LLM의 상황 내 학습에서 보여지는 유망한 성능에도 불구하고 미세 조정은 작업별 설정에서 여전히 우수합니다. 그러나 전체 매개변수 미세 조정의 일반적인 접근 방식은 특히 대규모 모델을 처리할 때 높은 계산 및 메모리 요구 사항을 포함하는 문제를 제시합니다.

32억 개 이상의 매개변수가 있는 대규모 언어 모델의 경우 GPU RAM의 효율적인 관리가 중요합니다. 최대 4비트 정밀도의 단일 모델 매개변수에는 4바이트의 공간이 필요하며, 이는 1억 개의 매개변수 모델을 로드하는 데만 80GB의 GPU RAM이 필요하다는 의미입니다. 실제 교육 프로세스에서는 최적화 상태 및 기울기를 포함한 다양한 구성 요소를 수용하기 위해 더 많은 메모리가 필요하며, 이 규모의 모델에는 잠재적으로 최대 XNUMXGB의 GPU RAM이 필요할 수 있습니다.

GPU RAM의 한계를 탐색하기 위해 모델 매개변수의 정밀도를 줄여 메모리 요구 사항을 줄이는 기술인 양자화가 사용됩니다. 예를 들어 정밀도를 32비트에서 16비트로 변경하면 모델 로드 및 교육에 필요한 메모리가 절반으로 줄어들 수 있습니다. 이 기사의 뒷부분에서. 튜닝을 위해 양자화 개념을 활용한 클로라(Qlora)에 대해 알아 보겠습니다.

LLM GPU 메모리 요구 사항 매개변수 수와 정밀도

LLM GPU 메모리 요구 사항 매개변수 수와 정밀도

 

PEFT 방법의 범주 탐색

대규모 언어 모델을 완벽하게 미세 조정하는 과정에서 가장 진보된 모델의 경우 현재 수백 기가바이트에 달하는 크기에 도달하는 상당한 모델 가중치를 효율적으로 처리할 수 있을 뿐만 아니라 관리도 효율적으로 처리할 수 있는 계산 설정을 갖추는 것이 중요합니다. 일련의 기타 중요한 요소. 여기에는 최적화 상태에 대한 메모리 할당, 기울기 관리, 순방향 활성화 및 교육 절차의 다양한 단계에서 임시 메모리 촉진이 포함됩니다.

첨가법

이러한 유형의 조정은 새로 추가된 매개변수만 훈련하는 데 초점을 맞춰 추가 매개변수 또는 레이어를 사용하여 사전 훈련된 모델을 강화할 수 있습니다. 매개변수 수의 증가에도 불구하고 이러한 방법은 훈련 시간과 공간 효율성을 향상시킵니다. 첨가제 방법은 다음과 같은 하위 범주로 더 분류됩니다.

  • 어댑터: 변압기 하위 계층 이후에 완전히 연결된 작은 네트워크를 통합합니다. 주목할만한 예는 다음과 같습니다. 에이다믹스, 크로나및 압축기.
  • 소프트 프롬프트: 경사하강법을 통해 모델의 입력 임베딩 세그먼트를 미세 조정합니다. IPT, 접두사 조정, WARP가 대표적인 예입니다.
  • 기타 추가적인 접근 방식: LeTS, AttentionFusion 및 Ladder-Side Tuning과 같은 기술을 포함합니다.

선택적 방법

선택적 PEFT는 레이어 유형 및 내부 모델 구조를 기반으로 제한된 수의 상단 레이어를 미세 조정합니다. 이 범주에는 다음과 같은 방법이 포함됩니다. 비트핏LN 튜닝은 모델 편향이나 특정 행과 같은 특정 요소 튜닝에 중점을 둡니다.

재매개변수화 기반 방법

이러한 방법은 낮은 순위 표현을 활용하여 훈련 가능한 매개변수의 수를 줄입니다. 가장 유명한 방법은 LoRA(Low-Rank Adaptation)입니다. 이 방법은 간단한 낮은 순위 행렬 분해를 활용하여 가중치 업데이트를 매개변수화하여 낮은 순위 부분 공간에서 효과적인 미세 조정을 보여줍니다.

1) LoRA(낮은 순위 적응)

LoRA는 획기적인 PEFT 기술로 등장했으며, 2021년 Edward J. Hu 외. 이는 재매개변수화 범주 내에서 작동하여 LLM의 원래 가중치를 동결하고 새로운 훈련 가능한 하위 행렬을 Transformer 아키텍처의 각 계층에 통합합니다. 이 접근 방식은 훈련 가능한 매개변수의 수를 줄일 뿐만 아니라 필요한 훈련 시간과 계산 리소스도 줄여 전체 미세 조정에 대한 보다 효율적인 대안을 제시합니다.

LoRA의 메커니즘을 이해하려면 입력 프롬프트가 토큰화되고 임베딩 벡터로 변환되는 변환기 아키텍처를 다시 방문해야 합니다. 이러한 벡터는 변환기의 인코더 및/또는 디코더 세그먼트를 통과하여 가중치가 사전 훈련된 self-attention 및 피드포워드 네트워크를 만나게 됩니다.

LoRA는 다음과 같은 개념을 사용합니다. 특이 값 분해 (SVD). 기본적으로 SVD는 행렬을 세 개의 서로 다른 행렬로 분할하며, 그 중 하나는 특이값을 포함하는 대각 행렬입니다. 이러한 특이값은 행렬의 다양한 차원의 중요성을 측정할 때 중추적인 역할을 하며, 값이 클수록 중요도가 높고 값이 작을수록 중요성이 낮습니다.

m × n 직사각형 행렬의 특이값 분해(SVD)

m × n 행렬의 특이값 분해(SVD)

이 접근 방식을 통해 LoRA는 데이터의 필수 특성을 유지하면서 차원을 줄여 미세 조정 프로세스를 최적화할 수 있습니다.

LoRA는 이 프로세스에 개입하여 모든 원래 모델 매개변수를 동결하고 원래 가중치와 함께 한 쌍의 "순위 분해 행렬"을 도입합니다. A와 B로 표시된 이러한 작은 행렬은 지도 학습을 통해 훈련을 받습니다.

이 전략에서 중추적인 요소는 순위('r')라는 매개변수이며, 이는 낮은 순위 행렬의 크기를 나타냅니다. 'r'을 세심하게 선택하면 더 작은 값으로도 인상적인 결과를 얻을 수 있으므로 훈련할 매개변수가 더 적은 낮은 순위 행렬을 생성할 수 있습니다. 이 전략은 HuggingFace Transformers와 같은 오픈 소스 라이브러리를 사용하여 효과적으로 구현되어 놀라운 효율성으로 다양한 작업에 대한 LoRA 미세 조정을 촉진합니다.

2) QLoRA: LoRA 효율성 향상

LoRA의 기반을 바탕으로 QLoRA는 메모리 요구 사항을 더욱 최소화합니다. 소개자 2023년의 Tim Dettmers 등, 낮은 순위 적응과 양자화를 결합하여 4비트 양자화 형식을 사용합니다. 노멀플로트 or nf4. 양자화는 본질적으로 데이터를 더 높은 정보 표현에서 더 적은 정보를 포함하는 표현으로 전환하는 프로세스입니다. 이 접근 방식은 16비트 미세 조정 방법의 효율성을 유지하여 계산 프로세스 중에 필요에 따라 4비트 가중치를 16비트로 역양자화합니다.

미세 조정 방법 비교: QLORA는 메모리 스파이크 관리를 위한 4비트 정밀 양자화 및 페이지 최적화 기능으로 LoRA를 향상합니다.

미세 조정 방법 비교: QLORA는 메모리 스파이크 관리를 위한 4비트 정밀 양자화 및 페이지 최적화 기능으로 LoRA를 향상합니다.

QLoRA는 변환기 아키텍처의 모든 레이어를 대상으로 하는 NumericFloat4(nf4)를 활용하고 미세 조정에 필요한 메모리 공간을 더욱 줄이기 위해 이중 양자화 개념을 도입합니다. 이는 이미 양자화된 상수에 대해 양자화를 수행함으로써 달성됩니다. 이는 페이징된 최적화 프로그램과 통합 메모리 관리를 활용하여 일반적인 그래디언트 체크포인트 메모리 급증을 방지하는 전략입니다.

구아 나코QLORA에 맞춰 조정된 앙상블인 는 오픈 소스 챗봇 솔루션의 벤치마크를 설정합니다. 체계적인 인간 평가와 자동화된 평가를 통해 검증된 성능은 해당 분야에서의 지배력과 효율성을 강조합니다.

Guanaco의 65B 및 33B 버전은 수정된 버전을 활용하여 미세 조정되었습니다. OASST1 데이터 세트는 다음과 같은 유명한 모델에 대한 강력한 경쟁자로 등장합니다. ChatGPT 심지어 GPT-4도 있습니다.

인간 피드백을 통한 강화 학습을 사용한 미세 조정

RLHF(Reinforcement Learning from Human Feedback)는 사전 훈련된 언어 모델을 미세 조정하여 인간의 가치에 더욱 가깝게 맞출 때 활용됩니다. 이 개념은 2017년 Open AI에서 도입되어 향상된 문서 요약 및 개발의 기반을 마련했습니다. 지시GPT.

RLHF의 핵심에는 기계 학습 기술의 일종인 강화 학습 패러다임이 있습니다. 대리인 상황에서 행동하는 방법을 배웁니다. 환경 수행함으로써 행위 그리고 받기 보상. 연속적인 루프이다. 동작피드백, 에이전트가 가장 높은 보상을 얻을 수 있는 선택을 하도록 인센티브를 받습니다.

이것을 언어 모델의 영역으로 번역하면, 대리인 이다 모델 자체적으로 운영되는 환경 주어진 컨텍스트 창을 보고 이에 따라 결정을 내립니다. 상태, 이는 컨텍스트 창의 현재 토큰에 의해 정의됩니다. “행동 공간"는 모델이 선택할 수 있는 모든 잠재적 토큰을 포함하며, 목표는 인간 선호도에 가장 근접하게 일치하는 토큰을 선택하는 것입니다.

RLHF 프로세스는 인간의 피드백을 광범위하게 활용하여 보상 모델을 교육하는 데 활용합니다. 이 모델은 미세 조정 과정에서 사전 훈련된 모델을 안내하여 인간의 가치에 더 부합하는 출력을 생성하도록 장려하는 데 중요한 역할을 합니다. 이는 모델이 언어 생성의 맥락에서 보상으로 이어지는 일련의 상태와 동작을 설명하는 데 사용되는 용어인 일련의 "롤아웃"을 통해 학습하는 역동적이고 반복적인 프로세스입니다.

RLHF의 주목할만한 잠재력 중 하나는 AI 비서의 개인화를 촉진하여 유머 감각이나 일상 생활 등 개별 사용자의 선호도에 맞게 조정하는 능력입니다. 이는 기술적으로 능숙할 뿐만 아니라 감정적으로 지능적이며 인간 의사소통의 미묘한 차이를 이해하고 대응할 수 있는 AI 시스템을 만들 수 있는 길을 열어줍니다.

그러나 RLHF는 완벽한 솔루션이 아니라는 점에 유의해야 합니다. 모델은 훈련받은 방대하고 종종 규제되지 않고 편향된 데이터를 반영하여 바람직하지 않은 출력을 생성할 가능성이 여전히 높습니다.

결론

Alpaca, Falcon, GPT-4와 같은 LLM의 잠재력을 최대한 활용하는 데 중요한 단계인 미세 조정 프로세스는 더욱 정교해지고 집중되어 다양한 작업에 대한 맞춤형 솔루션을 제공합니다.

우리는 특정 역할의 모델을 전문으로 하는 단일 작업 미세 조정과 학습 프로세스를 보다 효율적이고 비용 효율적으로 만드는 것을 목표로 하는 LoRA 및 QLoRA를 포함한 PEFT(매개 변수 효율적 미세 조정) 방법을 살펴보았습니다. 이러한 개발은 더 많은 청중에게 높은 수준의 AI 기능을 제공하는 문을 열어줍니다.

또한, Open AI의 RLHF(Reinforcement Learning from Human Feedback) 도입은 인간의 가치와 선호도를 더욱 밀접하게 이해하고 조정하는 AI 시스템을 만드는 단계로, 스마트할 뿐만 아니라 민감한 AI 보조원을 위한 기반을 마련합니다. 개별 사용자의 요구. RLHF와 PEFT는 모두 시너지 효과를 발휘하여 대규모 언어 모델의 기능과 효율성을 향상시킵니다.

기업, 기업 및 개인은 이러한 미세 조정된 LLM을 운영에 통합하려고 함에 따라 본질적으로 AI가 도구 이상의 미래를 맞이하고 있습니다. 인간의 상황을 이해하고 이에 적응하며 혁신적이고 개인화된 솔루션을 제공하는 파트너입니다.

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 ​​지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.