인공 지능

LoReFT: 언어 모델을 위한 표현 미세 조정

게재

3 주 전

2024 년 4 월 18 일

매개변수 효율적인 미세 조정 또는 PeFT 방법은 소수의 가중치에 대한 업데이트를 통해 대규모 언어 모델을 적용하려고 합니다. 그러나 기존 해석 가능성 작업의 대부분은 표현이 의미론적으로 풍부한 정보를 인코딩한다는 것을 보여 주었으며 이러한 표현을 편집하는 것이 더 좋고 더 강력한 대안이 될 수 있음을 시사합니다. 사전 훈련된 대형 모델은 새로운 도메인이나 작업에 사용하기 위해 미세 조정되는 경우가 많으며, 미세 조정 과정에서 단일 기본 모델은 소량의 도메인 내 데이터만 있어도 다양한 작업에 적용할 수 있습니다. 모델에게. 그러나 전체 모델을 미세 조정하는 프로세스는 리소스를 많이 소모하고 비용이 많이 듭니다. 특히 크기와 매개변수 수가 상당히 많은 언어 모델의 경우 더욱 그렇습니다.

매개변수 효율적인 미세 조정 또는 PeFT 방법은 사용 가능한 총 가중치 중 적은 양만 업데이트하여 전체 모델을 미세 조정하는 데 드는 높은 비용을 해결하는 방법을 제안합니다. 이 프로세스는 메모리 사용량과 함께 훈련 시간을 줄이는 데 도움이 됩니다. 더 중요한 것은 매개변수 효율적인 미세 조정 또는 PeFT 방법이 여러 실제 설정에서 미세 조정과 유사한 성능을 입증했다는 것입니다. 매개변수 효율적인 미세 조정 또는 PeFT 방법의 일반적인 제품군인 어댑터는 LoRA와 같은 최신 어댑터를 사용하여 고정 기본 모델과 함께 작동하는 추가 가중치 세트에 추가할 수 있는 편집 내용을 학습합니다. 어댑터를 훈련할 때 전체 가중치 행렬 대신 낮은 순위 근사치를 사용하여 가중치를 업데이트합니다.

표현 편집을 시연한 이전 작업이 매개변수 효율적인 미세 조정 또는 PeFT 방법에 대한 더 나은 대안이 될 수 있다는 점을 이번 기사에서는 고정 모델에서 작동하는 표현 미세 조정 또는 ReFT 방법에 대해 이야기하고 작업별 학습 방법을 설명합니다. 숨겨진 표현에 대한 개입. 이 기사는 ReFt 또는 Representation Fine-tuning 프레임워크를 심층적으로 다루는 것을 목표로 하며 프레임워크의 메커니즘, 방법론, 아키텍처를 탐색하고 최신 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.

ReFT: 언어 모델을 위한 표현 미세 조정

새로운 도메인과 작업에 사전 훈련된 언어 모델을 채택하려는 시도에서 현재 프레임워크는 구현된 미세 조정 프로세스와 마찬가지로 이러한 사전 훈련된 언어 모델을 자주 미세 조정합니다. 단일 기본 모델은 다양한 작업에도 적용할 수 있습니다. 소량의 도메인 내 데이터로 작업할 때. 미세 조정 프로세스가 전반적인 성능을 향상시키기는 하지만 특히 언어 모델에 매개변수 수가 상당히 많은 경우에는 비용이 많이 드는 프로세스입니다. 이 문제를 해결하고 관련 비용을 줄이기 위해 PeFT 또는 매개변수 효율적 프레임워크 미세 조정 전체 가중치의 작은 부분만 업데이트합니다. 이 프로세스는 훈련 시간을 줄일 뿐만 아니라 메모리 사용량도 줄여 PeFT 프레임워크가 실제 시나리오에서 전체 미세 조정 접근 방식과 비교할 때 유사한 성능을 달성할 수 있도록 해줍니다. PeFT의 일반적인 제품군인 어댑터는 고정된 가중치가 있는 기본 모델과 함께 작동하는 가중치 하위 집합과 함께 추가 가중치 집합에 추가할 수 있는 편집 내용을 학습하여 작동합니다. 다음과 같은 최신 어댑터 프레임워크 LoRA와 QLoRA 성능에 영향을 주지 않고 정밀도가 감소된 모델 위에 완전 정밀도 어댑터를 훈련하는 것이 가능하다는 것을 입증했습니다. 어댑터는 일반적으로 새 모델 구성 요소를 도입하는 다른 방법과 비교할 때 더 효율적이고 효과적입니다.

현재 최첨단 매개변수 효율적인 미세 조정 프레임워크의 주요 특징은 표현을 수정하는 대신 가중치를 수정한다는 것입니다. 그러나 해석 가능성을 다루는 프레임워크는 표현이 풍부한 의미 정보를 인코딩한다는 것을 보여 주었으며, 표현 편집이 가중치 업데이트와 비교할 때 더 좋고 더 강력한 접근 방식일 수 있음을 시사합니다. 표현 편집이 더 나은 접근 방식이라는 이러한 가정은 모델 가중치를 조정하는 대신 개입을 훈련하는 ReFT 또는 표현 미세 조정 프레임워크의 기초를 형성하여 모델이 모델 동작을 조정하기 위해 모든 표현의 작은 부분을 조작할 수 있도록 합니다. 추론 중에 다운스트림 작업을 해결합니다. ReFT 또는 표현 미세 조정 방법은 가중치 기반 PeFT 또는 매개변수 효율적인 미세 조정 프레임워크를 즉시 대체합니다. ReFT 접근 방식은 충실한 인과 메커니즘을 찾기 위해 표현에 개입하고 추론 중에 모델의 동작을 조정하는 대규모 모델 해석 기능을 사용하는 최근 모델에서 영감을 얻었으므로 표현 편집 모델의 일반화로 볼 수 있습니다. 이를 기반으로 LoReFT 또는 Low-Rank Subspace ReFT는 ReFT의 강력하고 효과적인 인스턴스이며, 하위 투영 행렬로 확장된 선형 공간의 숨겨진 표현에 개입하고 DAS에 직접 구축하는 ReFT의 매개변수화입니다. 또는 분산 정렬 검색 프레임워크.

전체 미세 조정과 달리 PeFT 또는 매개변수 효율적인 미세 조정 프레임워크는 모델 매개변수 중 극히 일부만 훈련하고 모델을 다운스트림 작업에 맞게 조정합니다. 매개변수 효율적인 미세 조정 프레임워크는 세 가지 주요 범주로 분류될 수 있습니다.

어댑터 기반 방법: 어댑터 기반 방법은 고정된 가중치를 사용하여 사전 훈련된 모델 위에 완전 연결 레이어와 같은 추가 모듈을 훈련합니다. 시리즈 어댑터는 다층 퍼셉트론, MLP와 LM 또는 대형 모델 주의 층 사이에 구성요소를 삽입하는 반면, 병렬 어댑터는 기존 구성요소와 함께 모듈을 추가합니다. 어댑터는 기존 모델 무게에 쉽게 접힐 수 없는 새로운 구성 요소를 추가하기 때문에 추론 중에 추가적인 부담을 줍니다.

로라: 최신 변형과 함께 LoRA는 낮은 순위 행렬을 사용하여 훈련 중에 추가 가중치를 근사화하고 가중치 업데이트가 모델에 병합될 수 있으므로 추론 중에 추가 오버헤드가 필요하지 않으며 이것이 현재의 것으로 간주되는 이유입니다. 가장 강력한 PeFT 프레임워크.

프롬프트 기반 방법: 프롬프트 기반 방법은 무작위로 초기화되는 소프트 토큰을 입력에 추가하고 언어 모델의 가중치를 고정한 상태로 유지하면서 임베딩을 훈련합니다. 이러한 방법이 제공하는 성능은 다른 PeFT 접근 방식과 비교할 때 만족스럽지 못한 경우가 많으며 상당한 추론 오버헤드 비용도 발생합니다.

가중치를 업데이트하는 대신 ReFT 프레임워크는 전체 표현의 작은 부분을 수정하기 위한 개입을 학습합니다. 또한 표현 엔지니어링 및 활성화 조정에 대한 최근 연구에서는 잔여 스트림에 고정 조정 벡터를 추가하면 리소스 집약적인 작업 없이 사전 훈련된 대규모 모델 생성에 대한 어느 정도 제어가 용이할 수 있음이 입증되었습니다. 미세 조정. 다른 프레임워크에서는 학습된 스케일링 및 변환 작업을 사용하여 표현을 편집하면 일치를 시도할 수 있지만 학습된 매개변수가 더 적은 광범위한 작업에서 LoRA 어댑터가 제공하는 성능을 능가할 수는 없음을 보여주었습니다. 또한, 다양한 작업에서 이러한 프레임워크의 성공은 사전 훈련된 언어 모델에 의해 도입된 표현이 풍부한 의미를 전달하지만 이러한 모델의 성능은 차선책이므로 PeFT가 최첨단 접근 방식으로 계속 유지될 수 있음을 보여주었습니다. 추가적인 추론 부담 없이.

ReFT : 방법론 및 아키텍처

스타일 보존 프로세스를 단순하게 유지하기 위해 ReFT 프레임워크는 토큰 시퀀스의 상황에 맞는 표현을 생성할 수 있는 대상 모델로 변환기 기반 대형 모델을 가정합니다. n개의 입력 토큰이 있는 특정 시퀀스의 경우 ReFT 프레임워크는 먼저 이러한 입력 토큰을 표현 목록에 삽입하고 그 다음에는 m개의 레이어가 이전 숨겨진 표현 목록의 함수로 숨겨진 표현 목록을 연속적으로 계산합니다. 각 숨겨진 표현은 벡터이며 언어 모델은 최종 숨겨진 표현을 사용하여 예측을 생성합니다. ReFT 프레임워크는 마스크된 언어 모델과 자동 회귀 언어 모델을 모두 고려합니다. 이제 선형 표현 가설에 따르면 신경망에서 개념은 표현의 선형 부분 공간 내에 인코딩됩니다. 최근 모델은 이 주장이 다른 입력 분포와 함께 자연어에 대해 훈련된 신경망 모델에서 사실이라는 것을 발견했습니다.

또한 해석 가능성 연구에서 캐주얼 추상화 프레임워크는 교환 개입을 사용하여 특정 동작을 구현할 때 신경망 구성 요소의 역할을 자연스럽게 설정합니다. 교환 개입의 이면에 있는 논리는 반사실적 입력에 대한 표현을 수정하고 이 개입이 생산을 담당하는 구성 요소에 대해 ReFT 프레임워크에서 제시한 주장과 마찬가지로 모델의 출력에 일관되게 영향을 미친다는 것입니다. 그 표현이 있으면 그 구성 요소는 행동에서 인과적인 역할을 합니다. 몇 가지 방법이 있지만 분산 교환 개입은 선형 표현 가설에서 주장하는 것처럼 개념이 표현의 선형 부분 공간에 인코딩되어 있는지 여부를 테스트하는 이상적인 접근 방식입니다. 또한 DAS 방법은 이전에 개체 속성, 정서, 언어적 특징 및 수학적 추론의 언어 모델에서 선형 표현을 찾는 데 사용되었습니다. 그러나 여러 실험에 따르면 DAS 방법은 표현력이 뛰어나고 변환기 언어 모델이 무작위로 초기화된 경우에도 인과적 효과가 있는 부분 공간을 찾는 기능을 보유하므로 아직 작업별 표현을 학습하지 못하여 다음과 같은 결과가 발생합니다. DAS가 해석성 작업에 충분히 효과적이고 책임이 있는지 토론합니다.

DAS가 제공하는 표현성은 이 접근 방식이 제어 가능한 생성 및 책임 있는 편집 작업과 함께 언어 모델의 동작을 제어하는 이상적인 도구가 될 수 있음을 시사합니다. 따라서 다운스트림 작업에 맞게 언어 모델을 조정하기 위해 ReFT 프레임워크는 분산 교환 개입 작업을 사용하여 새로운 매개변수 효율적인 방법을 만듭니다. 또한 ReFT 방법은 일련의 개입이며 프레임워크는 동일한 레이어에서 작동하는 두 가지 개입에 대해 개입 위치가 분리되어야 하며 모든 개입 기능의 매개변수는 독립적으로 유지되도록 강제합니다. 결과적으로 ReFT는 모델 정방향 전달 중에 숨겨진 표현에 대한 개입을 포함하는 일반 프레임워크입니다.

ReFT: 실험 및 결과

기존 PEFT 프레임워크에 대한 성능을 평가하기 위해 ReFT 프레임워크는 20개의 다양한 자연어 처리 벤치마크에서 실험을 수행하고 XNUMX개 이상의 데이터 세트를 다루며, 주요 목표는 LoReFT 프레임워크가 다양한 시나리오에서 어떻게 수행되는지에 대한 풍부한 그림을 제공하는 것입니다. 또한 LoReFT 프레임워크가 실생활에서 구현될 때 개발자는 학습할 개입 수와 각 개입을 적용할 입력 위치 및 레이어를 결정해야 합니다. 작업을 완료하기 위해 ReFT 프레임워크는 XNUMX개의 하이퍼매개변수를 조정합니다.

개입할 접두사 위치 수입니다.
개입할 접미사 위치의 수입니다.
개입할 레이어 세트.
동일한 레이어의 여러 위치에 걸쳐 개입 매개변수를 연결할지 여부입니다.

이를 통해 ReFT 프레임워크는 하이퍼파라미터 검색 공간을 단순화하고 프롬프트 길이에 따라 확장되지 않는 고정된 추가 추론 비용만 보장합니다.

위 표는 7가지 상식 추론 데이터 세트에서 LLaMA-13B 및 LLaMA-8B 프레임워크의 정확도를 기존 PEFT 모델과 비교합니다. 관찰할 수 있듯이 LoReFT 모델은 매개 변수가 훨씬 적음에도 불구하고 기존 PEFT 접근 방식보다 상당한 차이로 성능이 뛰어나며 LoReFT 모델에 대한 고유한 매개 변수 시드를 사용하여 XNUMX회 실행의 평균 성능이 보고됩니다. param(%)은 학습 가능한 매개변수 수를 기본 대형 모델의 전체 매개변수 수로 나누어 계산합니다.

위 표에는 서로 다른 7가지 산술 추론 데이터세트에 걸쳐 기존 PEFT 모델과 LLaMA-13B 및 LLaMA-4B 프레임워크의 정확도 비교가 요약되어 있으며 프레임워크는 서로 다른 무작위 시드를 사용하여 XNUMX회 실행의 평균 성능을 보고합니다. 관찰할 수 있듯이 훨씬 적은 매개변수(%)에도 불구하고 LoReFT 프레임워크는 기존 PEFT 프레임워크보다 상당한 차이로 성능이 뛰어납니다.

위 표는 GLUE 벤치마크 전체에서 기존 PEFT 모델에 대한 RoBERTa 기반 프레임워크와 RoBERTa 대형 프레임워크의 정확도 비교를 요약한 것입니다. 프레임워크는 고유한 무작위 시드를 사용하여 5회 실행의 평균 성능을 보고합니다. 관찰할 수 있듯이 훨씬 적은 매개변수(%)에도 불구하고 LoReFT 프레임워크는 기존 PEFT 프레임워크보다 상당한 차이로 성능이 뛰어납니다.

최종 생각

이 기사에서는 기존 PEFT 프레임워크에 대한 강력한 대안인 LoReFT에 대해 설명했습니다. LoReFT는 이전 최첨단 PEFT 모델이 제공하는 효율성을 최대 50배 제공하는 동시에 XNUMX가지 다른 도메인의 벤치마크에서 강력한 성능을 달성합니다. 사전 훈련된 대형 모델은 새로운 도메인이나 작업에 사용하기 위해 미세 조정되는 경우가 많으며, 미세 조정 과정에서 단일 기본 모델은 소량의 도메인 내 데이터만 있어도 다양한 작업에 적용할 수 있습니다. 모델에게. 그러나 전체 모델을 미세 조정하는 프로세스는 리소스를 많이 소모하고 비용이 많이 듭니다. 특히 크기와 매개변수 수가 상당히 많은 언어 모델의 경우 더욱 그렇습니다. 매개변수 효율적인 미세 조정 또는 PeFT 방법은 사용 가능한 총 가중치 중 적은 양만 업데이트하여 전체 모델을 미세 조정하는 데 드는 높은 비용을 해결하는 방법을 제안합니다. 이 프로세스는 메모리 사용량과 함께 훈련 시간을 줄이는 데 도움이 됩니다. 특히 LoReFT는 가장 강력한 PEFT에 대한 상식 추론, 지시 따르기 및 자연어 이해에 대한 새로운 최첨단 성능을 확립합니다.