인공지능

제프르-7B: 언어 모델의 직접 증류 정렬 소개

게시일 2023년 11월 29일

업데이트일 2026년 5월 22일

작성자

Kunal Kejriwal

최근 몇 년 동안 더 작은 오픈형 대규모 언어 모델의 능력과 성능이 크게 발전하였으며, 초기 GPT-2 모델에서 더 комп팩트하고 정확하며 효과적인 LLM 프레임워크로의 진행을 목격하였다. 이러한 프레임워크는 Chinchilla 스케일링 법칙에서 권장하는 “컴퓨팅 최적” 토큰 수보다 상당히 많은 토큰을 사용한다. 또한 개발자들은 이러한 작은 LLM 프레임워크를 dSFT 또는 Distilled Supervised Fine-Tuning 접근 방식을 사용하여 추가로 훈련할 수 있음을 보여주었다. 이 접근 방식은 효과적인 교사 모델의 출력을 사용하여 학생 모델에 대한 지도 데이터로 사용한다.

이 기사에서는 Zephyr-7B 프레임워크에 대해 논의할 것이다. Zephyr-7B는 7B 파라미터 모델을 위한 최신 채팅 벤치마크이며, 인간 주석이 필요하지 않다. 이 프레임워크의 주요 목표는 개발자가 사용자의 의도와 더 가까운 작은 대규모 언어 모델을 생성할 수 있도록 하는 것이다. Zephyr-7B 프레임워크는 현재 접근 방식의 적용을 조사하는だけでなく, 사용자의 의도와 더 잘 일치하는 채팅 모델을 학습하기 위한 다른 접근 방식을 탐색한다.

제프르-7B: 언어 모델의 직접 증류 정렬 소개

언어 모델은 최근 몇 년 동안 빠르게 발전하였으며, 초기 GPT-2 프레임워크에서 현재의 GPT-4 및 MiniGPT-5 LLM 프레임워크로 진행하였다. 이러한 최신 LLM 프레임워크는 이전에 컴퓨팅 최적이라고 생각했던 토큰 수보다 훨씬 많은 토큰을 사용한다. 또한 개발자들은 이러한 작은 LLM 프레임워크를 dSFT 또는 Distilled Supervised Fine-Tuning 접근 방식을 사용하여 추가로 훈련할 수 있음을 보여주었다.

의도 정렬은 항상 개발자에게 주요 도전이었다. 최근 연구에서는 AlpacaEval 및 MT-Bench와 같은 벤치마크의 개발에 중점을 두었다. Zephyr 프레임워크의 개발 동기는 사용자의 의도와 더 잘 일치하는 작은 오픈형 LLM 프레임워크를 생성하는 문제에 기인한다. 이 접근 방식은 교사 모델의 출력을 사용하여 학생 모델에 대한 지도 데이터로 사용한다.

개발자들은 Zephyr-7B 프레임워크를 검증하기 위해 dSFT 또는 Distilled Supervised Fine-Tuning 접근 방식을 사용하였다. 이 프레임워크는 UltraChat 데이터셋을 사용하여 dSFT를 수행하고, 피드백 데이터에 대한 dDPO 또는 Denoising Diffusion Policy Optimization 접근 방식을 적용한다. 실험 결과는 Zephyr-7B 프레임워크가 7억 개의 파라미터를 사용하여 70억 개의 파라미터를 사용하는 인간 피드백과 일치하는 채팅 모델과 비슷한 결과를 생성한다는 것을 보여준다.

위의 그림은 다양한 언어 모델의 MT-Bench 벤치마크 성능을 보여준다. Zephyr-7B 프레임워크는 dDPO 접근 방식을 사용하여 훈련되었으며, 더 큰 언어 모델과 비교하여 비슷한 결과를 생성한다.

제프르-7B: 방법, 작동 및 아키텍처

Zephyr-7B 프레임워크의 주요 목표는 사용자의 의도와 더 가까운 작은 대규모 언어 모델을 생성하는 것이다. 이 프레임워크는 InstructGPT 프레임워크와 유사한 접근 방식을 사용하여 효과적인 학생 모델을 생성한다.

다음 그림은 Zephyr-7B 프레임워크의 세 가지 주요 단계를 보여준다.

자체 지시 스타일을 사용하여 대규모 데이터셋을 생성하는 dSFT.
교사 모델의 앙상블을 사용하여 채팅 모델의 출력을 평가하고, 선호도 이진화 및 점수를 부여한다.
피드백 데이터를 사용하여 dSFT 모델을 개선하는 dPO.

dSFT 또는 증류 지도 미세 조정

Zephyr-7B 프레임워크는 원시 언어 모델을 시작으로 사용자 프롬프트에 응답하도록 훈련한다. 전통적으로 이러한 언어 모델을 훈련하는 것은 지도 미세 조정을 사용하여 높은 품질의 지시와 해당 응답으로 구성된 데이터셋을 사용한다. Zephyr-7B 프레임워크는 교사 언어 모델에 접근할 수 있으므로, 지시와 응답을 생성하고, 모델을 직접 이러한 지시와 응답으로 훈련할 수 있다.

AI 피드백을 통한 선호도

인간 피드백은 언어 모델에 추가적인 신호를 제공할 수 있다. Zephyr 프레임워크는 인간 피드백 대신 교사 모델의 출력을 사용하여 다른 모델의 출력을 평가한다.

이 접근 방식은 UltraFeedback 프레임워크와 유사하며, 교사 모델을 사용하여 모델의 출력을 평가한다.

dDPO 또는 직접 선호도 최적화

dDPO는 Zephyr 프레임워크의 마지막 단계이며, 학생 언어 모델을 사용하여 선호도 모델에서 선호도 응답의 확률을 최대화하는 것을 목표로 한다. 이전 단계에서는 강화 학습 방법을 사용하여 최대 최적화를 달성하였다. 이 단계에서는 보상을 훈련하고, 현재 정책에서 샘플링하여 업데이트를 계산한다.

제프르-7B: 실험, 벤치마크 및 결과

Zephyr 프레임워크는 현재 상태의 Mistral-7B 프레임워크에서 미세 조정을 수행한다. 이 프레임워크는 자연어 처리 작업에서 더 큰 언어 모델과 비슷한 성능을 제공한다.

데이터셋

Zephyr 프레임워크는 두 개의 대화 데이터셋을 사용한다. 이러한 데이터셋은 이전에 효과적인 채팅 모델을 생성하는 데 사용된 프롭리터리 및 오픈 모델의 혼합으로 구성된다.

울트라 채팅

울트라 채팅은 30개 주제와 20개의 텍스트 자료로 구성된 1,500만 개의 다회 대화로 구성된 자체 정제 데이터셋이다. 이 데이터셋은 GPT-3.5-Turbo 프레임워크를 사용하여 생성되었다.

울트라 피드백

울트라 피드백은 64,000개의 프롬프트로 구성된 프롬프트 데이터셋이다. 각 프롬프트에는 4개의 개별 LLM 응답이 있다. Zephyr 프레임워크는 울트라 피드백 데이터셋에서 얻은 평균 점수를 사용하여 이진 선호도를 생성한다.

평가

Zephyr 프레임워크의 성능을 평가하기 위해 개발자들은 두 개의 채팅 벤치마크를 사용한다. 하나는 싱글 턴 벤치마크이고, 다른 하나는 멀티 턴 벤치마크이다.

MT-Bench

MT-Bench 벤치마크는 8개의 고유한 지식 영역으로 구성된 160개의 질문으로 구성된다. 이 벤치마크에서 모델은 초기 질문에 답변하고, 후속 질문에 대한 응답을 제공해야 한다.

알파카 이벌

알파카 이벌은 800개의 질문으로 구성된 싱글 턴 벤치마크이다. 이 벤치마크에서 모델은 사용자 응답을 생성해야 한다.

Zephyr-7B 프레임워크는 또한 오픈 LLM 리더보드, 멀티 클래스 분류 작업, ARC, HellaSwag, MMLU 등에서 평가된다.

결과

Zephyr-7B 프레임워크의 성능을 살펴보겠다.

dDPO 접근 방식이 채팅 능력 향상

다음 표는 Zephyr-7B 프레임워크와 최신 언어 모델의 AlpacaEval 및 MT-Bench 벤치마크 성능을 비교한다.

Zephyr-7B 프레임워크는 dSFT 모델을 상회하며, 오픈 7B 모델과 비교하여 새로운 상태의 아트 표준을 설정한다. 또한 Zephyr-7B 프레임워크는 dPPO 또는 증류 PPO 접근 방식을 사용하여 훈련된 XWIN-LM-7B 프레임워크를 능가한다.

dDPO가 학술 작업 성능 향상

다음 그림은 Zephyr-7B 프레임워크와 다양한 오픈 소스 및 프롭리터리 LLM 프레임워크의 성능을 비교한다.

Zephyr-7B 프레임워크는 7B 파라미터를 사용하는 LLM 프레임워크를 상회하며, dSFT 모델과 비교하여 성능 차이가 있다. 그러나 파라미터 수가 증가함에 따라 Zephyr-7B 프레임워크는 성능이 저하된다.

선호도 최적화

다음 그림은 정렬 프로세스의 각 단계가 성능에 미치는 영향을 평가한다. dDPO 접근 방식은 dSFT와 결합하여 MT-Bench 및 AlpacaEval 데이터셋에서 성능을 크게 향상시킨다.

마지막으로, 다음 그림은 DPO 구현 중 테스트 및 훈련 정확도를 보여준다. DPO 접근 방식은 다운스트림 작업의 성능에 영향을 미치지 않는다.

결론

이 기사에서는 Zephyr-7B 프레임워크에 대해 논의하였다. Zephyr-7B 프레임워크는 현재 상태의 Mistral-7B 프레임워크를 기반으로 하며, 사용자의 의도와 더 가까운 작은 대규모 언어 모델을 생성하는 것을 목표로 한다. Zephyr-7B 프레임워크는 dSFT 및 dDPO 접근 방식을 사용하여 사용자의 의도와 더 잘 일치하는 채팅 모델을 생성한다.

그러나 Zephyr-7B 프레임워크는 완벽하지 않으며, 아직 작업이 필요하다. 한 가지明显한 제한은 MT-Bench 및 AlpacaEval 벤치마크를 평가하기 위해 GPT-4 프레임워크를 사용하는 것이다. Zephyr-7B 프레임워크는 사용자의 의도와 상호작용에 더 잘 일치하는 작은 오픈형 모델의 능력을 탐색하기 위한 길을 열어주기를 희망한다.

Kunal Kejriwal

전문직으로서의 엔지니어, 마음으로서의 작가입니다. Kunal은 AI와 ML에 대한 깊은 사랑과 이해를 가진 기술 작가로, 이러한 분야의 복잡한 개념을 흥미롭고 정보적인 문서를 통해 단순화하는데 헌신하고 있습니다.

Unite.AI

제프르-7B: 언어 모델의 직접 증류 정렬 소개

제프르-7B: 언어 모델의 직접 증류 정렬 소개

제프르-7B: 방법, 작동 및 아키텍처

dSFT 또는 증류 지도 미세 조정

AI 피드백을 통한 선호도

dDPO 또는 직접 선호도 최적화

제프르-7B: 실험, 벤치마크 및 결과

데이터셋

울트라 채팅

울트라 피드백

평가

MT-Bench

알파카 이벌

결과

dDPO 접근 방식이 채팅 능력 향상

dDPO가 학술 작업 성능 향상

선호도 최적화

결론

더 알아보기