인공지능
Zephyr-7B : HuggingFace의 하이퍼 최적화된 LLM, Mistral 7B를 기반으로 구축

소개
대규모 언어 모델(LLM)의 발전은 특히 채팅봇 및 유사한 애플리케이션 개발에서 인공 지능 연구 커뮤니티에 큰 영향을 미쳤습니다. LLaMA와 같은 모델의 출시 이후, 효율적인 미세 조정, 확장된 프롬프트 처리, 검색 보강 생성(RAG) 및 양자화에 대한 연구가 증가했습니다.
LLaMA 모델은 미세 조정 및 프롬프트 컨텍스트화의 새로운 시대를 열었으며, MosaicML의 MPT, Together AI의 RedPajama-INCITE, TII의 Falcon 및 Meta의 Llama 2와 같은 후속 모델의 길을 열었습니다. 각 모델은 고유한 기능을 제공하여 LLM의 전체 기능과 범위를 향상시킵니다.
파리에서 설립된 Mistral AI는 전 Google DeepMind 및 Meta 직원이 설립한 스타트업으로, 첫 번째 제품인 Mistral 7B로 이름을 알렸습니다.
Mistral 7B의 강점은 효율성에 있으며, Llama 2와 같은 피어 모델에 비해 비슷하거나 향상된 기능을 제공하면서 계산 요구가 적습니다.
특히 지침 과제에 최적화된 Mistral 7B Instruct는 Hugging Face와 같은 플랫폼에서 동일한 크기의 다른 모델을 능가하고 거의 두 배의 매개변수가 있는 모델과 경쟁적으로 수행합니다.
이것을 기반으로 Hugging Face는 Zephyr 7B Alpha를紹介했으며, 미세 조정된 Mistral 7B가 실제로 훨씬 더 큰 채팅 모델의 능력을 초과할 수 있으며, 일부 작업에서는 GPT-4와 경쟁할 수 있음을 보여주었습니다. “Alpha”는 시작에 불과했으며, Zephyr 7B 베타가 곧이어 출시되었습니다.
이 기사에서는 Zephyr 7B가 지식 증류 기술을 통해 더 큰 모델의 힘을 활용하여 인간의 지시에 응답하고 일치하는 능력을 어떻게 향상시킬 수 있는지 탐구할 것입니다. 지식 증류는 더 큰 모델에서 학습한 복잡한 패턴을 더 작은 모델에 전달하여 언어 모델링 능력을 희생하지 않고 훈련 요구를 줄이는 기술입니다. 우리는 Hugging Face의 지식 증류 접근 방식을 자세히 살펴보겠습니다.
지식 증류
Zephyr-7B와 같은 모델을 개발하는 데 있어 중요한 혁신은 증류 감독 미세 조정(dSFT)입니다. 이 방법은 더 큰, 더 능숙한 ‘교사’ 모델의 출력을 사용하여 더 작은 ‘학생’ 모델을 훈련시켜서 그들의 정확도를 향상시킵니다. 증류는 다양한 작업에서 오픈 모델을 개선하지만, 교사 모델과 비교한 성능 격차는 여전히 존재합니다.
지식 증류는 기계 학습에서 컴팩트 모델인 ‘학생’이 더 큰, 더 복잡한 ‘교사’ 모델의 성능을 복제하도록 가르치는 기술입니다. 이 기술을 통해 학생 모델이 이전에는 능력 밖의 작업을 수행하도록 할 수 있으며, 교사 모델에서 학습한 세련된 패턴을 전달합니다.
학생 모델은 교사 모델에서 생성된 출력 확률 또는 특징을 훈련시킵니다. 최종 예측뿐만 아니라 이러한 출력을 일치시키는 데 집중합니다. 이를 통해 학생 모델이 교사 모델의 세련된 의사 결정 과정을 학습할 수 있으며, 종종 지面 진리 데이터만으로 훈련할 때보다 성능이 향상됩니다.
과거에 지식 증류는 Hinton의 원래 증류 네트워크와 최근에 DistilBERT와 같은 NLP에서 사용되었습니다. DistilBERT는 BERT 모델을 더 작은, 빠른 버전으로 증류하여 대부분의 원래 언어 이해 능력을 유지했습니다. 또 다른 예는 TinyBERT로, 모바일 또는 에지 디바이스를 위해 크기와 속도를 최적화했습니다.
Zephyr-7B의 경우, 지식 증류는 더 큰 모델의 능력을 7B 매개변수 모델에 주입하는 데 사용됩니다. 이를 통해 Zephyr-7B는 성능과 효율성 사이에서 균형을 이루며, 계산 리소스가 제한된 환경에서 상호작용의 품질과 이해를 희생하지 않고 적합한 모델이 됩니다.
Zephyr-7B를 개발하는 과정에서 연구자들은 완전히 증류를 통해 작은 오픈 LLM을 정렬하는 과제를 해결했습니다. 그들은 AI 피드백에서 교사 모델 앙상블의 선호도 데이터를 사용하여 증류 직접 선호도 최적화(dDPO)라는 접근 방식을 도입했습니다. 이 방법은 인간 주석이 필요하지 않으며 모델 훈련에 필요한 시간과 리소스를 크게 줄입니다.
ZEPHYR-7B 구축
dDPO를 검증하기 위해 연구자들은 Mistral-7B 모델의 정렬 버전인 ZEPHYR-7B를 구축했습니다. 이 과정에는 세 단계가 포함되었습니다:
- UltraChat 데이터셋을 사용한 dSFT: 증류 감독 미세 조정(dSFT)은 더 큰, 더 능숙한 ‘교사’ 모델의 출력을 활용하여 대규모 언어 모델(LLM)을 훈련시키는 고급 방법입니다. 이는 원시 LLM에서 시작하여 사용자 프롬프트에 응답하도록 훈련됩니다. 전통적인 감독 미세 조정(SFT)과 달리 고정 데이터셋을 사용하는 대신, dSFT는 동적 접근 방식을 사용하여 모델 자체가 지침과 응답을 생성합니다. 이 방법은 자체 지침이라고 하며, 교사 모델을 사용하여 응답과 응답에 따라 지침을 개선합니다. 이 과정은 다양한 주제를 나타내는 시드 프롬프트(x₀₁, x₀₂, …, x₀_J)로 시작합니다. 각 프롬프트는 반복적으로 개선됩니다. 주어진 프롬프트 x₀에 대해, 교사 모델은 응답 y₀를 생성하며, 새 지침 x₁은 x₀과 y₀를 기반으로 샘플링됩니다. 최종 데이터셋 C = {(x₁, y₁), …, (x_J, y_J)}는 모델을 미세 조정하는 데 사용됩니다.
- UltraFeedback에서 AI 피드백 데이터 통합: 이 데이터는 모델의 응답을 정제하는 데 중요했습니다. 이 단계에서 모델은 다양한 프롬프트(예: 초콜릿 브라우니를 만드는 방법 설명)에 대한 응답을 생성하며, GPT-4와 같은 더 발전된 모델에 의해 순위가 매겨집니다. 최고 득점 응답(yw)과 임의로 선택된 더 낮은 득점 응답(yl)은 피드백 데이터셋 D를 형성합니다.
- dDPO 적용: 마지막 단계인 증류 직접 선호도 최적화(dDPO)는 dSFT 모델을 선호도 모델에서 선호도 응답의 확률을 최대화하여 정제합니다. 이는 보상 함수 rθ(x, y)를 사용하여 최적의 LLM 정책 π*와 원래 정책 πdSFT를 기반으로 합니다. 최적화 목표는 πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x))로 공식화되며, 이는 훈련 과정을 단순화하기 위해 dSFT 버전의 모델에서 시작하여 각 AIF 트리플을 반복합니다.
remarkably, Zephyr-7B는 인간 피드백과 정렬된 훨씬 더 큰 70B 매개변수 모델과 비교할 수 있는 성능을 달성합니다. 학술 벤치마크와 대화 기능 모두에서 뛰어난 성능을 보여주며, 모델 개발에서 선호도 학습의 효과를 강조합니다. 추가 탐색을 위해 모델, 코드 및 지침은 Hugging Face의 GitHub 리포지토리에서 사용할 수 있습니다.
의도 정렬의 도전
LLM에 대한 주목할 만한 우려는 인간의 의도와의 정렬입니다. 이전 모델은 사용자 선호도와 일치하지 않는 응답을 생성하는 데 종종 실패하여 불확실하거나 관련이 없는 답변을 생성했습니다. 그러나 최근의 벤치마크인 MT-Bench와 AlpacaEval은 이 측면을 정량화하고 개선하는 도구를 제공했으며, 인간 피드백으로 훈련된 사유 모델보다 증류만으로 훈련된 모델의 우수한 성능을 강조했습니다.
평가 방법
Zephyr 7B의 평가에는 모델의 대화 능력을 단일 및 다중 회전 상황에서 평가하는 벤치마크를 포함한 철저한 테스트가 포함되었습니다:
- MT-Bench: 이 다중 회전 벤치마크는 모델이 8개 도메인에 걸쳐 160개의 질문에 응답하도록 요구합니다. 각 응답은 GPT-4에 의해 평가되며, 모델의 최종 점수는 두 라운드의 질문에 걸쳐 평균으로 반영됩니다.
- AlpacaEval: 이 단일 회전 벤치마크에서는 모델이 다양한 주제에 걸쳐 805개의 질문에 대해 제시됩니다. 여기서 모델의 유용성이 중점으로, GPT-4가 응답을 평가하여 비교적 승률을 결정합니다.
추가로, Zephyr 7B는 대화 능력에 직접적인 평가가 아닌 모델의 추론 및 진실성에 대한 통찰력을 제공하는 오픈 LLM 리더보드를 테스트했습니다.
Zephyr 7B는 다양한 크기와 정렬 방법(예: dSFT 또는 dDPO)을 갖는 오픈 및 사유 모델과 비교되었습니다. MT-Bench 및 AlpacaEval에서 새로운 벤치마크를 설정하며, 정렬된 응답을 생성하는 데 효과적임을 보여주었습니다.
SFT 및 DPO 훈련 단계는 여러 에포크와 최적의 성능을 위한 미세 조정 학습률 및 배치 크기를 포함하여 신중하게 구성되었습니다. 최종 Zephyr 모델은 과적합에 저항성이 뛰어난 것으로 나타났으며 실제 작업과 학술 벤치마크에서 향상되었습니다.
데이터셋 및 결과
사용된 데이터셋
Zephyr-7B를 훈련하고 정제하는 데 두 개의 주요 데이터셋이 사용되었습니다. 각 데이터셋은 대화 생성의 다른 측면을 다루었습니다.
UltraChat 데이터셋
- 출처: GPT-3.5-TURBO에서 생성된 대화에서 개발되었습니다.
- 내용: 30개 주제와 20종류의 텍스트 자료에 걸쳐 1,470만개의 다중 회전 대화가 포함되어 있습니다.
- 정제: 데이터셋은 문법적 문제를 수정하기 위한 진실한 구두법 힐링과 필터링을 거쳤습니다. 또한 응답의 유용성을 증가시키고 무용한 프롬프트 구문을 제거했습니다.
UltraFeedback 데이터셋
- 출처: GPT-4에 의해 평가된 프롬프트로 구성되며, 지침을 따르는 것, 정직성 및 유용성에 따라 응답을 평가합니다.
- 내용: 각 4개의 응답을 갖는 64,000개의 프롬프트가 포함되어 있으며, GPT-4에 의해 평가됩니다.
- 이진 선호도: 가장 높은 평균 점수를 가진 응답을 “선택”으로, 나머지 중 임의로 선택된 하나를 “거부”로 선택하여 다양성과 dDPO 과제를 강화합니다.
둘 다 Zephyr-7B를 훈련시키는 데 중요하며, 지침을 따르고, 정직하며, 유용한 인간과 같은 대화를 생성하도록 모델을 교육합니다. 이러한 데이터셋은 Hugging Face Hub에서 사용할 수 있으며, 여기에서 접근할 수 있습니다.
성능 및 결과
아래 차트는 Zephyr 7B의 다양한 작업 범주에서 GPT-3.5-turbo, Claude 1, GPT-4 및 Llama-2-70b-chat와 같은 다른 모델과 비교한 성능을 보여줍니다. 범주는 작성, 인문학, 역할 놀이, 추론, STEM, 추출, 코딩 및 수학을 포함할 수 있습니다.
차트에서 우리는 Zephyr 7B가 어느 도메인에서 뛰어난 성능을 보이고, 어느 도메인에서 개선이 필요할 수 있는지 추론할 수 있습니다. 예를 들어, Zephyr의 라인이 작성 축에서 다른 모델보다 더 멀리 확장된다면, Zephyr가 작성된 콘텐츠 생성에 특히 강하다는 것을 시사합니다. 반대로, 수학 축에서 라인이 중심에 더 가깝다면, 수학 문제 해결에서 상대적인 약점을 나타낼 수 있습니다.
레이더 차트는 Zephyr 7B의 강점과 약점을 식별하는 데 도움이 되며, GPT-4와 같은 더 큰 모델 및 Llama-2-70b-chat와 같은 전문 모델과 비교하여 모델의 위치를 시각적으로 나타냅니다.
MT-Bench 및 AlpacaEval과 같은 두 가지 벤치마크에서 다양한 언어 모델을 비교합니다. 모델은 크기, 정렬 방법(dSFT 또는 dDPO) 및 성능 점수로 평가됩니다. Zephyr 7B는 두 벤치마크에서 높은 점수를 기록하며, 정렬된 응답을 생성하는 데 효과적임을 보여줍니다.
결론
결론적으로, Zephyr-7B의 개발은 샘플링 기반 방법에 의존하지 않고 대규모 언어 모델(LLM)의 대화 능력을 더 작은 모델로 증류하고 정렬할 수 있음을 보여줍니다. AI 피드백을 사용한 직접 선호도 최적화를 통해 Zephyr-7B는 Mistral-7B의 강력한 기반을 활용하여 7B 매개변수 채팅 모델에 대한 새로운 벤치마크를 설정하며, 작은 오픈 소스 모델이 사용자의 의도와 효과적으로 이해하고 응답할 수 있음을展示합니다.
그러나 이 연구는 제한이 없습니다. 벤치마크에 대한 GPT-4의 평가자로서의 의존성은 GPT-4에서 증류된 모델을 선호할 수 있으며, 정확한 응답을 선호할 수 있습니다. 또한 이 방법의 확장성과 더 큰 모델, 예를 들어 LLAMA2-70B,에서 성능 향상은 추가 연구가 필요한 영역입니다. 이러한 제한은 인공 지능 커뮤니티에서 편향되지 않은 평가 방법의 필요성을 강조합니다.
이 연구를 넘어서, 작은 모델이 더 큰 모델의 수준에서 수행할 수 있는 잠재력은 인공 지능을 민주화하여 다양한 애플리케이션에서 더 접근하기 쉽고 효율적인 사용을 허용할 수 있습니다. Zephyr-7B의 성공은 협력 연구와 개발을 촉진할 수 있는 오픈 소스 모델에 대한 추가 탐색을 장려합니다.














