Connect with us

Allen AI의 Tülu 3, DeepSeek의 예상치 못한 라이벌이 되다

인공지능

Allen AI의 Tülu 3, DeepSeek의 예상치 못한 라이벌이 되다

mm

헤드라인은 계속 나오고 있다. DeepSeek의 모델은 벤치마크에 도전하고, 새로운 표준을 설정하며, 많은 소음을 일으키고 있다. 그러나 AI 연구 현장에서 흥미로운 일이 발생했는데, 이는 당신의 주목을 끌 만하다.

Allen AI는 조용히 새로운 Tülu 3 모델 패밀리를 출시했으며, 405B 파라미터 버전은 DeepSeek와 경쟁을 하는 것이 아니라 주요 벤치마크에서 이를 따라가거나凌駕하고 있다.

이것을 관점에서 살펴보자.

405B Tülu 3 모델은 DeepSeek V3와 같은 최상위 수행 모델과 다양한 작업에서 경쟁하고 있다. 우리는 수학 문제, 코딩 챌린지, 정밀한 지시 따르기와 같은 분야에서 비교적 또는 우수한 성능을 보이고 있다. 그리고 모두를 완전히 공개된 접근 방식으로 하고 있다.

그들은 완전한 훈련 파이프라인, 코드, 그리고 이 모든 것이 가능하게 한 새로운 강화 학습 방법인 검증 가능한 보상과 함께 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 공개했다.

최근 몇 주간의 이러한 개발은 최상위 AI 개발이 어떻게 진행되는지 변경하고 있다. 완전한 오픈 소스 모델이 외부에 폐쇄된 모델을 따라갈 수 있을 때, 이전에 사적 기업의 벽 뒤에 잠겨 있던 가능성이 열린다.

기술적 전투

Tülu 3가 무엇이 다른가? 이것은 전통적인 접근 방식을 넘어서는 고유한 4단계 훈련 과정에 달린다.

Allen AI가 이 모델을 어떻게 구축했는지 살펴보자:

1단계: 전략적 데이터 선택

팀은 모델의 품질이 데이터 품질에서 시작한다는 것을 알았다. 그들은 WildChatOpen Assistant와 같은 확립된 데이터셋과 사용자 정의 생성 콘텐츠를 결합했다. 그러나 여기에는 핵심 인사이트가 있다. 그들은 단순히 데이터를 집계하지 않았고, 수학적 추론 및 코딩 능력과 같은 특정 기술을 위한 타겟 데이터셋을 생성했다.

2단계: 더 나은 응답 구축

두 번째 단계에서 Allen AI는 모델에 특정 기술을 가르치는 것에 집중했다. 그들은 수학, 코딩, 일반 작업을 위한 다른 훈련 데이터 세트를 생성했다. 이러한 조합을 반복적으로 테스트함으로써, 그들은 모델이 어디에서 우수하고 어디에서 작업이 필요하는지 정확히 볼 수 있었다. 이 반복적인 과정은 Tülu 3가 각 영역에서 달성할 수 있는真正한 잠재력을 보여주었다.

3단계: 비교를 통해 학습

이것이 Allen AI가 창의력을 발휘한 곳이다. 그들은 Tülu 3의 응답을 다른 최상위 모델과 즉시 비교할 수 있는 시스템을 구축했다. 그러나 그들은 또한 AI의 지속적인 문제를 해결했다. 즉, 모델이 길이의 sake를 위해 긴 응답을 작성하는 경향이 있다. 그들의 접근 방식, 즉 길이 정규화된 직접 선호도 최적화(DPO)를 사용함으로써, 모델은 품질을 양보다 가치 있게 학습했다. 결과는 정밀하고 목적 있는 응답이다.

AI 모델이 선호도(어떤 응답이 더 좋습니까, A 또는 B?)를 통해 학습할 때, 그들은 좌절하는 편향을 개발하는 경향이 있다. 즉, 더 긴 응답이 항상 더 좋다고 생각하는 것이다. 그것은 더 많이 말함으로써 이기려고 하는 것과 같다.

길이 정규화된 DPO는 이 문제를 해결한다. 선호도를 통해 모델이 학습하는 방식을 조정한다. 단순히 선호되는 응답을看着 아니라, 각 응답의 길이를 고려한다. 응답의 품질을 단어당으로 판단하는 것과 같다.

왜 이것이 중요한가? 그것은 Tülu 3가 정밀하고 효율적으로 학습하도록 도와주기 때문이다. 응답을 더 완전하게 보이도록 추가 단어를 채우는 대신, 실제로 필요한 길이로 가치를 전달하도록 학습한다.

이것은 작은 세부사항으로 보일 수 있지만, 자연스럽게 의사소통하는 AI를 구축하는 데에는 매우 중요하다. 최고의 인간 전문가들은 언제 간결하고 언제 자세히 설명해야 하는지 알고 있다. 그것이 길이 정규화된 DPO가 모델에게 가르치는 것이다.

4단계: RLVR 혁신

이것은 주목할만한 기술적 돌파구이다. RLVR는 주관적인 보상 모델을 구체적인 검증으로 대체한다.

대부분의 AI 모델은 복잡한 보상 모델 시스템을 통해 학습한다. 즉, 좋은 응답이 무엇인지에 대한 교육된 추측이다. 그러나 Allen AI는 RLVR에서 다른 경로를 선택했다.

현재 AI 모델을 훈련하는 방법을 생각해 보자. 우리는 보통 다른 AI 모델(보상 모델이라고 함)을 사용하여 응답이 좋은지 아닌지 판단해야 한다. 이것은 주관적이며, 복잡하며, 종종 일관성이 없다. 일부 응답은 좋게 보일 수 있지만, 통과하는 미세한 오류가 있을 수 있다.

RLVR는 이 접근 방식을 뒤집는다. 주관적인 판단에 의존하는 대신, 구체적인 검증 가능한 결과를 사용한다. 모델이 수학 문제를 시도할 때, 회색 영역은 없다. 답은 올바르거나 틀린 것이다. 코드를 작성할 때, 코드는 올바르게 실행되거나 실행되지 않는다.

여기에서 흥미로운 점이 있다:

  • 모델은 즉각적인 이진 피드백을 받는다: 올바른 답변에는 10점, 잘못된 답변에는 0점
  • 부분적인 점수나 애매한 평가가 없다
  • 학습이 집중되고 정확해진다
  • 모델은 올바른 응답보다 우연히 들리는 응답을 우선순위로 한다

RLVR 훈련 (Allen AI)

결과는 무엇인가? Tülu 3는 정확성이 가장 중요한 작업에서 큰 개선을 보였다. 수학적 추론(GSM8K 벤치마크)과 코딩 챌린지의 성능이 크게 개선되었으며, 지시 따르기도 더 정밀해졌다. 모델은 구체적인 정확성을 가치 있게 학습했다.

이것이 특히 흥미로운 것은 오픈 소스 AI에 대한 게임을 변경한다는 것이다. 이전 접근 방식은 기술적인 작업에서 폐쇄된 모델의 정확성을 따라가지 못하는 경우가 많았다. RLVR는 오픈 소스 모델이 동일한 수준의 신뢰성을 달성할 수 있음을 보여준다.

숫자를 살펴보자

405B 파라미터 버전의 Tülu 3는 분야의 최상위 모델과 직접 경쟁한다. 어디에서 우수하고, 오픈 소스 AI에 대한 의미는 무엇인지 살펴보자.

수학

Tülu 3는 복잡한 수학적 추론에 탁월하다. GSM8K와 MATH와 같은 벤치마크에서 DeepSeek의 성능을 따라간다. 모델은 다단계 문제를 다루고, 강력한 수학적 추론 능력을 보여준다.

코드

코딩 결과는同樣으로 인상적이다. RLVR 훈련 덕분에 Tülu 3는 문제를 효과적으로 해결하는 코드를 작성한다. 그 강점은 코딩 지시를 이해하고 기능적인 솔루션을 생성하는 것이다.

정밀한 지시 따르기

모델의 지시 따르기 능력은 핵심 강점으로 돋보인다. 많은 모델이 근사하거나 일반화하는 반면, Tülu 3는 정확히 요청된 것을 실행하는 정밀함을 보여준다.

AI 개발의 블랙 박스 열기

Allen AI는 강력한 모델과 개발 프로세스를 모두 공개했다.

훈련 프로세스의 모든 측면이 문서화되고 접근 가능하다. 4단계 접근 방식, 데이터 준비 방법, RLVR 구현 – 모든 프로세스가 연구와 복제를 위해 공개되어 있다. 이 투명성은 고성능 AI 개발의 새로운 표준을 설정한다.

개발자는 포괄적인 리소스를 받는다:

  • 완전한 훈련 파이프라인
  • 데이터 처리 도구
  • 평가 프레임워크
  • 구현 사양

이로 인해 팀은:

  • 훈련 프로세스를 수정
  • 특정需求에 맞게 방법을 조정
  • 검증된 접근 방식에 기반
  • 전문적인 구현을 생성

이 오픈 접근 방식은 분야 전반의 혁신을 가속화한다. 연구자들은 검증된 방법을 기반으로 구축할 수 있으며, 개발자는 시작부터가 아닌 개선을 집중할 수 있다.

오픈 소스 우수성의 부상

Tülu 3의 성공은 오픈 소스 AI 개발에 큰 순간이다. 오픈 소스 모델이 사적 대안을 따라가거나凌駕할 때, 이는 산업을 근본적으로 변경한다. 전 세계 연구 팀은 검증된 방법에 접근할 수 있으며, 그들의 작업을 가속화하고, 새로운 혁신을 생성한다. 사적 AI 연구소는 적응해야 한다. 즉, 투명성을 증가시키거나 기술적 경계를 더욱 आग으로 밀어붙이는 것이다.

미래를 내다보면, Tülu 3의 검증 가능한 보상과 다단계 훈련에서의 돌파구는 무엇을 예상할 수 있는지 보여준다. 팀은 이 기초 위에 구축할 수 있으며, 성능을 더욱 높일 수 있다. 코드가 존재하며, 방법이 문서화되어 있으며, 새로운 AI 개발의 물결이 시작되었다. 개발자와 연구자에게는 이러한 방법을 실험하고 개선할 수 있는 기회가 마련된 것이며, 이는 AI 개발의 흥미로운 장을 표시한다.

Tülu 3에 대한 자주 묻는 질문 (FAQ)

Tülu 3는 무엇이며, 주요 특징은 무엇인가?

Tülu 3는 Allen AI에서 개발한 오픈 소스 LLM 패밀리로서, Llama 3.1 아키텍처를 기반으로 한다. 다양한 크기(8B, 70B, 405B 파라미터)로 제공된다. Tülu 3는 지식, 추론, 수학, 코딩, 지시 따르기, 안전성과 같은 다양한 작업에서 개선된 성능을 위해 설계되었다.

Tülu 3의 훈련 프로세스는 무엇이며, 어떤 데이터를 사용하는가?

Tülu 3의 훈련에는 여러 핵심 단계가 있다. 첫째, 팀은 다양한 프롬프트의 다양성을 보장하기 위해 공개 데이터셋과 합성 데이터를 결합한다. 둘째, 수퍼바이즈드 파인튜닝(SFT)을 수행하며, 이는 지시 따르기, 수학, 코딩 데이터의 혼합에 대해 수행된다. 셋째, 직접 선호도 최적화(DPO)가 선호도 데이터를 통해 수행되며, 이는 인간과 LLM 피드백을 통해 생성된다. 마지막으로, 검증 가능한 보상과 함께 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)이 수행된다. Tülu 3는 각 단계에서 데이터셋을 사용하며, 이는 수학적 추론 및 코딩 능력과 같은 특정 기술을 위한 타겟 데이터셋을 포함한다.

Tülu 3는 안전성에 어떻게 접근하며, 어떤 지표를 사용하여 평가하는가?

안전성은 Tülu 3 개발의 핵심 구성 요소로서, 훈련 프로세스 전반에 걸쳐 해결된다. 안전성에 특화된 데이터셋이 SFT 동안 사용되며, 이는 다른 작업 지향 데이터와 대부분 직교한다.

RLVR는 무엇인가?

RLVR는 모델이 검증 가능한 보상, 즉 정답의 정확성과 같은 것을 최적화하도록 훈련하는 기술이다. 이것은 전통적인 RLHF가 사용하는 보상 모델과 다르다.

Alex McFarland은 인공 지능의 최신 개발을 탐구하는 AI 저널리스트이자 작가입니다. 그는 전 세계의 수많은 AI 스타트업과 출판물들과 협력했습니다.