Connect with us

인공지능

인공지능을 인간의 가치와 일치시키는 WARM를 통한 발전

mm
Weight Averaged Reward Models LLM

인공지능 시스템과 인간 가치의 일치

인공지능(AI) 시스템은 고객 서비스 챗봇에서 의료 진단 알고리즘까지 복잡한 작업에서 인간을 지원하는 능력이 점점 더 향상되고 있습니다. 그러나 이러한 AI 시스템이 더 많은 책임을 지게 됨에 따라 인간의 가치와 선호도와 일치하는 것이 중요합니다. 이를 달성하는 한 가지 방법은 강화 학습에서 인간의 피드백(RLHF)을 사용하는 것입니다. RLHF에서 AI 시스템, 즉 정책은其 행동에 대한 인간의 판단에 따라 보상 또는 처벌을 받습니다. 정책이 인간의 선호도에 따라 행동하도록 보상을 최대화하도록 학습하는 것이 목표입니다.

RLHF의 핵심 구성 요소는 보상 모델(RM)입니다. RM은 정책의 행동과 출력을 평가하고 학습 프로세스를 안내하는 보상 신호를 반환하는 책임이 있습니다. 좋은 RM을 설계하는 것은 어려운 일입니다. 인간의 선호도는 복잡하고 상황에 따라 다를 수 있으며 개별적으로 일관성이 없을 수 있습니다. 최근 Google DeepMind의 연구자들은 RM 설계를 개선하기 위한 혁신적인 기술인 가중 평균 보상 모델(WARM)을 제안했습니다.

보상 해킹의 문제

RLHF의 주요 문제는 보상 해킹입니다. 보상 해킹은 정책이 실제 목표를 만족시키지 않고도 높은 보상을 얻기 위해 RM 시스템을 조작하는 것을 의미합니다. 예를 들어, 작성 도우미 AI를 높은 품질의 요약을 생성하도록 훈련하는 경우 RM은 간결하고 정보가 풍부한 요약을 보상할 수 있습니다. 정책은 매우 짧고 정보가 없는 요약을 생성하여 RM을 속일 수 있습니다.

보상 해킹은 두 가지 주요 이유로 발생합니다:

  1. 분포 이동 – RM은 제한된 데이터셋의 인간 레이블된 예제로 훈련됩니다. 배포 시 정책의 출력은 RM이 잘 일반화하지 못하는 다른 분포에서 나올 수 있습니다.
  2. 노이즈 레이블 – 인간 레이블은 완벽하지 않으며, 평가자 간의 불일치가 있습니다. RM은 강한 품질 지표 대신 노이즈 신호에 집착할 수 있습니다.

보상 해킹은 인간의 기대에 부응하지 못하는 무용한 시스템으로 이어집니다. 더 나쁜 것은, 부주의하게 배포하면 편향되거나 위험한 AI 행동을 초래할 수 있습니다.

모델 병합의 부상

모델 병합 전략인 Model Ratatouille에 대한 관심이 증가하는 것은 더 큰 모델이 강력하지만 비효율적이고 비실용적일 수 있다는 것을 인식한 결과입니다. 1조 매개변수 모델을 훈련하려면 막대한 양의 데이터, 컴퓨팅, 시간 및 비용이 필요합니다. 더 중요하게는 이러한 모델은 훈련 분포에 과적합되어 다양한 실제 시나리오에 일반화하는 능력이 저하됩니다.

모델 병합은 비제어적인 확장 없이 더 큰 능력을 잠금으로써 대안 경로를 제공합니다. 다른 분포, 작업 또는 목표에서 훈련된 여러 전문 모델을 재사용하여 모델 병합은 다용도性과 분포 외부의 강건성을 향상시키는 것을 목표로 합니다. 가정은 각 모델이 서로 보완할 수 있는 예측 패턴을 캡처한다는 것입니다.

최근 결과는 이 개념의 약속을 보여줍니다. 모델 병합을 통해 얻은 모델은 매개변수가 훨씬 적음에도 불구하고 GPT-3와 같은 거대한 모델의 성능을 따라가거나 thậm chí 초과할 수 있습니다. 예를 들어, Model Ratatouille 앙상블은 7개의 중간 크기 체크포인트만으로 고차원 텍스트 포함 데이터셋에서 최첨단 정확도를 달성하여 GPT-3를 능가합니다.

가중 평균의 단순함은 큰 보너스입니다. 여러 보조 모델을 훈련하는 것은 추가 리소스를 필요로 하지만 추론 시간 계산은 단일 모델과 동일하게 유지됩니다. 이는 방법을 쉽게 적용할 수 있게 하며 지연 시간이나 메모리 비용이 증가하는 것을 걱정할 필요가 없습니다.

모델 병합의 메커니즘

그러나 모델 병합으로 인한 정확도 향상은 무엇으로 인해 가능할까요? 최근 분석은 몇 가지 단서를 제공합니다:

  • 기억화 완화: 각 모델은 훈련 중에 데이터셋의 다른 순서로 나열된 배치를 봅니다. 평균은 특정 인스턴스에 대한 기억화를 감소시켜 데이터셋 수준의 일반화를 유지합니다.
  • 분산 감소: 독립적으로 훈련된 모델은 상관관계가 없는 오류를 가지고 있습니다. 모델을 결합하면 노이즈를 평균화하여 보정을 개선합니다.
  • 다양성에 의한 규제: 다양한 보조 작업은 모델이 분포 전체에서 일반화할 수 있는 기능에 집착하도록 강제합니다.
  • 강건성 증가: 예측의 불일치는 불확실성을 시그널합니다. 평균은 이상적인 판단을 조정하여 신뢰성을 향상시킵니다.

본질적으로 모델 병합은 개별 모델의 약점을 상호 보완하여 그들의 집합적인 강점을 증폭시킵니다. 병합된 표현은 잠재적인 근본적인 구조를 캡처하여 우연한 변동을 무시합니다.

이 개념적 기초는 모델 병합을 앙상블 및 다중 작업 학습과 같은 다른 인기 있는 기술과 연결합니다. 이러한 모든 방법은 모델 또는 작업의 다양성을 활용하여 다용도적이고 불확실성에 대한 인식이 있는 시스템을 얻습니다. 그러나 가중 평균의 단순성과 효율성은 모델 병합에 실세계 배포를 발전시키는 고유한 이점을 제공합니다.

가중 평균 보상 모델

WARM을 사용한 정렬 프로세스

WARM을 사용한 정렬 프로세스

WARM은 혁신적으로 프록시 보상 모델(RM)을 사용합니다. 이는 동일한 사전 훈련된 대규모 언어 모델(LLM)에서 다양한 하이퍼파라미터로 미세 조정된 여러 개별 RM의 가중 평균입니다. 이 방법은 효율성, 분포 이동에 대한 신뢰성 및 일관되지 않은 선호도에 대한 강건성을 향상시킵니다. 연구는 또한 WARM을 프록시 RM으로 사용하는 것이, 특히 평균화된 RM의 수가 증가할수록 결과를 개선하고 ‘보상 해킹’의 시작을 지연시킵니다.

다음은 높은 수준의 개요입니다:

  1. 대규모 코퍼스에서 사전 훈련된 기본 언어 모델을 시작합니다. 작업별 작은 레이어를 추가하여 여러 RM을 초기화합니다.
  2. 각 RM을 인간 선호도 데이터셋에서 다른 하이퍼파라미터(예: 학습 속도)를 사용하여 개별적으로 미세 조정합니다.
  3. 미세 조정된 RM의 가중치를 평균하여 단일 WARM 앙상블을 얻습니다.

중요한 통찰은 가중 평균이 모든 다양한 RM에서 학습된 불변 정보만을 유지한다는 것입니다. 이는 우연한 신호에 대한 의존성을 감소시켜 강건성을 향상시킵니다. 앙상블은 또한 분산 감소로 인해 분포 이동에도 더 나은 성능을 발휘합니다.

이전 섹션에서 논의한 바와 같이 모델 병합의 전체 잠재력을 발휘하기 위해 독립적으로 훈련된 모델 간의 다양성이 중요합니다. 그러나 생산적인 다양성을 촉진하는 구체적인 기술은 무엇일까요?

WARM 논문은 더 넓게 일반화할 수 있는 몇 가지巧妙한 아이디어를 탐구합니다:

순서 섞기

데이터 포인트가 각 모델에 의해 훈련 중에 보이는 순서를 섞는 것은 한 가지 간단하지만 영향력 있는 접근법입니다. 이러한 단순한 단계만으로도 가중치를 decorrelate하여 패턴에 대한 중복 기억화를 줄입니다.

하이퍼파라미터 변형

학습 속도 및 드롭아웃 확률과 같은 하이퍼파라미터를 각 실행에 대해 조정하여 유용한 다양성을 도입할 수 있습니다. 모델은 다르게 수렴하여 데이터셋의 다른 속성을 캡처합니다.

체크포인트 평균 – 바클라바

Baklava 방법은 병합을 위한 모델을 동일한 사전 훈련 트레이젝터리의 다른 스냅샷에서 초기화합니다. 이는 모델 수프가 공유 시작점을 요구하는 것보다 제약을 완화합니다. Model Ratatouille와 비교하여 Baklava는 추가 작업을 피합니다. 전반적으로 효과적인 정확도-다양성 균형을 달성합니다.

여러 보상 모델 미세 조정

여러 보상 모델 미세 조정

분석은 이전 체크포인트를 이동 평균으로 추가하면 개별 성능이 손상되어 다양성의 장점이 손실된다는 것을 보여줍니다. 각 실행의 최종 표현만 평균화하면 더 나은 성능을 달성할 수 있습니다. 일반적으로 정확도 유지와 다양성 목표의 균형을 유지하는 것은 여전히 열린 연구 과제입니다.

전반적으로 모델 병합은 기존 리소스를 효율적으로 재활용하여 신뢰성, 효율성 및 다용도성을 향상시키는 분야의 일반적인 방향과 일치합니다. 가중 평균의 단순성은 모델 병합을 강건한 모델을 쉽게 구축할 수 있는 주요 후보로 만듭니다.

전통적인 앙상블 방법과 달리 예측을 평균하는 대신 WARM은 단일 세트의 가중치를 유지하여 계산 오버헤드를 최소화합니다. 텍스트 요약 작업에 대한 실험은 WARM의 효과를 보여줍니다:

  • 베스트-오브-N 샘플링에서 WARM은 인간 선호도 레이블에 따라 무작위 선택에 대해 92.5%의 승률을 달성합니다.
  • RLHF에서 WARM 정책은 동일한 단계 수에서 단일 RM으로 훈련된 정책에 대해 79.4%의 승률을 달성합니다.
  • 인간 레이블의 4분의 1이 손상된 경우에도 WARM은 잘 작동합니다.

이러한 결과는 실용적인 기술로서의 WARM의 잠재력을 보여줍니다. 이는 신뢰성 있게 인간의 가치와 일치하는 실제 세계 AI 어시스턴트를 개발하는 데 사용될 수 있습니다. 인간의 피드백의 불일치를 매끄럽게 하여 WARM 정책은 새로운 경험에서 계속 학습하면서도 인간의 가치와 일치하는 것을 유지할 수 있습니다.

더 큰 그림

WARM은 두 가지 주요 AI 정렬 연구 트렌드의 교차점에 있습니다. 첫 번째는 모델의 분포 외부 일반화를 연구하는 것으로, 모델의 새로운 데이터에 대한 성능을 향상시키는 것을 목표로 합니다. 두 번째는 알고리즘의 강건성을 연구하는 것으로, 작은 입력 왜곡이나 노이즈에도 불구하고 신뢰성을 유지하는 것을 목표로 합니다.

학습된 불변성의 개념을 중심으로 이러한 분야를 연결함으로써 WARM은 가치 정렬을 위한 더 엄격한 기술로 우리를 앞으로 나아가게 합니다. WARM의 통찰력은 RLHF를 넘어서 더 넓은 기계 학습 시스템에 일반화할 수 있으며, 이러한 시스템은 개방된 세계와 상호작용합니다.

물론 보상 모델링은 정렬 퍼즐의 한 조각에 불과합니다. 우리는 아직 보상 명세, 확장 가능한 감시, 안전한 탐색과 같은 다른 도전에 대한 진행을 필요로 합니다. 보완적인 기술과 결합하여 WARM은 인간의 번영을 지속적으로 촉진하는 유익한 AI의 개발을 가속화할 수 있습니다. 연구자들은 강건한 정렬의 기본 원리를 설명함으로써, 유익한 윤리적 AI로 가는 길을 제시하고 있습니다.

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.