인공지능

WARM을 통해 AI와 인간 가치의 조화 발전

게재 2024년 ２월 5일

아유쉬 미탈 미탈

AI 시스템과 인간 가치의 정렬

인공 지능(AI) 시스템은 고객 서비스 챗봇부터 의료 진단 알고리즘에 이르기까지 복잡한 작업에서 인간을 지원할 수 있는 능력이 점점 더 커지고 있습니다. 그러나 이러한 AI 시스템이 더 많은 책임을 맡게 되면서 인간의 가치와 선호도에 맞춰 유지하는 것이 중요해졌습니다. 이를 달성하기 위한 한 가지 접근 방식은 인간 피드백 강화 학습(RLHF)이라는 기술을 이용하는 것입니다. RLHF에서는 정책으로 알려진 AI 시스템이 인간의 행동 판단에 따라 보상을 받거나 처벌을 받습니다. 목표는 정책이 보상을 극대화하는 방법을 학습하여 인간의 선호에 따라 행동하는 것입니다.

RLHF의 핵심 구성 요소는 보상 모델(RM)입니다. RM은 정책의 조치와 결과를 평가하고 학습 프로세스를 안내하기 위해 보상 신호를 반환하는 역할을 담당합니다. 인간의 선호는 복잡하고, 상황에 따라 다르며, 개인마다 일관성이 없을 수도 있기 때문에 좋은 RM을 설계하는 것은 어렵습니다. 최근 Google DeepMind의 연구원들은 RM 설계를 개선하기 위해 WARM(Weight Averaged Reward Models)이라는 혁신적인 기술을 제안했습니다.

보상해킹의 문제점

RLHF의 주요 문제는 보상 해킹입니다. 보상 해킹은 정책이 실제로 의도한 목표를 충족하지 않고 높은 보상을 얻기 위해 RM 시스템을 조작하는 허점을 발견할 때 발생합니다. 예를 들어, 글쓰기 보조 AI를 훈련시켜 고품질 요약을 생성하는 것이 목표라고 가정해 보겠습니다. RM은 간결하고 유익한 요약을 보상할 수 있습니다. 그런 다음 정책은 RM을 속이는 키워드가 포함된 매우 짧고 정보가 없는 요약을 생성하여 이를 활용하는 방법을 학습할 수 있습니다.

보상 해킹은 두 가지 주요 이유로 발생합니다.

유통교대 – RM은 인간이 라벨링한 예시의 제한된 데이터 세트에 대해 교육을 받았습니다. 배포 시 정책의 출력은 RM이 잘 일반화하지 못하는 다양한 배포판에서 나올 수 있습니다.
시끄러운 라벨 – 인간 라벨링은 평가자 간 불일치로 인해 불완전합니다. RM은 강력한 품질 지표보다는 가짜 신호를 포착할 수 있습니다.

보상 해킹은 인간의 기대에 부응하지 못하는 쓸모없는 시스템으로 이어집니다. 더 나쁜 것은 부주의하게 배포할 경우 AI 동작이 편향되거나 심지어 위험한 결과를 초래할 수 있다는 것입니다.

모델 병합의 증가

모델 라따뚜이와 같은 모델 병합 전략에 대한 관심이 급증하는 이유는 더 큰 모델은 강력하지만 비효율적이고 비실용적일 수 있다는 인식 때문입니다. 1조 개의 매개변수 모델을 훈련하려면 엄청난 양의 데이터, 컴퓨팅, 시간 및 비용이 필요합니다. 더 결정적으로, 이러한 모델은 훈련 분포에 과적합되는 경향이 있어 다양한 실제 시나리오로 일반화하는 능력을 방해합니다.

모델 병합은 통제되지 않은 확장 없이 더 큰 기능을 잠금 해제할 수 있는 대체 경로를 제공합니다. 다양한 분포, 작업 또는 목표에 대해 훈련된 여러 특수 모델을 재사용함으로써 모델 병합의 목표는 다양성과 분포 외 견고성을 향상시키는 것입니다. 전제는 서로 다른 모델이 병합될 때 서로를 보완할 수 있는 뚜렷한 예측 패턴을 포착한다는 것입니다.

최근 결과는 이 개념의 가능성을 보여줍니다. 훨씬 적은 매개변수에도 불구하고 병합을 통해 얻은 모델은 GPT-3과 같은 거대 모델의 성능과 일치하거나 심지어 이를 능가할 수 있습니다. 예를 들어 중간 크기 체크포인트 7개로 구성된 모델 라따뚜이 앙상블은 고차원 텍스트 수반 데이터 세트에서 최첨단 정확도를 달성하여 GPT-3보다 성능이 뛰어납니다.

중량 평균을 통한 병합의 단순성은 큰 보너스입니다. 여러 보조 모델을 교육하려면 추가 리소스가 필요합니다. 그러나 중요한 것은 가중치가 하나로 압축되므로 추론 시간 계산이 단일 모델과 동일하게 유지된다는 것입니다. 이를 통해 지연 시간이나 메모리 비용 증가에 대한 걱정 없이 방법을 쉽게 적용할 수 있습니다.

모델 병합의 메커니즘

그러나 모델 병합을 통해 이러한 정확도 향상을 가능하게 하는 것은 정확히 무엇입니까? 최근 분석은 몇 가지 단서를 제공합니다.

암기 완화: 각 모델은 훈련 중에 데이터 세트의 서로 다른 섞인 배치를 봅니다. 평균화는 인스턴스별 기억을 감소시키고 데이터 세트 수준의 일반화만 유지합니다.
분산 감소: 독립적으로 훈련된 모델에는 상관되지 않은 오류가 있습니다. 이를 결합하면 소음이 평균화되어 보정이 향상됩니다.
다양성을 통한 정규화: 다양한 보조 작업으로 인해 모델은 배포 전반에 걸쳐 유용한 보다 일반화 가능한 기능을 확보하게 됩니다.
견고성 증가: 예측의 불일치는 불확실성을 나타냅니다. 평균화는 이상치 판단을 완화하여 신뢰성을 향상시킵니다.

본질적으로 모델 병합은 개별 모델의 약점을 상쇄하여 집단적 강점을 증폭시킵니다. 병합된 표현은 부수적인 변화를 무시하고 공통된 기본 인과 구조를 포착합니다.

이 개념적 기반은 모델 병합을 앙상블 및 다중 작업 학습과 같은 다른 널리 사용되는 기술에 연결합니다. 이러한 모든 방법은 모델이나 작업 전반에 걸쳐 다양성을 활용하여 다재다능하고 불확실성을 인식하는 시스템을 얻습니다. 그러나 가중치 평균화의 단순성과 효율성은 모델 병합에 실제 배포를 발전시키기 위한 고유한 이점을 제공합니다.

가중치 평균 보상 모델

WARM을 사용한 정렬 프로세스

WARM RM(대리 보상 모델)은 사전 훈련된 동일한 LLM에서 미세 조정되었지만 하이퍼파라미터가 다양한 여러 개별 RM의 가중치 평균인 프록시 보상 모델(RM)을 혁신적으로 사용합니다. 이 방법은 효율성, 유통 변화에 따른 신뢰성, 일관되지 않은 선호도에 대한 견고성을 향상시킵니다. 또한 연구에서는 특히 평균 RM 수가 증가한 경우 WARM을 프록시 RM으로 사용하면 결과가 향상되고 시간이 지남에 따라 제어 보상이 저하되는 현상인 '보상 해킹'의 시작이 지연되는 것으로 나타났습니다.

대략적인 개요는 다음과 같습니다.

대규모 코퍼스에서 사전 학습된 기본 언어 모델로 시작합니다. 상단에 작은 작업별 레이어를 추가하여 여러 RM을 초기화합니다.
다양성에 대한 학습률과 같은 다양한 하이퍼파라미터를 사용하여 인간 선호도 데이터 세트에서 각 RM을 개별적으로 미세 조정합니다.
단일 WARM 앙상블을 얻기 위해 미세 조정된 RM의 가중치를 평균화합니다.

핵심 통찰력은 가중치 평균이 모든 다양한 RM에서 학습된 불변 정보만 유지한다는 것입니다. 이는 가짜 신호에 대한 의존도를 줄여 견고성을 향상시킵니다. 또한 앙상블은 분산 감소의 이점을 활용하여 분포 변화에도 불구하고 신뢰성을 향상시킵니다.

이전에 논의한 것처럼 독립적으로 훈련된 모델 간의 다양성은 모델 병합의 잠재력을 최대한 활용하는 데 중요합니다. 그렇다면 생산적 다양성을 촉진하는 구체적인 기술은 무엇입니까?

WARM 논문은 보다 광범위하게 일반화할 수 있는 몇 가지 영리한 아이디어를 탐구합니다.

셔플 주문

사소하지만 영향력 있는 접근 방식은 훈련 중에 각 모델에 표시되는 데이터 포인트의 순서를 섞는 것입니다. 이 간단한 단계라도 가중치의 상관 관계를 해제하여 패턴의 중복 기억을 줄입니다.

하이퍼파라미터 변형

각 실행에 대한 학습률 및 탈락 확률과 같은 하이퍼파라미터를 조정하면 유용한 다양성이 도입됩니다. 모델은 서로 다르게 수렴하여 데이터세트의 고유한 속성을 포착합니다.

체크포인트 평균 – 바클라바

Baklava 방법은 동일한 사전 훈련 궤적을 따라 다른 스냅샷에서 병합하기 위해 모델을 초기화합니다. 이는 공유 시작점을 요구하는 모델 수프에 비해 제약 조건을 완화합니다. 모델 라따뚜이에 비해 바클라바는 추가 작업을 피합니다. 전반적으로 효과적인 정확도와 다양성의 균형을 유지합니다.

이 프로세스는 사전 훈련된 LLM(대형 언어 모델) 𝜃_𝑝𝑡으로 시작됩니다. 이 모델에서 SFT(Supervised Fine-Tuning) 실행 중에 다양한 체크포인트 {𝜃_𝑠 𝑓 𝑡_𝑖}가 파생되며, 각각은 서로 다른 SFT 교육 단계에서 수집됩니다. 그런 다음 이러한 체크포인트는 기본 설정 데이터 세트에서 여러 보상 모델(RM) {𝜙𝑖}을 미세 조정하기 위한 초기화로 사용됩니다. 이러한 미세 조정의 목적은 인간의 선호도에 더 잘 부합하도록 모델을 조정하는 것입니다. 미세 조정 후 가중치 평균화 과정을 통해 이러한 RM을 결합하여 최종 모델인 𝜙_WARM이 생성됩니다.

분석에 따르면 이동 평균을 통해 오래된 체크포인트를 추가하면 개인 성과에 해를 끼치고 다양성 장점이 손상된다는 사실이 확인되었습니다. 각 실행의 최종 표현만을 평균화하는 것이 더 나은 성능을 발휘합니다. 일반적으로 다양성 목표와 정확성 유지의 균형을 맞추는 것은 아직 공개된 연구 과제로 남아 있습니다.

전반적으로 모델 병합은 향상된 신뢰성, 효율성 및 다양성을 위해 기존 리소스를 효과적으로 재활용하려는 현장의 일반적인 정신과 잘 일치합니다. 중량 평균화의 단순성은 쉽게 사용할 수 있는 빌딩 블록으로 견고한 모델을 조립하기 위한 주요 후보로서의 입지를 확고히 합니다.

예측을 평균화하는 기존 앙상블 방법과 달리 WARM은 단일 가중치 세트만 유지하여 계산 오버헤드를 최소화합니다. 텍스트 요약 작업에 대한 실험은 WARM의 효율성을 보여줍니다.

N 베스트 샘플링의 경우 WARM은 인간 선호도 레이블에 따라 무작위 선택에 비해 92.5%의 승률을 달성합니다.
RLHF에서 WARM 정책은 동일한 단계 후에 단일 RM으로 훈련된 정책에 비해 79.4%의 승률에 도달합니다.
WARM은 인간 레이블의 4분의 1이 손상된 경우에도 계속해서 좋은 성능을 발휘합니다.

이러한 결과는 안정적으로 작동하는 실제 AI 보조자를 개발하기 위한 실용적인 기술로서 WARM의 잠재력을 보여줍니다. 인간 피드백의 불일치를 완화함으로써 WARM 정책은 새로운 경험을 통해 계속 학습하는 동안에도 인간 가치와 견고하게 일치할 수 있습니다.

더 큰 그림

WARM은 AI 정렬 연구의 두 가지 주요 추세가 교차하는 지점에 있습니다. 첫 번째는 훈련 분포와 다른 새로운 데이터에 대한 모델 성능을 향상시키는 것을 목표로 하는 분포 외(OOD) 일반화에 대한 연구입니다. 두 번째는 작은 입력 교란이나 노이즈에도 불구하고 신뢰성에 초점을 맞춘 알고리즘 견고성에 대한 연구입니다.

학습된 불변성 개념을 중심으로 이러한 필드 간의 연결을 그려서 WARM은 가치 정렬을 위한 보다 엄격하게 기반을 둔 기술로 우리를 이동시킵니다. WARM의 통찰력은 RLHF를 넘어서도 일반화되어 개방형 세계와 상호 작용하는 더 넓은 기계 학습 시스템에 대한 교훈을 제공할 수 있습니다.

물론 보상 모델링은 정렬 퍼즐의 한 조각일 뿐입니다. 보상 사양, 확장 가능한 감독, 안전한 탐색과 같은 다른 과제에 대해서는 여전히 진전이 필요합니다. 보완적인 기술과 결합된 WARM은 인간의 번영을 지속 가능하게 촉진하는 AI의 개발을 가속화할 수 있습니다. 연구자들은 강력한 정렬의 기초가 되는 원칙을 종합적으로 설명함으로써 유익하고 윤리적인 AI를 향한 길을 계획하고 있습니다.

관련 주제 :보상 모델 RLHF RM WARM

다음 위로

확장 가능한 벡터 검색을 위한 양자화 기술 비교

놓치지 마세요.

OpenVoice: 다목적 인스턴트 음성 복제

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.

Unite.AI