인공지능

EUREKA: 인간 수준의 보상 설계를 위한 대형 언어 모델 코딩

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

최근 몇 년 동안 대형 언어 모델이 달성한 진보로 인해 이러한 LLM 프레임워크가 순차적 고급 결정任务의 의미 계획자로서 탁월한 성능을 발휘하는 것은 놀라운 일이 아닙니다. 그러나 개발자는 여전히 복잡한 저급 조작 작업을 학습하기 위해 LLM 프레임워크의 전체 잠재력을 활용하는 데 어려움을 겪고 있습니다. 효율성이 뛰어나지만, 현재의 대형 언어 모델은 심지어 단순한 스킬을 학습하거나 텍스트 프롬프트를 구성하기 위해 상당한 도메인 및 주제 전문 지식을 요구하며, 이는 그들의 성능과 인간 수준의 민첩성 사이에 상당한 간격을 생성합니다.

이 간격을 메우기 위해, Nvidia, CalTech, UPenn 등의 개발자는 EUREKA라는 LLM 기반 인간 수준 디자인 알고리즘을 도입했습니다. EUREKA는 코드 작성, 컨텍스트 개선, 제로샷 콘텐츠 생성 등의 LLM 프레임워크의 다양한 기능을 활용하여 보상 코드의 최적화를 수행하는 것을 목표로 합니다. 이러한 보상 코드는 강화 학습과 결합되어 프레임워크가 복잡한 스킬을 학습하거나 조작 작업을 수행할 수 있습니다.

이 기사에서는 개발 관점에서 EUREKA 프레임워크를 조사하여 그 프레임워크, 작동 방식, 및 생성된 보상 함수의 결과를 살펴보겠습니다. 개발자에 따르면, 이러한 함수는 인간이 생성한 함수를 능가합니다. 또한 EUREKA 프레임워크가 어떻게 RLHF(인간 피드백을 사용하는 강화 학습)의 새로운 접근 방식을 가능하게 하는지, 즉 그라디언트 없는 컨텍스트 학습을 가능하게 하는지 살펴보겠습니다. 시작해 보겠습니다.

EUREKA : 소개

현재, 최근의 LLM 프레임워크는 GPT-3, GPT-4와 같은 순차적 고급 결정 작업에서 뛰어난 성능을 발휘하지만, 개발자는 여전히 저급 조작 작업을 학습하는 성능을 향상시키는 방법을 찾고 있습니다. 또한, 개발자는 강화 학습이 인간 디자이너에 의해 주의 깊게 구성된 보상 함수를 제공하는 경우, 지속 가능한 결과를 달성할 수 있다고 관찰했습니다. 이러한 보상 함수는 학습 신호를 제공하여 유리한 행동을 생성할 수 있습니다. 그러나 이러한 보상 함수를 설계하는 것은 매우 어렵습니다.

이러한 도전 과제를 해결하고 보상 토큰의 효율성을 최대화하기 위해, EUREKA 또는 Evolution-driven Universal REward Kit for Agent는 다음과 같은 기여를 하기 위해 설계되었습니다.

인간 수준의 보상 함수 설계 성능을 달성합니다.
수동 보상 엔지니어링 없이 조작 작업을 효과적으로 해결합니다.
기존의 RLHF 또는 강화 학습에서 인간 피드백 방법 대신 새로운 그라디언트 없는 컨텍스트 학습 접근 방식을 도입하여 더 인간 중심적이고 성능이 뛰어난 보상 함수를 생성합니다.

EUREKA의 일반성을 향상시키기 위해 개발자가 선택한 세 가지 주요 알고리즘 설계 선택이 있습니다. 진화적 검색, 환경을 컨텍스트로 사용, 및 보상 반영입니다. 첫째, EUREKA 프레임워크는 환경 소스 코드를 컨텍스트로 사용하여 제로샷 설정에서 실행 가능한 보상 함수를 생성합니다. 둘째, 프레임워크는 보상의 질을 크게 개선하기 위해 진화적 검색을 수행합니다. 셋째, 프레임워크는 보상 반영 접근 방식을 사용하여 컨텍스트 내에서 보상을 개선합니다.

EUREKA : 모델 아키텍처 및 문제 설정

보상 형성의 주요 목표는 지面 진실 보상 함수에 대해 형성된 또는 큐레이션된 보상 함수를 반환하는 것입니다. 이는 직접 최적화할 때 어려움을 겪을 수 있습니다. 또한, 디자이너는 이러한 지面 진실 보상 함수에 대한 쿼리만을 사용하여 접근할 수 있습니다.

EUREKA 프레임워크는 세 가지 기본 알고리즘 구성 요소로 구성됩니다. 진화적 검색, 환경을 컨텍스트로 사용, 및 보상 반영입니다. 이러한 구성 요소는 보상을 생성하고 개선하는 데 사용됩니다.

환경을 컨텍스트로 사용

현재, LLM 프레임워크는 보상을 설계하기 위해 환경 사양을 입력으로 요구합니다. 그러나 EUREKA 프레임워크는 원시 환경 코드를 직접 컨텍스트로 사용하여 보상을 생성합니다.

진화적 검색

EUREKA 프레임워크는 진화적 검색을 통해 보상을 개선합니다. 이 과정은 반복적으로 보상 후보를 제안하고 개선합니다.

보상 반영

EUREKA 프레임워크는 보상 반영을 통해 보상을 개선합니다. 이 과정은 정책 훈련 동적을 요약하여 보상을 개선하는 데 사용됩니다.

훈련 및 기준

EUREKA 프레임워크의 두 가지 주요 훈련 구성 요소는 정책 학습 및 보상 평가 메트릭입니다.

정책 학습

최종 보상 함수는 동일한 강화 학습 알고리즘과 동일한 하이퍼파라미터를 사용하여 최적화됩니다.

보상 평가 메트릭

EUREKA 프레임워크는 인간 정규화 점수를 보고합니다. 이는 프레임워크가 인간이 생성한 보상 함수와 비교하여 성능을 평가하는 데 사용됩니다.

세 가지 주요 기준이 있습니다. L2R, 인간, 및 스파스 기준입니다.

L2R

L2R은 템플릿된 보상을 생성하기 위한 대규모 언어 모델 프롬프트 솔루션입니다.

인간

인간 기준은 강화 학습 연구자가 작성한 원래 보상 함수입니다.

스파스

스파스 기준은 피트니스 함수와 동일하며, 보상 함수의 품질을 평가하는 데 사용됩니다.

결과 및 성과

EUREKA 프레임워크의 성능을 분석하기 위해, 우리는 다양한 매개변수에 대한 성능을 평가할 것입니다.

EUREKA가 인간 보상을 능가함

다음 그림은 다양한 벤치마크에 대한 집계 결과를 보여줍니다. EUREKA 프레임워크는 인간 수준의 보상 함수와 비교하여 뛰어난 성능을 발휘합니다.

시간이 지남에 따라 일관된 개선

EUREKA 프레임워크는 시간이 지남에 따라 일관된 개선을 보여줍니다.

이러한 결과는 EUREKA 프레임워크가 인간 보상을 능가하는 보상을 생성할 수 있음을 보여줍니다.

새로운 보상의 생성

EUREKA 프레임워크는 새로운 보상을 생성할 수 있습니다.

타겟된 개선

EUREKA 프레임워크는 타겟된 개선을 허용합니다.

인간 피드백과 협동

EUREKA 프레임워크는 인간 피드백과 협동할 수 있습니다.

이러한 결과는 EUREKA 프레임워크가 인간 보상을 능가하는 보상을 생성할 수 있음을 보여줍니다.

최종 생각

이 기사에서, 우리는 EUREKA라는 LLM 기반 인간 수준 디자인 알고리즘에 대해 논의했습니다. 이 프레임워크는 대형 언어 모델의 다양한 기능을 활용하여 보상을 생성하고 개선합니다. 이러한 보상은 강화 학습과 결합되어 프레임워크가 복잡한 스킬을 학습하거나 조작 작업을 수행할 수 있습니다.

전체적으로, EUREKA 프레임워크의 성능과 유연성은 진화 알고리즘과 대형 언어 모델을 결합하여 보상을 설계하는 일반적인 접근 방식이 될 수 있음을 시사합니다.