프롬프트 엔지니어링

체인 오브 사고를 넘어서: 思考 선호도 최적화가 LLMs를 어떻게 발전시키고 있는지

Published October 15, 2024

Updated April 27, 2026

Alex McFarland

메타, UC 버클리, NYU의 연구자 팀이 개발한 획기적인 새로운 기술인 “생각 선호도 최적화” (Thought Preference Optimization, TPO)는 AI 시스템이 일반적인 작업에 접근하는 방식을 향상시키는 것을 약속합니다. 이 방법은 Thought Preference Optimization (TPO)로 알려져 있으며, 대규모 언어 모델 (LLMs)을 더 생각이 깊고 의도적인 응답을 생성하도록 만드는 것을 목표로 합니다.

TPO를 개발한 협력은 AI 연구를 선도하는 몇몇 기관의 전문 지식을 결합합니다.

생각 선호도 최적화의 메커니즘

본질적으로 TPO는 최종 답변을 생성하기 전에 AI 모델이 “생각 단계”를 생성하도록鼓励함으로써 작동합니다. 이 과정은 인간의 인지 과정에서 문제나 질문을 생각한 다음 응답을 제시하는 방식과 유사합니다.

이 기술에는 몇 가지 주요 단계가 포함됩니다:

모델은 질의에 답변하기 전에 생각 단계를 생성하도록 지시받습니다.
여러 개의 출력이 생성되며, 각 출력에는 자신의 생각 단계와 최종 답변 세트가 있습니다.
평가 모델은 생각 단계 자체가 아닌 최종 답변만 평가합니다.
모델은 이러한 평가를 기반으로 선호도 최적화를 통해 훈련됩니다.

이 접근 방식은 이전 기술, 즉 체인 오브 사고 (CoT) 프롬프팅과 크게 다릅니다. CoT는 주로 수학 및 논리 작업에 사용된 반면, TPO는 다양한 유형의 질의 및 지시에 걸쳐 더 넓은 유용성을 갖도록 설계되었습니다. 또한 TPO는 생각 과정에 대한 명시적인 giám sát을 필요로하지 않으므로 모델은 자신의 효과적인思考 전략을 개발할 수 있습니다.

또 다른 주요 차이점은 TPO가 인간의 생각 과정을 포함하는 제한된 훈련 데이터의 도전을 극복한다는 것입니다. 최종 출력에 대한 평가에 중점을 두어 중간 단계가 아닌, TPO는 더 유연하고 다양한思考 패턴이 나타날 수 있도록 합니다.

실험 설정 및 결과

TPO의 효과성을 테스트하기 위해 연구자들은 AI 언어 모델 분야의 두 가지 주요 벤치마크인 AlpacaEval 및 Arena-Hard를 사용하여 실험을 수행했습니다. 이러한 벤치마크는 다양한 작업에서 AI 모델의 일반적인 지시 따르기 능력을 평가하도록 설계되었습니다.

실험에서는 Llama-3-8B-Instruct를 시드 모델로 사용했으며, 평가를 위해 다른 판단 모델을 사용했습니다. 이 설정은 연구자들이 TPO의 성능을 기준 모델과 비교하고 다양한 작업 유형에 대한 영향을 평가할 수 있도록 허용했습니다.

이러한 실험의 결과는 여러 범주에서 향상을 보여주었으며, 다음과 같은 내용을 포함합니다:

추론 및 문제 해결: 예상대로, TPO는 논리적思考 및 분석이 필요한 작업에서 향상을 보여주었습니다.
일반 지식: 흥미롭게도, 이 기술은 사실 정보와 관련된 질의에 대한 성능도 향상시켰습니다.
마케팅: 아마도驚くことですが, TPO는 마케팅 및 판매와 관련된 작업에서 향상된 능력을 보여주었습니다.
창의적 작업: 연구자들은 창의적 글쓰기와 같은 분야에서 잠재적인 이점을 관찰했으며, “생각”이 창의적 출력을 계획하고 구조화하는 데 도움이 될 수 있다고 제안했습니다.

이러한 향상은 전통적으로 추론에 중점을 둔 작업에만 국한되지 않았으며, TPO가 다양한 응용 프로그램에서 AI 성능을 향상시킬 수 있는 잠재력을 가지고 있음을 나타냅니다. AlpacaEval 및 Arena-Hard 벤치마크의 승률은 기준 모델과 비교하여 상당한 향상을 보여주었으며, TPO는 훨씬 더 큰 언어 모델과 비교하여 경쟁력 있는 결과를 달성했습니다.

그러나 현재 TPO의 구현은 일부 제한을 보여주었으며, 특히 수학 작업에서 그렇습니다. 연구자들은 수학 문제에 대한 성능이 기준 모델과 비교하여 실제로 감소했다는 것을 관찰했으며, 이는 특정 도메인에 대한 추가적인 개선이 필요할 수 있음을 시사합니다.

AI 개발에 대한 영향

다양한 범주에서 성능을 향상시키는 TPO의 성공은 AI 응용 프로그램에 대한 흥미로운 가능성을 열어줍니다. 전통적인 추론 및 문제 해결 작업을 넘어서, 이 기술은 창의적 글쓰기, 언어 번역 및 콘텐츠 생성에서 AI 능력을 향상시킬 수 있습니다. AI가 복잡한 프로세스를 통해 생각한 후 출력을 생성하도록 허용함으로써, 우리는 이러한 분야에서 더 정교하고 상황에 맞는 결과를 볼 수 있습니다.

고객 서비스에서 TPO는 채팅봇 및 가상 어시스턴트가 더 생각이 깊고 포괄적인 응답을 생성하도록 할 수 있으며, 이는 사용자 만족도를 높이고 인간의 개입 필요성을 줄일 수 있습니다. 또한, 데이터 분석의 영역에서 이 접근 방식은 AI가 데이터셋에서 결론을 내리기 전에 여러 관점과 잠재적인 상관관계를 고려할 수 있도록 허용하여, 더 통찰력 있고 신뢰할 수 있는 분석을 가능하게 할 수 있습니다.

약속하는 결과에도 불구하고, TPO는 현재 형태에서 몇 가지 도전을 직면합니다. 수학 작업에서 관찰된 하락은 이 기술이 모든 도메인에서 보편적으로 유익하지 않을 수 있음을 시사합니다. 이 제한은 TPO 접근 방식에 대한 도메인별 개선의 필요성을 강조합니다.

또 다른重大한 도전은 계산 오버헤드의 잠재적인 증가입니다. 여러 생각 경로를 생성하고 평가하는 과정은 처리 시간과 리소스 요구를 потен적으로 증가시킬 수 있으며, 이는 신속한 응답이 중요한 시나리오에서 TPO의 적용 가능성을 제한할 수 있습니다.

또한, 현재 연구는 특정 모델 크기에 중점을 두었으며, 이는 TPO가 더 큰 또는 더 작은 언어 모델로 확장하는 방법에 대한 질문을 제기합니다. 또한, “過度思考”의 위험이 있습니다. – 과도한 “생각”은 단순한 작업에 대한 복잡하거나過度하게 복잡한 응답으로 이어질 수 있습니다.

작업의 복잡성에 따라 생각의 깊이를 균형있게 조절하는 것이 향후 연구 및 개발의 핵심 영역이 될 것입니다.

미래 방향

향후 연구의 하나의 주요 영역은 AI의 생각 과정을 길이와 깊이를 제어하는 방법을 개발하는 것입니다. 이것은 작업의 복잡성에 따라 모델이 생각의 깊이를 동적으로 조정하도록 허용할 수 있습니다. 연구자들은 사용자 정의 매개변수를 탐색하여 사용자가 다른 응용 프로그램에 대한 원하는 생각 수준을 지정할 수 있도록 할 수 있습니다.

효율성 최적화는 이 영역에서 결정적입니다. 철저한 고려와 신속한 응답 시간 사이의 최적의 지점을 찾는 알고리즘을 개발하면 TPO의 실제 적용 가능성을 크게 향상시킬 수 있습니다.

AI 모델이 크기와 능력에서 계속 성장함에 따라, TPO가 모델 크기와 함께 확장하는 방식을 조사하는 것이 중요할 것입니다. 향후 연구 방향에는 다음이 포함될 수 있습니다:

최근의 대규모 언어 모델에서 TPO를 테스트하여 더 발전된 AI 시스템에서 इसक의 영향에 대한 평가
더 큰 모델이 생각 생성 및 평가를 위한 다른 접근 방식을 필요로 하는지 조사
TPO가 더 작은 모델과 더 큰 모델 사이의 성능 격차를 메울 수 있는 잠재력을 탐색

이러한 연구는 더욱 정교한 AI 시스템을 개발하는 데 도움이 될 수 있으며, 이러한 시스템은 복잡한 작업을 효율성과 정확성을 유지하면서 처리할 수 있습니다.

결론

생각 선호도 최적화는 대규모 언어 모델의 능력을 향상시키는 데 중요한 단계를 나타냅니다. AI 시스템이 “말하기 전에 생각하도록”鼓励함으로써, TPO는 다양한 작업에서 향상을 보여주었으며, 이는 AI 개발 방식을 혁신할 수 있습니다.

이 분야의 연구가 계속 진행됨에 따라, 우리는 이 기술의 추가적인 개선과 제한된 영역의 확장을 기대할 수 있습니다. AI의 미래는 정보를 처리하는 것뿐만 아니라, 더 인간적인 인지 프로세스에 참여하는 시스템이 포함될 수 있으며, 이는 더 정교하고 상황에 맞는 결과를 생성하여 궁극적으로 더 유용한 인공 지능을 이끌어낼 것입니다.