Anderson의 관점
언어 모델이 대화에서 길을 잃는 이유

마이크로소프트 연구소와 Salesforce의 새로운 연구에 따르면, 가장 강력한 대형 언어 모델(LLM)도 지침이 한꺼번에 주어지지 않고 여러 단계로 나누어 주어질 때 기능이 저하됩니다. 연구자들은 6가지 작업에서 지침을 여러 차례에 걸쳐 나누어 줄 때 성능이 평균 39% 저하되는 것을 발견했습니다.
더욱 놀라운 것은, 높은 성능의 모델인 ChatGPT-4.1과 Gemini 2.5 Pro도 지침이 어떻게 제시되는지에 따라 거의 완벽한 답변과 명백한 실패를 반복하는 것을 보였습니다. 또한, 출력 일관성이 여러 차례에 걸쳐 줄어드는 것을 확인했습니다.
이러한 현상을 연구하기 위해, 연구자들은 지침을 작은 조각으로 나누어 하나씩 대화에 제공하는 방법을 제시했습니다. 이것은 한꺼번에 주어진 지침과 다르게, 여러 차례에 걸쳐 지침을 제공하는 것을 의미합니다.
초기 테스트에서는 모델이 아직 제공되지 않은 정보를 묻는 경우가 많았으므로, 연구자들은 조각을 고정된 순서로 제공하는 아이디어를 포기했습니다. 대신, 시뮬레이터를 사용하여 대화가 진행되는 동안 어떤 조각을 다음에 제공할지 결정했습니다.
연구자들은 15개의 모델을 테스트했으며, 이는 다양한 제공자와 아키텍처를 포함했습니다. 결과는 모든 모델이 여러 차례에 걸쳐 지침을 제공할 때 성능이 저하되는 것을 보여주었습니다. 또한, 모델의 응답은 동일한 작업에 대해 50점까지 변동하는 경우도 있어, 성능 저하가 모델의 기능이 아닌 일관성의 문제임을 시사했습니다.
연구자들은 이러한 결과가 언어 모델의 근본적인 제한을 나타낸다고 주장했습니다. 또한, 이러한 결과는 언어 모델의 다중 차례 대화 능력이 핵심 기능으로 다루어져야 함을 강조했습니다.
결과적으로, 연구자들은 언어 모델이 대화에서 길을 잃는 현상은 실제 상황에서 더 심할 수 있으며, 언어 모델의 다중 차례 대화 능력은 실제 상황에서 더 중요함을 강조했습니다.










