인공지능

최고의 AI 모델은 긴 문서에서 길을 잃고 있다

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

LMU 뮌헨, 뮌헨 머신 러닝 센터, 애드비 연구소의 연구자들이 수행한 새로운 연구에 따르면 AI 언어 모델에는 약점이 있다. 이 약점은 긴 문서를 이해하는 데 어려움을 겪는다는 것이다. 연구 팀의 연구 결과는 가장 발전된 AI 모델도 단순한 단어 일치에 의존할 수 없을 때 정보를 연결하는 데 어려움을 겪는다는 것을 보여주었다.

AI의 독해 능력에 대한 숨겨진 문제

긴 연구 논문에서 특정 세부 정보를 찾는 것을 상상해 보라. 당신은 그것을 스킵하면서 다른 섹션 사이의 정신적 연결을 만들면서 필요한 정보를 조각조각으로 모을 수 있다. 많은 AI 모델은 사실 이러한 방식으로 작동하지 않는다. 대신,它们은 종종 Ctrl+F를 사용하는 것과 유사한 정확한 단어 일치를 찾는 데 크게 의존한다.

연구 팀은 다양한 AI 모델을 테스트하기 위해 NOLIMA(No Literal Matching)라는 새로운 벤치마크를 개발했다. 결과는 AI 모델이 2,000 단어 이상의 텍스트를 다룰 때 성능이 급격히 떨어진다는 것을 보여주었다. 32,000 단어(약 2만 단어)에 도달했을 때, 즉 짧은 책의 길이에는 대부분의 모델이 일반적인 능력의 절반으로 수행되었다. 이는 GPT-4o, Gemini 1.5 Pro, Llama 3.3 70B와 같은 주요 모델을 테스트한 결과이다.

의료 연구자가 환자 기록을 분석하기 위해 AI를 사용하거나 법률 팀이 사례 문서를 검토하기 위해 AI를 사용하는 경우를 고려해 보라. AI가 관련 정보를 사용하는 단어가 검색 쿼리와 다르기 때문에 중요한 연결을 놓칠 경우 결과는 상당할 수 있다.

단어 일치가 충분하지 않은 이유

현재 AI 모델은 텍스트를 처리하기 위해 주의 메커니즘을 사용한다. 이 시스템은 AI가 단어와 아이디어 사이의 관계를 이해하기 위해 텍스트의 다른 부분에 집중하는 데 도움이 된다. 짧은 텍스트에서 작업할 때 이것은 충분히 잘 작동한다. 그러나 연구에 따르면 이 메커니즘은 텍스트가 길어지면서 특히 정확한 단어 일치를 의존할 수 없을 때 압도당한다.

NOLIMA 테스트는 단어를 일치시키는 것보다 맥락을 이해하는 데 필요한 답변을 요구하는 질문을 AI 모델에 묻는 것으로 이 제한을暴露했다. 결과는 명료했다. 모델은 짧은 텍스트에서 잘 수행했지만 텍스트 길이가 증가함에 따라 이러한 연결을 만드는 능력이 크게 떨어졌다. 추론 작업을 위한 특수 모델은 50% 미만의 정확도로 더 긴 문서를 다루었다.

단어 일치의 지지대 없이, AI 모델은 어려움을 겪었다:

다른 용어를 사용하는 관련 개념을 연결
다단계 추론 경로를 따르기
핵심 컨텍스트 이후에 나타나는 관련 정보를 찾기
관련 없는 섹션의 잘못된 단어 일치를 무시

숫자는 이야기를告诉한다

연구 결과는 AI 모델이 긴 텍스트를 처리하는 방식에 대한 생생한 그림을 그려낸다. GPT-4o는 약 6,000 단어(8,000 토큰)까지 효과성을 유지하면서 가장 강력한 성능을 보였다. 그러나 이 최상위 모델은 더 긴 텍스트에서 상당한 성능 저하를 보였다. 다른 모델, Gemini 1.5 Pro 및 Llama 3.3 70B를 포함하여 2,000에서 8,000 토큰 사이에서 급격한 성능 저하를 경험했다.

성능 저하는 다단계 추론이 필요한 작업에서 더욱 두드러졌다. 예를 들어, 모델이 두 개의 논리적 연결을 만들어야 하는 경우 – 특정 도시의 특정 랜드마크 근처에 사는 캐릭터를 이해하고, 그 랜드마크가 특정 도시에 있다는 것을 이해하는 경우 – 성공률은 크게 떨어졌다. 연구에 따르면 이러한 종류의 다단계 추론은 16,000 토큰을 초과하는 텍스트에서 특히 어려웠다. 이는 Chain-of-Thought 프롬프트와 같은 기술을 사용하여도 마찬가지였다.

이 발견이 특히 주목할 만한 것은 현재의 AI 모델이 긴 컨텍스트를 처리하는 능력에 대한 주장을 도전한다는 것이다. 많은 모델은 광범위한 컨텍스트 창을 지원하지만 NOLIMA 벤치마크는 실제 이해도가 이러한 이론적 한계에 도달하기 훨씬 전에 떨어진다는 것을 보여준다.

출처: Modarressi et al.

AI가 숲을 보지 못하는 경우

이러한 제한은 실제 응용 프로그램에서 AI를 사용하는 방식에重大한 영향을 미친다. 사례 법률을 검색하는 법률 AI 시스템을 고려해 보라. 검색 쿼리와 다른 용어를 사용하는 관련 사전례를 놓칠 수 있다. 시스템은 대신 검색 용어와 더 많은 단어를 공유하는 덜 관련된 사례에 집중할 수 있다.

검색 및 문서 분석에 대한 영향은 특히 우려스럽다. 현재 AI 기반 검색 시스템은 Retrieval-Augmented Generation(RAG)라는 기술을 종종 사용한다. 이러한 시스템은 문서를 성공적으로 검색하여 올바른 정보를 포함하는 경우에도 AI가 관련성을 인식하지 못할 수 있다. 대신 AI는 검색 용어와 더 많은 단어를 공유하는 덜 관련된 문서로 끌릴 수 있다.

AI 사용자에게 이러한 발견은 몇 가지 중요한 고려 사항을 제시한다:

첫째, 더 짧은 쿼리와 문서는 더 신뢰할 수 있는 결과를 제공할 수 있다. 더 긴 텍스트에서 작업할 때, 더 작은Logical 세그먼트로 나누는 것이 AI 성능을 유지하는 데 도움이 될 수 있다.

둘째, 사용자는 긴 문서에서 연결을 만들 때 특히 주의해야 한다. 연구에 따르면 AI 모델은 다른 섹션에서 정보를 조각조각으로 모으는 데 가장 어려움을 겪는다는 것을 보여준다. 특히 연결이 명확하지 않은 경우이다.

셋째, 이러한 제한은 인간의 감독의 계속적인 중요성을 강조한다. AI 도구는 텍스트를 처리하고 분석하는 데 매우 강력한 도구일 수 있지만, 복잡한 문서에서 중요한 연결을 식별하는 데 전적으로 의존해서는 안 된다. 인간은 긴 텍스트에서 컨텍스트를 유지하고 개념적 연결을 만들 수 있는 능력이 현재의 AI 능력을 초과한다.

이 발견은 AI 기술의 빠른 발전에도 불구하고 이러한 시스템이 정보를 처리하는 방식이 인간과 매우 다르다는 것을 상기시킨다. 이러한 제한을 이해하는 것은 AI 도구를 효과적으로 사용하고 인간의 판단이 여전히 필수적인 경우를 알기 위해 중요하다.

다음은 무엇인가?

긴 텍스트를 처리하는 현재 AI 모델의 능력에 대한 제한을 이해하면 AI 개발의 미래에 대한 중요한 질문을 제기한다. NOLIMA 벤치마크 背后的 연구는 우리의 현재 접근 방식이 긴 구절에서 정보를 처리하는 방식에 대한重大한 개선을 필요로 할 수 있음을 보여주었다.

현재의 해결책은 부분적인 성공만을 보였다. Chain-of-Thought 프롬팅은 AI 모델이 추론을 단계적으로 분해하도록鼓励하여 성능을 약간 개선하는 데 도움이 된다. 예를 들어, 이 기술을 사용할 때 Llama 3.3 70B는 더 긴 컨텍스트를 다루는 능력이 향상되었다. 그러나 이 접근 방식은 16,000 토큰을 초과하는 텍스트에서 여전히 부족하여 더 근본적인 해결책이 필요하다는 것을 시사한다.

현재 AI 모델이 텍스트를 처리하는 데 사용되는 주의 메커니즘은 재고가 필요하다. 이것을 시끄러운 방에서 대화를 시도하는 것과 비슷하다. 대화가 길어질수록 이전에 언급된 모든 중요한 점을 추적하기가 더 어려워진다. 우리의 현재 AI 모델은 훨씬 더 큰 규모에서 유사한 도전을 직면한다.

미래를 향해, 연구자들은 몇 가지 유망한 방향을 탐색하고 있다. 하나의 접근 방식은 긴 텍스트에서 정보를 조직하고 우선순위를 지정하는 새로운 방법을 개발하는 것이다. 단순한 단어 일치 대신 의미를 기반으로 아이디어를 연결하여 더 깊은 개념적 연결을 이해하는 것이다. 이것은 인간이 정보를 정신적으로 맵핑하는 방식과 비슷할 수 있다.

개발의 또 다른 영역은 AI 모델이 “潜在적인 홉”을 처리하는 방식을 개선하는 데 중점을 둔다. 이는 다른 정보 조각을 연결하는 데 필요한 논리적 단계이다. 현재 모델은 특히 긴 텍스트에서 이러한 연결을 만들 때 어려움을 겪지만 새로운 아키텍처는 이 격차를 메울 수 있다.

현재 AI 도구를 사용하는 사람들에게 이러한 발견은 몇 가지 실제 접근 방식을 제안한다:

AI와 함께 작업할 때 더 긴 문서를 의미 있는 세그먼트로 나누는 것을 고려한다. 이것은 중요한 컨텍스트를 유지하는 논리적인 섹션을 생성하는 데 도움이 된다. 예를 들어, 연구 논문을 분석할 때, 방법론과 결과 섹션을 함께 유지하는 것이 유용할 수 있다. 이러한 섹션은 종종 관련 정보를 포함하기 때문이다.

AI가 더 긴 텍스트를 분석할 때, 연결을 만들 때 특히 구체적이어야 한다. 광범위한 질문을 하는 대신, 관심 있는 관계를 탐색하기 위해 AI를 안내한다. 이것은 모델이 독립적으로 이러한 연결을 만드는 데 현재의 제한을 보완하는 데 도움이 된다.

아마도 가장 중요하게, 긴 텍스트에서 AI의 능력에 대해 현실적인 기대를 유지한다. 이러한 도구는 많은 작업에 대해 매우 유용할 수 있지만, 복잡한 문서의 완전한 대체品으로 처리해서는 안 된다. 인간은 긴 텍스트에서 컨텍스트를 유지하고 개념적 연결을 만들 수 있는 능력이 현재의 AI 능력을 초과한다.

이 분야의 앞날은 도전적이지만 흥미롭다. 이러한 제한을 더 잘 이해할수록, 실제로 긴 텍스트를 이해하는 AI 시스템을 향한 발전을 기대할 수 있다. 그때까지 AI를 효과적으로 사용하는 것은 현재의 제한을 작업하면서 그 강점을 인정하는 것을 의미한다.