Anderson의 관점

Forgetful AI를 더 오래 ‘그 생각’을 유지하도록 가르치기

Published November 21, 2025

Updated April 25, 2026

Martin Anderson

언어 모델은 대화의 시작 부분을 기억하지 못하는 경우가 많습니다. 새로운 텍스트 압축 방법을 사용하면 이를 변경할 수 있으며 AI 채팅 세션이 훨씬 덜 화나하게 만들 수 있습니다.

대화형 AI 시스템인 ChatGPT와 같은 시스템은 종종 대화의 이전 부분을 잃어버리고 반복하거나 이전에 합의된 규칙을 무시하는 답변을 제공합니다.

이는 대형 언어 모델(LLMs)이 제한된 집중 능력을 가지고 있기 때문으로, 주의를 집중하는 ‘컨텍스트 창’으로 정의됩니다. 손전등과 같은 것으로, 직접照射되는 대상과 인접한 몇 가지 객체만을 비출 수 있습니다.

이러한 ‘기억력 상실’ 성향을 수정하는 것은 언어 기반 AI 모델에 대한 연구의 가장 중요한 방향 중 하나입니다. 특히 이러한 증상은 유용한 다중 회신 대화의 가능성을 심각하게 제한하며, 의료 및 법률과 같은 정확도에 민감한 다양한 상황에서 LLM의 유용성을 제한합니다.

크러싱

중국에서 새로운 연구^†는 AI 모델을 실행하는 GPU의 제한된 리소스로 훨씬 더 많은 텍스트를 맞추는 새로운 방법을 제안하고 있습니다. 결과는 20배의 압축 개선을 달성하면서 98%의 정확도를 유지합니다.

컨텍스트 캐스케이드 압축은 심지어 40배까지 입력을 축소할 때도 DeepSeek-OCR와 같은 광학 압축 방법보다 긴 문서를 더 정확하게 재구성합니다. 다양한 문서 길이와 압축 설정에서 새로운 방법은 거의 완벽한 신뢰도를 유지하는 반면 광학 접근 방식은 더 높은 압축에서 급격히 저하됩니다. 출처

93%의 정확도로 텍스트 압축을 수행할 수 있으며, 이는 작업 가능한 매개변수 내에 있습니다. 텍스트 압축은 심지어 40배 압축 비율을 달성할 수 있습니다.

긴 텍스트를 언어 모델 입력으로 압축하는 세 가지 접근 방식: 기준 방법(왼쪽)은 텍스트를 직접 토큰화하여大量의 토큰 카운트를 생성합니다. 광학 경로(중간)는 텍스트를 이미지로 변환하고 Vision Transformer를 사용하여 시각적 임베딩을 추출하여 10배의 압축을 달성합니다. 새로운 C3 방법(오른쪽)은 작은 언어 모델을 사용하여 텍스트를 32개의 잠재 토큰으로만 압축하여 시각적 인코딩을 사용하지 않고 40배의 압축을 달성합니다.

이는 매우 긴 대화의 전체를 압축하고 간격으로 업데이트하여 대화 중에 배경 컨텍스트 정보로 재사용할 수 있음을 의미합니다. 일반적으로 LLM이 이전 사실을 잊고 ‘기억력 상실’ 행동으로 전환하는 경우입니다.

이 방법은 손실 압축 방법이지만, 손실이 발생하는 방식조차 유용합니다. 새로운 방법에서 메모리는 문장의 끝에서 저하되며, DeepSeek-OCR 아키텍처와 같이 전반적으로 균일하게 저하되지 않습니다. 실제로 새로운 접근 방식을 개발한 연구자들은 자신의 방법이 실제 인간의 기억과 동일한 방식으로 저하된다고 제안합니다.

상단: 인간의 기억은 데이터 스트림의 끝에서 저하됩니다. 중간: DeepSeek-OCR은 임의로 저하되어 문제를 수정하는 데 도움이 될 수 있는錨点이 없습니다. 하단: 새로운 방법은 인간의 기억과 동일한 방식으로 데이터 스트림의 종료로 저하되며, 정확도를 개선하는 데 도움이 될 수 있는錨点을 제공합니다.

상단: 인간의 기억은 데이터 스트림의 끝에서 저하됩니다. 중간: DeepSeek-OCR은 임의로 저하되어 문제를 수정하는 데 도움이 될 수 있는錨点이 없습니다. 하단: 새로운 방법은 인간의 기억과 동일한 방식으로 데이터 스트림의 종료로 저하되며, 정확도를 개선하는 데 도움이 될 수 있는錨점을 제공합니다.

이로 인해 기억된 데이터가 덜 신뢰할 수 있는 위치를 예측할 수 있으며, 이러한 지식을 사용하여 문제를 해결할 수 있습니다. 이는 회상과 일관성에서 잠재적으로 큰 개선을 제공하며, 사후 처리 후 100%의 정확도를 달성할 수 있습니다.

새로운 접근 방식은 컨텍스트 캐스케이드 압축(C3)이라고 하며, DeepSeek-OCR이 텍스트를 이미지로 압축하는 방식에서 영감을 받았습니다. 그러나 두 개의 언어 모델(중간 및 대형)을 사용하여 긴 텍스트를 직접 잠재 임베딩으로 압축하여 새로운 방법은 래스터 이미지 사용으로 인한 마찰을 제거하여 성능을 개선합니다.

논문은 다음과 같이 말합니다:

‘C3의 우수한 성능은 기본적인 아키텍처 설계에 기인합니다. DeepSeek-OCR 분석은 성능 저하가 “복잡한 레이아웃” 및 “저해상도에서 이미지 흐림”과 같은 요인으로 인한 것이라고 가정합니다. – 광학 경로의固有한 제한입니다.

‘우리의 C3 패러다임은 텍스트 도메인에서 직접 작동함으로써 이러한 시각적 도메인 아티팩트에 완전히 면역입니다. 텍스트를 픽셀로 렌더링하고 픽셀을 인코딩하여 발생하는 정보 손실을 피합니다. 대신, 사전 훈련된 LLM의 강력한 의미적 이해를 사용하여 텍스트 정보를 효율적인 잠재 표현으로 직접 추출합니다.’

새로운 논문은 컨텍스트 캐스케이드 압축: 텍스트 압축의 상한을 탐색이라는 제목으로, 두 명의 저자^†에 의해 작성되었습니다. 두 저자는 GitHub에서 C3를 오픈 소스 저장소로 제공하는 것으로 보입니다 여기.

… (중략)

결론

이것은 최근에 내가 만난 가장 분명하고 접근하기 쉬운 논문 중 하나입니다. 언어 기반 AI 모델에 대한 연구의 가장 중요한 방향 중 하나인 ‘컨텍스트 창 문제’에 대한 추가적인 공격 방향을 제공할 수 있습니다.

LLM을 사용하는 많은 사용자는 이미 중요한 정보 또는 지침을 주기적으로 대화 중에 새로 고침으로 학습했을 것입니다. 이는 ChatGPT와 같은 시스템이 오래된 정보를 오래 기억하지 못하는 것을 발견했기 때문입니다. 새로운 논문에서 제시하는 아이디어는 긴 대화의 매우 압축된 버전을 간격으로 자동으로 현재 LLM 인스턴스의 컨텍스트 창으로 재사용할 수 있다는 것입니다. 본질적으로 ‘대리인으로 기억’합니다.

GPU 부족으로 전통적인 컴퓨터 메모리(예: DRAM)로 작업을 오프로드하여 더 큰 모델을 지원하는 경우에까지 가격 상승으로 이어지는 상황에서 AI의 호스트 하드웨어가 가까운 미래에 상당히 더 많은 용량을 갖게 될 가능성은 낮습니다. 따라서 이러한 새로운 접근 방식은 성능을 향상시키기 위해 필요할 수 있습니다.

더 중요한 것은 LLM이 1시간 이상 동안 일관된 대화를 유지하고 대화의 처음부터 무엇에 대해 논의하고 있는지 실제로 기억할 수 있다면 좋을 것입니다.

* CLI 설치 지침이 제공되지만, 설치를 시도할 시간이 없으며 저장소가 코드 완료인지 확실하지 않습니다.

^† 두 저자는 Liu Fanfan과 Qiu Haibo로 명시되어 있습니다. 캐주얼 연구에 따르면 Qiu는 현재 중국 기술 회사 Meituan의 연구자이며 Liu는 중국 과학 아카데미의 석사 과정 학생입니다. 두 저자 모두 현재 논문을 자신의 역사에 나열하지 않고 있습니다. 이러한 속성이 잘못된 경우 프로필을 통해 저에게 연락하십시오.

^†† 저자들은 추가적인 질적 테스트를 제공하지만, 이전의 압축 테스트에 비해 이는 비중이 낮습니다. 여기에서는 이러한 테스트를 다루지 않습니다.

최초로 2025년 11월 21일 금요일에 게시되었습니다.