Andersonμ κ΄μ
AI κ° μ λ°μ μμ μ μΈμνλ λ° μ΄λ €μμ κ²ͺλ μ΄μ

AI 에이전트는 복잡한 작업을 해결할 수 있지만, 새로운 연구에 따르면 다른 에이전트가 시작한 작업을 계속하는 데 어려움을 겪고 있어 중복된 노력, 더 느린 진행, 더 높은 비용이 발생한다.
AI 에이전트와 인터페이스와 관련된 가장 피로하고 필수적인 작업 중 하나는 AI가 처음부터 작업을 시작할 때마다 “속도”를 올려야 한다는 것이다.
가장 인기 있는 언어 모델인 ChatGPT를 포함한 일부 언어 모델은 ‘지속적인’ 사용자 정의 메모리에 대한 일부 접근을 제공하지만, 이 구현은 일반적으로 성공과 실패가 뒤섞인 경우이다. 따라서 작업을 맥락화하는* 것은 AI에게 작업을 시작할 때마다 반복되는 작업이 된다.
실제 세계의 작업 인수
이 문제는 AI 이전부터 존재했다. 많은 회사에서 이미 직원이 개발하거나 정제하는 프로세스에 대한 문서를 유지해야 하는 요구 사항이 있다(부분적으로는 더 나은 온보딩을 위해, 그러나 부분적으로는 직원이 권한을 얻지 못하도록 하기 위해).
그러나 실제로는 더 큰 규모와 더 잘 자금이 지원되는 조직에서만이 문서를 생성, 업데이트 및 유지하는 데 대한 의무를 준수한다. 대신에 다른 사람의 작업을 인수해야 하는 직원들은 종종 ‘탐정’ 스타일의 작업을 받게 된다. 이 작업은 작업을 인수받은 사람이 이전에 작업한 사람이 남긴 작업을painstakingly unpick 해야 하는 작업이다.
물론, 완벽한 문서는 몇 일, 몇 주, 또는 몇 개월의 작업을 절약할 수 있다. 그러나 이러한 문서는 финансов적으로 합리적인 제안이 아니다.
그러나 AI 에이전트가 작업을 수행하는 경우, 이 문제를 해결할 수 있는 더 많은 가능성이 있다.
작업 인수
이 ‘문서화되지 않은’ 작업의 부담은 새로운 연구 논문에서 ‘작업 인수 부채’라고 불리는 문제를 정량화한다.
기술 부채가 빠르고 저렴한 기술 솔루션으로 인해 미래에 취약하거나 유지 보수가 어려운 솔루션을 초래하는 현상이라면, 작업 인수 부채는 작업을 재개하는 데 필요한 비용을 정의한다.
새로운 논문은 독립 연구자와 조지아 주립 대학 연구자 간의 협력으로, 코딩 에이전트가 코드베이스에서 다른 세션, 사람 또는 엔티티가 남긴 작업을 인수하는 경우 작업 인수 부채를 다룬다.
이 연구의 목표 중 하나는 작업 인수 부채를 줄이기 위해 필요한 문서화의 양을 결정하고, 미래에 이 문제를 최소화하기 위한 표준적인 절차와 프로토콜을 추천하는 것이다.
예산 문제
이상적인 세계에서는 로깅을 verbose 로 설정하고, 작업을 인수받은 에이전트에게 관련된 로그를 제공할 수 있다.
그러나 이러한 데이터를 유용한 데이터로 파싱하는 것은 시간이 걸리고, 토큰 예산을 소모하며, 저장 공간 제약을 초래할 것이다.
이것은 예산 문제이다. 원시 덤프를 사용하는 것은 소모적이고, 큐레이션된 로그를 사용하는 것은 더 혼란스럽지 않지만, 이전에 자원을 할당해야 한다.
적절한 전문 노트는 작업을 인수받은 에이전트에게 매우 효과적일 것이다. 그러나 이러한 노트는 더 많은 노력의 헌신을 필요로 할 것이다. 이러한 노력은 작업의 논리가 궁극적으로 자명하다면, 또는 작업이 포기되거나 다시 수정되지 않는다면 결코 필요하지 않을 수 있다.
이 연구의 저자들은 이러한 시나리오를 모두 고려하고, 기존의 작업 모델을 작업 인수 부채를 정량화하고 해결하는 새로운 방법으로 적응시켰다. 이 연구는 코딩 에이전트에เฉพาะ한 내용이지만, 더 넓은 AI контек스트와 문서화 정책의 논리에서 유용한 전진 방향을 나타낼 수 있다.
방법
이 연구의 저자들은 전임 에이전트를 이전에 작업을 수행한 에이전트로 정의하고, 후임 에이전트를 작업을 인수받은 에이전트로 정의한다.
이 연구는 코딩 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위한 벤치마크를 설계했다. 이 연구에서는 75개의 소프트웨어 엔지니어링 작업을 사용하여 181개의 작업 인수 시나리오를 생성했다.
이 연구에서는 세 가지 다른 후임 에이전트 모델을 사용하여 2,172개의 작업 인수 시도를 수행했다.
이 연구에서 사용된 모델 패밀리는 Qwen, Gemma, 및 Devstral이다.
이 연구에서는 네 가지 수준의 상속 정보를 검사했다. 가장 제한적인 설정에서는 후임 에이전트가 저장소 상태만 받았다(기본적으로, 문서화되지 않은 ‘재난 지역’에 들어가는 것).
| 저장소만
후임 에이전트는 저장소와 작업 설명만 받았다. 이전 작업에 대한 기록은 없다. |
원시 추적
후임 에이전트는 전임 에이전트의 전체 기록을 받았다. 모든 명령, 관찰, 편집, 성공, 실패를 노출했다. |
| 요약 노트
후임 에이전트는 전임 에이전트의 활동 기록에서 생성된 자연어 요약을 받았다. 주요 정보를 요약했다. |
구조화된 노트
후임 에이전트는 작업 상태, 변경 사항, 검증 결과를 설명하는 표준화된 필드를 포함하는 컴팩트한 작업 인수 문서를 받았다. |
이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 완료하는 것만이 아니라, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.
| 작업 인수 지점 감지 | 작업 인수 상태 |
|---|---|
| 첫 번째 소스 편집 후. 첫 번째 코드 변경 후. 첫 번째 에이전트는 작업을 시작했지만, 변경이 실제로 작동하는지 확인하지 않았다. | 완료 필요. 작업은 완료되지 않았고, 후임 에이전트는 작업을 계속해야 한다. |
| 첫 번째 검증 결과 후. 첫 번째 에이전트는 이미 테스트 또는 검증 단계를 실행하여 진행에 대한 일부 증거를 제공했다. | 이미 해결되고 보존됨. 작업은 효과적으로 완료되었고, 후임 에이전트의 작업은 이를 깨지지 않도록 하는 것이다. |
| 첫 번째 실패 후 편집. 테스트가 실패했고, 첫 번째 에이전트는 이미 다른 변경을 시도했다. | 기존 동작이 깨짐. 이전에 작동했던 것이 이제는 작동하지 않는다. |
데이터와 테스트
이 연구에서는 75개의 소프트웨어 엔지니어링 작업을 사용하여 181개의 작업 인수 시나리오를 생성했다.
이 연구에서는 각 작업을 완료하는 것만이 아니라, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.
| 뷰 | 실행 | 해결률 (Δ pp) | 에이전트 이벤트 (Δ%) | 프롬프트 토큰 (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| 저장소만 | 181 | 46.4% | 99 | 1.63M |
| 원시 추적 | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| 요약 노트 | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| 구조화된 노트 | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| 저장소만 | 181 | 42.5% | 49 | 738k |
| 원시 추적 | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| 요약 노트 | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| 구조화된 노트 | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| 저장소만 | 181 | 34.3% | 175 | 3.94M |
| 원시 추적 | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| 요약 노트 | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| 구조화된 노트 | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.
| 뷰 | 일치하는 실행 | 저장소 전용 에이전트 이벤트 | 에이전트 이벤트 (Δ%) | 95% CI для Δ 이벤트 | 프롬프트 토큰 (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| 원시 추적 | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| 요약 노트 | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| 구조화된 노트 | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| 원시 추적 | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| 요약 노트 | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| 구조화된 노트 | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| 원시 추적 | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| 요약 노트 | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| 구조화된 노트 | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
요약
요약하면, 이 연구에서는 작업을 인수받은 에이전트가 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
결론
이 연구는 AI 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구는 AI 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
이 연구는 AI 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.
* 개인적으로, ChatGPT 세션에서 지연과 과도한 컨텍스트가 발생하는 경우, 난 종종 깨끗한 PDF를 내보내고, 이를 새로운 세션의 시작점으로 사용한다. 이 세션이 ‘파트 2’가 된다.
† 불행히도, 이는 내가 올해 읽은 가장 접근하기 쉬운 논문은 아니다. 따라서 나는 독자에게 원본 작품을 추천할 수 없다. 그러나 요약된 결과는 여전히 흥미롭다.
最初에 2026년 6월 3일 게시됨












