Anderson의 관점

AI 가 절반의 작업을 인수하는 데 어려움을 겪는 이유

게시일 2026년 6월 3일

작성자

Martin Anderson

AI-generated image (GPT-2): an industrial humanoid robot sits at an office desk, scratching its head while looking into an open cardboard box labeled 'URGENT' that contains assorted machine parts, gears, electronic components, and circuit boards. An office wall with notes and diagrams is visible behind the desk.

AI 에이전트는 복잡한 작업을 해결할 수 있지만, 새로운 연구에 따르면 다른 에이전트가 시작한 작업을 계속하는 데 어려움을 겪고 있어 중복된 노력, 더 느린 진행, 더 높은 비용이 발생한다.

AI 에이전트와 인터페이스와 관련된 가장 피로하고 필수적인 작업 중 하나는 AI가 처음부터 작업을 시작할 때마다 “속도”를 올려야 한다는 것이다.

가장 인기 있는 언어 모델인 ChatGPT를 포함한 일부 언어 모델은 ‘지속적인’ 사용자 정의 메모리에 대한 일부 접근을 제공하지만, 이 구현은 일반적으로 성공과 실패가 뒤섞인 경우이다. 따라서 작업을 맥락화하는* 것은 AI에게 작업을 시작할 때마다 반복되는 작업이 된다.

실제 세계의 작업 인수

이 문제는 AI 이전부터 존재했다. 많은 회사에서 이미 직원이 개발하거나 정제하는 프로세스에 대한 문서를 유지해야 하는 요구 사항이 있다(부분적으로는 더 나은 온보딩을 위해, 그러나 부분적으로는 직원이 권한을 얻지 못하도록 하기 위해).

그러나 실제로는 더 큰 규모와 더 잘 자금이 지원되는 조직에서만이 문서를 생성, 업데이트 및 유지하는 데 대한 의무를 준수한다. 대신에 다른 사람의 작업을 인수해야 하는 직원들은 종종 ‘탐정’ 스타일의 작업을 받게 된다. 이 작업은 작업을 인수받은 사람이 이전에 작업한 사람이 남긴 작업을painstakingly unpick 해야 하는 작업이다.

물론, 완벽한 문서는 몇 일, 몇 주, 또는 몇 개월의 작업을 절약할 수 있다. 그러나 이러한 문서는 финансов적으로 합리적인 제안이 아니다.

그러나 AI 에이전트가 작업을 수행하는 경우, 이 문제를 해결할 수 있는 더 많은 가능성이 있다.

작업 인수

이 ‘문서화되지 않은’ 작업의 부담은 새로운 연구 논문에서 ‘작업 인수 부채’라고 불리는 문제를 정량화한다.

기술 부채가 빠르고 저렴한 기술 솔루션으로 인해 미래에 취약하거나 유지 보수가 어려운 솔루션을 초래하는 현상이라면, 작업 인수 부채는 작업을 재개하는 데 필요한 비용을 정의한다.

새로운 논문은 독립 연구자와 조지아 주립 대학 연구자 간의 협력으로, 코딩 에이전트가 코드베이스에서 다른 세션, 사람 또는 엔티티가 남긴 작업을 인수하는 경우 작업 인수 부채를 다룬다.

이 연구의 목표 중 하나는 작업 인수 부채를 줄이기 위해 필요한 문서화의 양을 결정하고, 미래에 이 문제를 최소화하기 위한 표준적인 절차와 프로토콜을 추천하는 것이다.

예산 문제

이상적인 세계에서는 로깅을 verbose 로 설정하고, 작업을 인수받은 에이전트에게 관련된 로그를 제공할 수 있다.

그러나 이러한 데이터를 유용한 데이터로 파싱하는 것은 시간이 걸리고, 토큰 예산을 소모하며, 저장 공간 제약을 초래할 것이다.

이것은 예산 문제이다. 원시 덤프를 사용하는 것은 소모적이고, 큐레이션된 로그를 사용하는 것은 더 혼란스럽지 않지만, 이전에 자원을 할당해야 한다.

적절한 전문 노트는 작업을 인수받은 에이전트에게 매우 효과적일 것이다. 그러나 이러한 노트는 더 많은 노력의 헌신을 필요로 할 것이다. 이러한 노력은 작업의 논리가 궁극적으로 자명하다면, 또는 작업이 포기되거나 다시 수정되지 않는다면 결코 필요하지 않을 수 있다.

이 연구의 저자들은 이러한 시나리오를 모두 고려하고, 기존의 작업 모델을 작업 인수 부채를 정량화하고 해결하는 새로운 방법으로 적응시켰다. 이 연구는 코딩 에이전트에เฉพาะ한 내용이지만, 더 넓은 AI контек스트와 문서화 정책의 논리에서 유용한 전진 방향을 나타낼 수 있다.

방법

이 연구의 저자들은 전임 에이전트를 이전에 작업을 수행한 에이전트로 정의하고, 후임 에이전트를 작업을 인수받은 에이전트로 정의한다.

이 연구는 코딩 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위한 벤치마크를 설계했다. 이 연구에서는 75개의 소프트웨어 엔지니어링 작업을 사용하여 181개의 작업 인수 시나리오를 생성했다.

이 연구에서는 세 가지 다른 후임 에이전트 모델을 사용하여 2,172개의 작업 인수 시도를 수행했다.

이 연구에서 사용된 모델 패밀리는 Qwen, Gemma, 및 Devstral이다.

이 연구에서는 네 가지 수준의 상속 정보를 검사했다. 가장 제한적인 설정에서는 후임 에이전트가 저장소 상태만 받았다(기본적으로, 문서화되지 않은 ‘재난 지역’에 들어가는 것).

저장소만 후임 에이전트는 저장소와 작업 설명만 받았다. 이전 작업에 대한 기록은 없다.	원시 추적 후임 에이전트는 전임 에이전트의 전체 기록을 받았다. 모든 명령, 관찰, 편집, 성공, 실패를 노출했다.
요약 노트 후임 에이전트는 전임 에이전트의 활동 기록에서 생성된 자연어 요약을 받았다. 주요 정보를 요약했다.	구조화된 노트 후임 에이전트는 작업 상태, 변경 사항, 검증 결과를 설명하는 표준화된 필드를 포함하는 컴팩트한 작업 인수 문서를 받았다.

이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 완료하는 것만이 아니라, 작업을 계속하는 데 필요한 비용에 주목했다.

이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.

작업 인수 지점 감지	작업 인수 상태
첫 번째 소스 편집 후. 첫 번째 코드 변경 후. 첫 번째 에이전트는 작업을 시작했지만, 변경이 실제로 작동하는지 확인하지 않았다.	완료 필요. 작업은 완료되지 않았고, 후임 에이전트는 작업을 계속해야 한다.
첫 번째 검증 결과 후. 첫 번째 에이전트는 이미 테스트 또는 검증 단계를 실행하여 진행에 대한 일부 증거를 제공했다.	이미 해결되고 보존됨. 작업은 효과적으로 완료되었고, 후임 에이전트의 작업은 이를 깨지지 않도록 하는 것이다.
첫 번째 실패 후 편집. 테스트가 실패했고, 첫 번째 에이전트는 이미 다른 변경을 시도했다.	기존 동작이 깨짐. 이전에 작동했던 것이 이제는 작동하지 않는다.

데이터와 테스트

이 연구에서는 75개의 소프트웨어 엔지니어링 작업을 사용하여 181개의 작업 인수 시나리오를 생성했다.

이 연구에서는 각 작업을 완료하는 것만이 아니라, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.

이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.

뷰	실행	해결률 (Δ pp)	에이전트 이벤트 (Δ%)	프롬프트 토큰 (Δ%)
Qwen → Qwen
저장소만	181	46.4%	99	1.63M
원시 추적	181	52.5% (+6.1 pp)	41 (-59%)	811k (-50%)
요약 노트	181	51.4% (+5.0 pp)	53 (-46%)	602k (-63%)
구조화된 노트	181	50.8% (+4.4 pp)	55 (-44%)	660k (-60%)
Qwen → Gemma
저장소만	181	42.5%	49	738k
원시 추적	181	49.2% (+6.6 pp)	21 (-57%)	300k (-59%)
요약 노트	181	44.2% (+1.7 pp)	33 (-33%)	319k (-57%)
구조화된 노트	181	43.6% (+1.1 pp)	39 (-20%)	317k (-57%)
Qwen → Devstral
저장소만	181	34.3%	175	3.94M
원시 추적	181	49.2% (+14.9 pp)	73 (-58%)	1.66M (-58%)
요약 노트	181	43.6% (+9.4 pp)	123 (-30%)	2.30M (-42%)
구조화된 노트	181	44.8% (+10.5 pp)	125 (-29%)	2.30M (-42%)

이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.

이 연구에서는 세 가지 작업 인수 지점 감지 정의와 세 가지 작업 인수 상태를 정의했다.

뷰	일치하는 실행	저장소 전용 에이전트 이벤트	에이전트 이벤트 (Δ%)	95% CI для Δ 이벤트	프롬프트 토큰 (Δ%)
Qwen → Qwen
원시 추적	181	99	41 (-59%)	[-50%, -42%]	798k (-51%)
요약 노트	181	99	53 (-46%)	[-38%, -28%]	572k (-65%)
구조화된 노트	181	99	55 (-44%)	[-34%, -24%]	646k (-60%)
Qwen → Gemma
원시 추적	181	49	21 (-57%)	[-47%, -33%]	300k (-59%)
요약 노트	181	49	33 (-33%)	[-25%, -8%]	319k (-57%)
구조화된 노트	181	49	39 (-20%)	[-18%, -1%]	317k (-57%)
Qwen → Devstral
원시 추적	181	175	73 (-58%)	[-45%, -22%]	1.65M (-58%)
요약 노트	181	175	123 (-30%)	[-28%, -15%]	2.28M (-42%)
구조화된 노트	181	175	125 (-29%)	[-28%, -17%]	2.29M (-42%)

요약

요약하면, 이 연구에서는 작업을 인수받은 에이전트가 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.

이 연구에서는 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.

결론

이 연구는 AI 에이전트가 작업을 인수받을 때, 작업을 계속하는 데 필요한 비용을 측정하기 위해, 작업을 계속하는 데 필요한 비용에 주목했다.

* 개인적으로, ChatGPT 세션에서 지연과 과도한 컨텍스트가 발생하는 경우, 난 종종 깨끗한 PDF를 내보내고, 이를 새로운 세션의 시작점으로 사용한다. 이 세션이 ‘파트 2’가 된다.

† 불행히도, 이는 내가 올해 읽은 가장 접근하기 쉬운 논문은 아니다. 따라서 나는 독자에게 원본 작품을 추천할 수 없다. 그러나 요약된 결과는 여전히 흥미롭다.

最初에 2026년 6월 3일 게시됨

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

AI 가 절반의 작업을 인수하는 데 어려움을 겪는 이유

실제 세계의 작업 인수

작업 인수

예산 문제

방법

데이터와 테스트

요약

결론

You may like