Góc nhìn Anderson
Tại Sao Trí Tuệ Nhân Tạo (AI) Khó Tiếp Nhận Công Việc Bị Gián Đoạn

Mặc dù các tác nhân AI có thể giải quyết các nhiệm vụ phức tạp, một nghiên cứu mới cho thấy họ gặp khó khăn khi tiếp tục công việc bắt đầu bởi người khác, dẫn đến việc lặp lại nỗ lực, tiến độ chậm hơn và chi phí cao hơn.
Một trong những nhiệm vụ mệt mỏi nhưng cần thiết khi làm việc với các tác nhân và giao diện AI là việc phải “đưa AI lên tốc độ” ở đầu cuộc trao đổi, gần như trong mọi trường hợp.
Trong khi các mô hình ngôn ngữ phổ biến như ChatGPT cung cấp một số quyền truy cập vào ‘bộ nhớ tùy chỉnh’ lâu dài, việc triển khai thường là một việc may rủi; cuối cùng, thường an toàn hơn khi chấp nhận nỗ lực để định ngữ cảnh cho nhiệm vụ của AI – ít nhất, để ngăn chặn AI “đoán” một ngữ cảnh sai từ không gian tiềm ẩn được đào tạo của nó.
Chọn Lên Thiếu Hụt Trong Thế Giới Thực
Thử thách này đã tồn tại trước khi có AI; nhiều công ty đã yêu cầu nhân viên duy trì tài liệu về các quy trình mà họ phát triển hoặc tinh chỉnh (phần để thuận tiện cho việc giới thiệu, nhưng cũng để tránh nhân viên có được lợi thế).
Tuy nhiên, trong thực tế, thường chỉ có các tổ chức lớn và có nguồn tài chính tốt hơn mới thực hiện cam kết tạo, cập nhật và duy trì tài liệu. Thay vào đó, nhân viên thường được giao nhiệm vụ “điều tra” để tìm hiểu về công việc của người khác, đòi hỏi họ phải phân tích cẩn thận về dòng thời gian dẫn đến công việc bị gián đoạn mà họ đã được giao.
Không cần phải nói, tài liệu hoàn hảo sẽ tiết kiệm được ngày, tuần hoặc thậm chí tháng làm việc – nếu chỉ nó là một đề xuất tài chính hợp lý.
Tuy nhiên, khi các tác nhân AI là những người vận hành, có thể có nhiều cơ hội hơn để giải quyết vấn đề.
Trả Lại
Gánh nặng của “không có tài liệu” này được lượng hóa trong một bài nghiên cứu mới từ Mỹ, gọi vấn đề này là nợ giao tiếp.
Nếu nợ kỹ thuật là hội chứng mà các giải pháp công nghệ nhanh chóng và rẻ tiền ngày nay dẫn đến các giải pháp giòn hoặc khó bảo trì trong tương lai, thì nợ giao tiếp định nghĩa chi phí của phát hiện lại – việc truy vết lại các bước của một công nhân hoặc thực thể không có sẵn để tư vấn (sa thải thù địch, quá bận, chết, v.v.) hoặc không thể tư vấn (ví dụ, một LLM đã loại bỏ ngữ cảnh dẫn đến trạng thái công việc hiện tại).
Bài nghiên cứu mới† – một sự hợp tác giữa các nhà nghiên cứu độc lập và Đại học bang Georgia – giải quyết vấn đề nợ giao tiếp khi nó áp dụng cho các tác nhân mã hóa được giao nhiệm vụ tiếp tục nơi một phiên hoặc người khác đã rời bỏ trong một cơ sở mã.
Một trong những mục tiêu của công việc này là thiết lập chính xác lượng tài liệu cần thiết để giảm nợ giao tiếp, và các thủ tục và giao thức nào có thể được khuyến nghị để áp dụng như một thực hành chuẩn trong tương lai, để giảm thiểu vấn đề.
Lo Lắng Về Ngân Sách
Trong một thế giới lý tưởng, người ta có thể đặt nhật ký thành verbose và chỉ cấp cho tác nhân mới (người tiếp nhận nhiệm vụ) các nhật ký liên quan đến nhiệm vụ không hoàn thành.
Tuy nhiên, việc phân tích một lượng dữ liệu như vậy thành dữ liệu hữu ích sẽ tốn thời gian và cũng sẽ tiêu thụ vào ngân sách token – cũng như đưa ra các hạn chế về không gian lưu trữ.
Đây là một vấn đề về ngân sách, vì việc sử dụng các bản dump thô là cạn kiệt, trong khi việc sử dụng các nhật ký được chỉnh sửa là ít gây nhầm lẫn, nhưng đòi hỏi phải cam kết trước về tài nguyên.
Các ghi chú phù hợp, chuyên dụng sẽ rất hiệu quả trong việc đưa một “nghệ sĩ tiếp nhận” lên tốc độ, nhưng với chi phí của một cam kết nỗ lực thậm chí còn lớn hơn – nỗ lực có thể không bao giờ cần thiết, nếu logic của công việc cuối cùng chứng minh là tự nhiên, hoặc nếu công việc bị bỏ rơi, hoặc không bao giờ được sửa đổi lại.
Các tác giả của công trình mới, có tiêu đề Nợ Giao Tiếp: Chi Phí Phát Hiện Lại Khi Các Tác Nhân Mã Hóa Tiếp Nhận Nhiệm Vụ Ngắt Quãng, đã xem xét tất cả các kịch bản này và đã điều chỉnh các mô hình nhiệm vụ hiện có để định lượng và giải quyết nợ giao tiếp theo các cách mới. Mặc dù công việc này liên quan cụ thể đến các tác nhân mã hóa, nhưng nó có thể chỉ ra các con đường tiến bộ hữu ích trong các ngữ cảnh AI rộng hơn và trong các chính sách tài liệu.
Các tác giả tuyên bố:
‘Nợ giao tiếp phát sinh khi một tác nhân tạo ra tiến bộ có thể nhìn thấy nhưng để lại trạng thái mà một người kế thừa không thể tiếp tục dễ dàng, chẳng hạn như các chỉnh sửa không giải thích, tệp tin tạm, giả định ẩn, hoặc thiếu bằng chứng xác thực.
‘Một số liệu dựa chỉ trên giải pháp cuối cùng không thể phân biệt giữa việc phát hiện lại tốn kém và việc tiếp tục hiệu quả.
‘Hai tác nhân tiền nhiệm có thể để lại cùng một kho lưu trữ được kiểm điểm, nhưng những người kế thừa của họ có thể phải đối mặt với các chi phí tiếp tục rất khác nhau: một người có thể tiếp tục ngay lập tức, trong khi người khác phải dành nhiều lần tương tác công cụ để phát hiện lại ý định từ các tệp tin tạm và lịch sử lệnh không hoàn chỉnh.’
Phương Pháp
Các tác giả định nghĩa tiền nhiệm là tác nhân trước (người khởi tạo hoặc cuối cùng thực hiện công việc) và người kế thừa là tác nhân hiện tại (người được giao nhiệm vụ tiếp nhận công việc),
Để hỗ trợ một điểm chuẩn được thiết kế để đo lường chi phí của việc chuyển giao nhiệm vụ chưa hoàn thành giữa các tác nhân, 75 nhiệm vụ từ SWE-bench Verified đã được chuyển đổi thành 181 kịch bản giao tiếp, mỗi kịch bản đại diện cho một điểm mà công việc đã bị gián đoạn và được chuyển cho một tác nhân kế thừa. Ba mô hình người kế thừa khác nhau sau đó được thử nghiệm trên 2.172 lần tiếp nhận.
Các họ mô hình được sử dụng, và được trộn lẫn trong các thử nghiệm giao tiếp này, là Qwen, Gemma, và Devstral.
Thử nghiệm đã kiểm tra bốn mức thông tin thừa kế: trong cài đặt hạn chế nhất, người kế thừa chỉ nhận được trạng thái của kho lưu trữ (tương đương với việc bước vào một khu vực “thảm họa” không có tài liệu).
| Kho Lưu Trữ Chỉ
Người kế thừa chỉ nhận được kho lưu trữ và mô tả nhiệm vụ, mà không có hồ sơ về các hành động trước đó, quyết định hoặc nỗ lực thất bại. |
Dấu Vết Thô
Người kế thừa nhận được lịch sử hoàn chỉnh của người tiền nhiệm, bao gồm mọi lệnh, quan sát, chỉnh sửa, thành công và thất bại. |
| Lưu Ý Tóm Tắt
Người kế thừa nhận được một bản tóm tắt ngôn ngữ tự nhiên được tạo từ lịch sử hoạt động của người tiền nhiệm, cô đọng thông tin chính vào văn bản. |
Lưu Ý Cấu Trúc
Người kế thừa nhận được một tài liệu giao tiếp gọn gàng chứa các trường tiêu chuẩn mô tả trạng thái nhiệm vụ, thay đổi và kết quả xác thực. |
Thay vì chỉ tập trung vào việc liệu một nhiệm vụ đã được giải quyết, nghiên cứu này được thiết kế để đo lường chi phí của việc tiếp tục, với sự chú ý đến việc sử dụng công cụ, tiêu thụ token và lượng nỗ lực cần thiết để tái tạo lý do đằng sau công việc trước.
Ba điểm phát hiện giao tiếp và ba trạng thái giao tiếp đã được định nghĩa cho các thử nghiệm:
| Điểm Phát Hiện Giao Tiếp | Trạng Thái Giao Tiếp |
|---|---|
| Sau Chỉnh Sửa Nguồn Đầu Tiên. Sau khi thay đổi mã đầu tiên. Tác nhân đầu tiên đã bắt đầu làm việc nhưng chưa kiểm tra xem thay đổi đó có hoạt động hay không. | Cần Hoàn Thành. Nhiệm vụ chưa hoàn thành, và người kế thừa phải tiếp tục làm việc để đạt được giải pháp chính xác. |
| Sau Kết Quả Xác Thực Đầu Tiên. Tác nhân đầu tiên đã chạy một thử nghiệm hoặc bước xác thực, cung cấp một số bằng chứng về tiến độ. | Đã Được Giải Quyết Và Bảo Tồn. Nhiệm vụ đã được hoàn thành hiệu quả, và công việc của người kế thừa là tránh làm hỏng nó. |
| Sau Chỉnh Sửa Thất Bại Đầu Tiên. Thử nghiệm đã thất bại và tác nhân đầu tiên đã cố gắng phản ứng bằng cách thực hiện một thay đổi khác. | Hành Vi Hiện Có Bị Hỏng. Một cái gì đó đã hoạt động trước đó bây giờ bị hỏng. |
Dữ Liệu Và Thử Nghiệm
Để tạo ra các kịch bản giao tiếp thực tế, điểm chuẩn của các tác giả được xây dựng từ 75 nhiệm vụ kỹ thuật phần mềm được rút ra từ SWE-Bench Verified, với trọng tâm vào các vấn đề thường mất từ 15 phút đến 4 giờ để giải quyết.
Thay vì chỉ đánh giá các nhiệm vụ đã hoàn thành, các nhà nghiên cứu đã thu thập nhiều điểm kiểm tra trung gian trong quá trình làm việc, tạo ra các tình huống mà một tác nhân AI phải tiếp nhận từ một tác nhân khác:
<img class=" wp-image-426039" src="https://www.unite.ai/wp-content/uploads/2026/06/table-1-1.jpg" alt="Xây dựng điểm chuẩn tiếp nhận. 75 nhiệm vụ SWE-bench Verified đã được mở rộng thành 181 điểm giao tiếp trải rộng trên ba giai đoạn công việc, được dán nhãn theo trạng thái kho lưu trữ tại thời điểm tiếp nhận, và được đánh giá dưới bốn điều kiện chia sẻ thông tin, tạo ra 2.172 lần chạy tiếp nhận của tác nhân. Nguồn
Bởi vì mỗi nhiệm vụ có thể tạo ra nhiều điểm giao tiếp, và mỗi giao tiếp được thử nghiệm bằng bốn hình thức thông tin được chuyển giao khác nhau, điểm chuẩn đã mở rộng nhanh chóng, với tập dữ liệu cuối cùng bao gồm 181 nhiệm vụ giao tiếp riêng biệt, và 724 đánh giá tiếp nhận cho mỗi mô hình người kế thừa, tạo ra 2.172 lần chạy tiếp nhận trên ba hệ thống AI được thử nghiệm.
Một môi trường mã hóa OpenHands đã được sử dụng cho các thử nghiệm, với các hành động trên终端, kho lưu trữ bị đóng băng tại các điểm giao tiếp, chỉnh sửa tệp và xác thực chính thức từ điểm chuẩn SWE-Bench.
Trong nghiên cứu chính, tất cả các điểm giao tiếp đều bắt nguồn từ các lần chạy của Qwen, nhằm cung cấp một điểm xuất phát cố định để đánh giá sự khác biệt giữa các kết hợp tác nhân và các kịch bản đa dạng:
Các cặp tiếp nhận được thử nghiệm là Qwen-sang-Qwen; Qwen-sang-Gemma; và Qwen-sang-Devstral.
Dấu vết thô tạo ra sự giảm lớn nhất trong nỗ lực của người kế thừa, giảm 57-59% số lần tương tác của tác nhân, trong khi Lưu ý tóm tắt và Lưu ý cấu trúc giảm 20-46% số lần tương tác. Sử dụng token cũng giảm trên tất cả ba phương pháp, với mức giảm từ 42-63%:
| View | Runs | Solved rate (Δ pp) | Agent events (Δ%) | Prompt tokens (Δ%) |
|---|---|---|---|---|
| Qwen → Qwen | ||||
| Repository only | 181 | 46.4% | 99 | 1.63M |
| Raw trace | 181 | 52.5% (+6.1 pp) | 41 (-59%) | 811k (-50%) |
| Summary notes | 181 | 51.4% (+5.0 pp) | 53 (-46%) | 602k (-63%) |
| Structured notes | 181 | 50.8% (+4.4 pp) | 55 (-44%) | 660k (-60%) |
| Qwen → Gemma | ||||
| Repository only | 181 | 42.5% | 49 | 738k |
| Raw trace | 181 | 49.2% (+6.6 pp) | 21 (-57%) | 300k (-59%) |
| Summary notes | 181 | 44.2% (+1.7 pp) | 33 (-33%) | 319k (-57%) |
| Structured notes | 181 | 43.6% (+1.1 pp) | 39 (-20%) | 317k (-57%) |
| Qwen → Devstral | ||||
| Repository only | 181 | 34.3% | 175 | 3.94M |
| Raw trace | 181 | 49.2% (+14.9 pp) | 73 (-58%) | 1.66M (-58%) |
| Summary notes | 181 | 43.6% (+9.4 pp) | 123 (-30%) | 2.30M (-42%) |
| Structured notes | 181 | 44.8% (+10.5 pp) | 125 (-29%) | 2.30M (-42%) |
Dưới kho lưu trữ chỉ, các tác nhân kế thừa phải dành thêm các lần tương tác để tái tạo ý định của người tiền nhiệm, bằng chứng trước đó và các nỗ lực thất bại. Dấu vết thô, Lưu ý tóm tắt và Lưu ý cấu trúc chuyển một phần thông tin đó trực tiếp, giảm lượng phát hiện lại cần thiết, mặc dù với chi phí của các lời nhắc ban đầu lớn hơn.
Để kiểm tra xem lợi ích có thực sự hay không, mỗi giao tiếp giàu thông tin được so sánh với một giao tiếp kho lưu trữ chỉ bắt đầu từ cùng một điểm. Các giảm vẫn nhất quán trên tất cả các kết hợp mô hình, cho thấy rằng lợi ích phản ánh một mẫu có ý nghĩa, chứ không phải một vài ví dụ ngoại lệ:
| View | Matched Runs | Repo-Only Agent Events | Agent Events (Δ%) | 95% CI for Δ Events | Prompt Tokens (Δ%) |
|---|---|---|---|---|---|
| Qwen → Qwen | |||||
| Raw Trace | 181 | 99 | 41 (-59%) | [-50%, -42%] | 798k (-51%) |
| Summary Notes | 181 | 99 | 53 (-46%) | [-38%, -28%] | 572k (-65%) |
| Structured Notes | 181 | 99 | 55 (-44%) | [-34%, -24%] | 646k (-60%) |
| Qwen → Gemma | |||||
| Raw Trace | 181 | 49 | 21 (-57%) | [-47%, -33%] | 300k (-59%) |
| Summary Notes | 181 | 49 | 33 (-33%) | [-25%, -8%] | 319k (-57%) |
| Structured Notes | 181 | 49 | 39 (-20%) | [-18%, -1%] | 317k (-57%) |
| Qwen → Devstral | |||||
| Raw Trace | 181 | 175 | 73 (-58%) | [-45%, -22%] | 1.65M (-58%) |
| Summary Notes | 181 | 175 | 123 (-30%) | [-28%, -15%] | 2.28M (-42%) |
| Structured Notes | 181 | 175 | 125 (-29%) | [-28%, -17%] | 2.29M (-42%) |
Để xác nhận rằng hiệu ứng này không bị thúc đẩy bởi một số trường hợp ngoại lệ, các nhà nghiên cứu đã so sánh mỗi giao tiếp với một giao tiếp kho lưu trữ chỉ bắt đầu từ cùng một điểm. Các giảm vẫn nhất quán trên tất cả các kết hợp mô hình, cho thấy rằng lợi ích phản ánh một mẫu có ý nghĩa, chứ không phải một vài ví dụ ngoại lệ.
Lấy Đi…
Tóm lại†, các tác giả đã phát hiện ra rằng khi một AI giao nhiệm vụ cho một AI khác, ngay cả các ghi chú đơn giản cũng giúp AI thứ hai tiếp tục hiệu quả hơn.
Toàn bộ hồ sơ của những gì đã xảy ra hoạt động tốt nhất, nhưng bất kỳ thông tin giao tiếp nào cũng tốt hơn việc để người kế thừa phải tái tạo mọi thứ từ mã một mình; và kết quả trên cho thấy rằng cách tiếp cận “toàn bộ” với hồ sơ thô sẽ có chi phí token cao hơn.
Kết Luận
Mặc dù bài báo này chỉ dành cho các nhà nghiên cứu ngang hàng, với sự hấp dẫn hạn chế đối với người đọc thông thường, công việc mới này vẫn giải quyết một trong những vấn đề thú vị và cấp thiết nhất liên quan đến trạng thái hiện tại của nghệ thuật trong giao diện và giao thức người-máy.
Người ta hy vọng rằng các mô hình được phát triển và những hiểu biết thu được trong loại khám phá này có thể cuối cùng mở rộng ra ngoài ngữ cảnh sử dụng AI rộng hơn, không chỉ là mã hóa tác nhân.
Một con đường khám phá khác có thể là các dự án trong tương lai sẽ xem xét cách đánh giá mức độ tài liệu tối thiểu cần thiết cho một dự án cụ thể, dựa trên đặc điểm và trường hợp sử dụng của nó. Tuy nhiên, ngay cả chức năng này, giúp hợp lý hóa việc chi tiêu thời gian và tiền bạc, cũng tiêu tốn thời gian và tiền bạc; và do đó, nghịch cảnh về ngân sách trong các kịch bản tài liệu vẫn khó tránh.
* Đối với các phiên ChatGPT bị ảnh hưởng bởi độ trễ và ngữ cảnh quá mức, tôi đã bắt đầu xuất (với một số khó khăn) một tệp PDF sạch của cuộc trò chuyện và sử dụng nó làm điểm bắt đầu cho một phiên mới, trở thành ‘phần 2’.
† Thật không may, đây không phải là bài báo dễ tiếp cận nhất mà tôi đã đọc trong năm nay, và vì lý do này, tôi không thể giới thiệu người đọc đến công việc nguồn, mặc dù kết quả tóm tắt vẫn còn hấp dẫn.
Được xuất bản lần đầu vào thứ Tư, ngày 3 tháng 6 năm 2026












