Trí tuệ nhân tạo

Làm thế nào các tác nhân AI tốt trong nghiên cứu thực tế? Bên trong báo cáo Deep Research Bench

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Khi các mô hình ngôn ngữ lớn (LLMs) phát triển nhanh chóng, lời hứa của chúng như các trợ lý nghiên cứu mạnh mẽ cũng phát triển. Ngày càng nhiều, chúng không chỉ trả lời các câu hỏi事 thực đơn giản – chúng đang thực hiện các nhiệm vụ “nghiên cứu sâu”, bao gồm nhiều bước suy luận, đánh giá thông tin mâu thuẫn, lấy dữ liệu từ toàn bộ web và tổng hợp nó thành một đầu ra hợp lý.

Khả năng mới nổi này hiện đang được tiếp thị dưới các tên thương hiệu khác nhau bởi các phòng thí nghiệm chính – OpenAI gọi nó là “Deep Research”, Anthropic gọi nó là “Extended Thinking”, Gemini của Google cung cấp các tính năng “Tìm kiếm + Pro” và Perplexity dán nhãn của họ là “Tìm kiếm Pro” hoặc “Nghiên cứu sâu”. Nhưng những dịch vụ này hiệu quả như thế nào trong thực tế? Một báo cáo mới của FutureSearch, có tiêu đề Deep Research Bench (DRB): Đánh giá các tác nhân nghiên cứu web, cung cấp đánh giá nghiêm ngặt nhất cho đến nay – và kết quả cho thấy cả khả năng ấn tượng và thiếu sót quan trọng.

Deep Research Bench là gì?

Được tạo bởi nhóm FutureSearch, Deep Research Bench là một điểm chuẩn được xây dựng cẩn thận để đánh giá hiệu suất của các tác nhân AI trên các nhiệm vụ nghiên cứu dựa trên web nhiều bước. Những câu hỏi này không phải là các câu hỏi đơn giản với câu trả lời trực tiếp – chúng phản ánh các thách thức mở, phức tạp mà các nhà phân tích, nhà hoạch định chính sách và nhà nghiên cứu gặp phải trong các môi trường thực tế.

Điểm chuẩn bao gồm 89 nhiệm vụ riêng biệt trong 8 danh mục như:

Tìm số: ví dụ “Số lượng thu hồi thiết bị y tế loại II của FDA là bao nhiêu?”
Xác thực tuyên bố: ví dụ “ChatGPT có tiêu tốn năng lượng 10 lần so với Tìm kiếm Google không?”
Tổng hợp dữ liệu: ví dụ “Xu hướng việc làm cho các nhà phát triển phần mềm của Mỹ từ 2019–2023”

Mỗi loại nhiệm vụ được cấu trúc cẩn thận với câu trả lời đã được xác minh bởi con người và được đánh giá bằng một tập dữ liệu web đã thu thập, được gọi là RetroSearch. Điều này đảm bảo tính nhất quán trên các mô hình đánh giá, tránh trạng thái thay đổi của web trực tiếp.

Cấu trúc tác nhân: ReAct và RetroSearch

Ở trung tâm của Deep Research Bench là kiến trúc ReAct, viết tắt của “Reason + Act.” Phương pháp này mô phỏng cách một nhà nghiên cứu con người có thể giải quyết một vấn đề – bằng cách suy nghĩ thông qua nhiệm vụ, thực hiện một hành động như tìm kiếm web, quan sát kết quả và sau đó quyết định liệu có nên lặp lại hoặc kết thúc.

Trong khi các mô hình cũ hơn tuân theo vòng lặp này một cách rõ ràng, các mô hình “suy nghĩ” mới thường简化 quá trình, tích hợp lý lẽ một cách linh hoạt vào hành động của chúng. Để đảm bảo tính nhất quán trên các đánh giá, DRB giới thiệu RetroSearch – một phiên bản web tĩnh, tùy chỉnh. Thay vì dựa vào internet trực tiếp, liên tục thay đổi, các tác nhân truy cập vào một kho lưu trữ được quản lý của các trang web, thu thập bằng các công cụ như Serper, Playwright và ScraperAPI. Quy mô là ấn tượng: đối với các nhiệm vụ phức tạp cao như “Tập hợp bằng chứng”, RetroSearch có thể cung cấp quyền truy cập vào hơn 189.000 trang, tất cả đều bị đóng băng trong thời gian, đảm bảo một môi trường thử nghiệm công bằng và có thể tái tạo.

Tác nhân AI nào hoạt động tốt nhất?

Trong số tất cả các ứng cử viên, o3 của OpenAI đã nổi lên như người biểu diễn hàng đầu, đạt điểm 0,51 trên thang điểm 1,0 trong Deep Research Bench. Mặc dù điều đó có thể nghe có vẻ khiêm tốn, nhưng điều quan trọng là phải hiểu độ khó của điểm chuẩn: do sự mơ hồ trong định nghĩa nhiệm vụ và đánh giá, ngay cả một tác nhân hoàn hảo cũng có thể đạt điểm cao nhất khoảng 0,8 – những gì các nhà nghiên cứu gọi là “trần tiếng ồn.” Nói cách khác, ngay cả những mô hình tốt nhất ngày nay vẫn còn thiếu sót so với các nhà nghiên cứu con người thông minh và có phương pháp.

Tuy nhiên, bảng xếp hạng cung cấp những thông tin sâu sắc. o3 không chỉ dẫn đầu mà còn làm như vậy với tốc độ và tính nhất quán, thể hiện hiệu suất mạnh mẽ trên gần như tất cả các loại nhiệm vụ. Claude 3.7 Sonnet từ Anthropic theo sát, chứng tỏ sự đa năng trong cả chế độ “suy nghĩ” và “không suy nghĩ”. Gemini 2.5 Pro của Google đã nổi bật với khả năng xử lý các nhiệm vụ yêu cầu lập kế hoạch có cấu trúc và suy luận bước-by-bước. Trong khi đó, DeepSeek-R1 mở đã mang lại một bất ngờ dễ chịu – theo sát GPT-4 Turbo và thu hẹp khoảng cách hiệu suất giữa các mô hình mở và đóng.

Trên toàn bảng, một mẫu rõ ràng đã xuất hiện: các mô hình “suy nghĩ” mới hơn nhất quán vượt trội so với các phiên bản trước đó, và các mô hình nguồn đóng duy trì lợi thế đáng kể so với các lựa chọn thay thế mở.

Các tác nhân gặp khó khăn ở đâu?

Đọc qua các mẫu thất bại được nhấn mạnh trong báo cáo Deep Research Bench cảm thấy khá quen thuộc. Một trong những khía cạnh khó chịu nhất mà tôi đã gặp phải – đặc biệt là trong các phiên nghiên cứu hoặc tạo nội dung dài – là khi một tác nhân AI đơn giản quên mất chúng ta đang làm gì. Khi cửa sổ ngữ cảnh giãn ra, mô hình thường bắt đầu mất dấu: các chi tiết chính mờ dần, mục tiêu bị混 lẫn và đột nhiên, các phản hồi cảm thấy rời rạc hoặc vô hướng. Tại một thời điểm, tôi đã học cách tốt hơn là cắt giảm tổn thất và bắt đầu từ đầu, ngay cả khi điều đó có nghĩa là vứt bỏ mọi thứ đã được tạo ra cho đến nay.

Loại quên ấy không chỉ là giai thoại – đó là yếu tố dự đoán thất bại quan trọng nhất trong đánh giá Deep Research Bench. Nhưng đó không phải là vấn đề duy nhất lặp lại. Báo cáo cũng nhấn mạnh cách một số mô hình rơi vào việc sử dụng công cụ lặp đi lặp lại, chạy cùng một tìm kiếm nhiều lần như bị kẹt trong vòng lặp. Những mô hình khác thể hiện việc tạo yêu cầu tìm kiếm kém, chỉ khớp từ khóa một cách lười biếng thay vì suy nghĩ một cách quan trọng về cách tìm kiếm hiệu quả. Và quá nhiều tác nhân rơi vào kết luận vội vàng – cung cấp một câu trả lời nửa vời mà về mặt kỹ thuật kiểm tra hộp nhưng thiếu sót về cái nhìn sâu sắc thực sự.

Ngay cả trong số các mô hình hàng đầu, sự khác biệt cũng rõ ràng. GPT-4 Turbo, ví dụ, đã thể hiện một khuynh hướng đáng chú ý để quên các bước trước, trong khi DeepSeek-R1 có nhiều khả năng hư ảo hoặc tạo ra thông tin nghe có vẻ hợp lý nhưng không chính xác. Trên toàn bảng, các mô hình thường xuyên không kiểm tra chéo nguồn hoặc xác thực phát hiện trước khi hoàn thiện đầu ra của chúng. Đối với bất kỳ ai đã dựa vào AI cho công việc nghiêm túc, những vấn đề này sẽ cảm thấy quá quen thuộc – và chúng nhấn mạnh rằng chúng ta vẫn còn phải đi xa trong việc xây dựng các tác nhân có thể thực sự suy nghĩ và nghiên cứu như con người.

Về hiệu suất dựa trên bộ nhớ?

Đáng chú ý, Deep Research Bench cũng đã đánh giá những gì nó gọi là các tác nhân “không có công cụ” – các mô hình ngôn ngữ hoạt động mà không có quyền truy cập vào các công cụ bên ngoài, chẳng hạn như tìm kiếm web hoặc thu hồi tài liệu. Những tác nhân này dựa hoàn toàn vào dữ liệu đào tạo nội bộ và bộ nhớ của chúng, tạo ra câu trả lời dựa chỉ trên những gì chúng đã học được trong quá trình đào tạo. Trong thực tế, điều này có nghĩa là chúng không thể tìm kiếm bất cứ điều gì hoặc xác thực thông tin – chúng đang đoán dựa trên những gì chúng “nhớ”.

Đáng ngạc nhiên, những tác nhân không có công cụ này đã hoạt động gần như tốt như các tác nhân nghiên cứu đầy đủ trên một số nhiệm vụ. Ví dụ, trên nhiệm vụ Xác thực tuyên bố – nơi mục tiêu là đánh giá tính hợp lý của một tuyên bố – chúng đạt điểm 0,61, gần như khớp với điểm trung bình 0,62 của các tác nhân được trang bị công cụ. Điều này cho thấy rằng các mô hình như o3 và Claude có các tiên đề nội bộ mạnh mẽ và thường có thể nhận ra tính chân thực của các tuyên bố phổ biến mà không cần tìm kiếm web.

Tuy nhiên, trên các nhiệm vụ đòi hỏi hơn – như Derive Number, yêu cầu ráp nối nhiều giá trị từ các nguồn khác nhau, hoặc Gather Evidence, phụ thuộc vào việc tìm kiếm và đánh giá các事 thực đa dạng trong ngữ cảnh – những mô hình không có công cụ này hoàn toàn bị phá vỡ. Không có thông tin mới hoặc khả năng tra cứu thời gian thực, chúng đơn giản là thiếu phương tiện để tạo ra câu trả lời chính xác hoặc toàn diện.

Sự tương phản này nhấn mạnh một sắc thái quan trọng: trong khi các LLM ngày nay có thể mô phỏng “biết” rất nhiều, nghiên cứu sâu đòi hỏi không chỉ nhớ lại, mà còn suy luận với thông tin mới nhất, có thể xác minh – điều mà chỉ các tác nhân được hỗ trợ bởi công cụ mới có thể thực sự cung cấp.

Tư tưởng cuối cùng

Báo cáo DRB làm rõ một điều: trong khi các tác nhân AI tốt nhất ngày nay có thể vượt qua con người trung bình trên các nhiệm vụ được định nghĩa hẹp, chúng vẫn tụt lại phía sau các nhà nghiên cứu tổng quát lành nghề – đặc biệt là khi nói đến việc lập kế hoạch chiến lược, thích nghi trong quá trình và suy luận với sắc thái.

Khoảng cách này trở nên đặc biệt rõ ràng trong các phiên dài hoặc phức tạp – điều mà tôi đã trải nghiệm trực tiếp, nơi một tác nhân dần dần mất dấu mục đích của nhiệm vụ, dẫn đến sự sụp đổ khó chịu trong tính nhất quán và tiện ích.

Điều làm cho Deep Research Bench trở nên quý giá là nó không chỉ kiểm tra kiến thức bề mặt – nó thăm dò sự giao nhau của việc sử dụng công cụ, bộ nhớ, lý lẽ và thích nghi, cung cấp một tương tự gần hơn với nghiên cứu thực tế hơn các điểm chuẩn như MMLU hoặc GSM8k.

Khi các LLM tiếp tục tích hợp vào công việc kiến thức nghiêm túc, các công cụ FutureSearch như DRB sẽ là điều cần thiết để đánh giá không chỉ những gì các hệ thống này biết, mà còn cách chúng thực sự hoạt động.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.