Trí tuệ nhân tạo
Phòng thí nghiệm đại lý: Một nhóm nghiên cứu ảo của AMD và Johns Hopkins

Trong khi mọi người đang xôn xao bàn tán Đại lý AI và tự động hóa, AMD và Đại học Johns Hopkins đã nỗ lực cải thiện cách con người và AI hợp tác trong nghiên cứu. Khung nguồn mở mới của họ, Phòng thí nghiệm đại lý, là sự tái hiện hoàn chỉnh về cách thức nghiên cứu khoa học có thể được đẩy nhanh thông qua sự hợp tác giữa con người và AI.
Sau khi xem xét nhiều khuôn khổ nghiên cứu AI, Agent Laboratory nổi bật với cách tiếp cận thực tế. Thay vì cố gắng thay thế các nhà nghiên cứu con người (như nhiều giải pháp hiện có), nó tập trung vào việc tăng cường khả năng của họ bằng cách xử lý các khía cạnh tốn thời gian của nghiên cứu trong khi vẫn để con người nắm quyền điều khiển.
Sự đổi mới cốt lõi ở đây rất đơn giản nhưng mạnh mẽ: Thay vì theo đuổi nghiên cứu hoàn toàn tự động (thường dẫn đến kết quả đáng ngờ), Phòng thí nghiệm tác nhân tạo ra một phòng thí nghiệm ảo, nơi nhiều tác nhân AI chuyên biệt làm việc cùng nhau, mỗi tác nhân xử lý các khía cạnh khác nhau của quá trình nghiên cứu trong khi vẫn tuân theo sự hướng dẫn của con người.
Phân tích phòng thí nghiệm ảo
Hãy nghĩ về Agent Laboratory như một nhóm nghiên cứu được tổ chức tốt, nhưng với các tác nhân AI đóng vai trò chuyên biệt. Giống như một phòng nghiên cứu thực sự, mỗi tác nhân có trách nhiệm và chuyên môn cụ thể:
- Một tác nhân tiến sĩ giải quyết các bài đánh giá tài liệu và lập kế hoạch nghiên cứu
- Các tác nhân sau tiến sĩ giúp tinh chỉnh các phương pháp tiếp cận thử nghiệm
- Các tác nhân ML Engineer xử lý việc triển khai kỹ thuật
- Các tác nhân giáo sư đánh giá và chấm điểm kết quả nghiên cứu
Điều làm cho hệ thống này đặc biệt thú vị là quy trình làm việc của nó. Không giống như các công cụ AI truyền thống hoạt động riêng lẻ, Agent Laboratory tạo ra một môi trường hợp tác nơi các tác nhân này tương tác và xây dựng dựa trên công việc của nhau.
Quá trình này tuân theo tiến trình nghiên cứu tự nhiên:
- Đánh giá văn học: Đại lý tiến sĩ sẽ tìm kiếm các bài báo học thuật bằng cách sử dụng API arXiv, thu thập và tổ chức nghiên cứu có liên quan
- Xây dựng kế hoạch: Các tác nhân tiến sĩ và sau tiến sĩ hợp tác để tạo ra các kế hoạch nghiên cứu chi tiết
- Thực hiện: Các tác nhân ML Engineer viết và kiểm tra mã
- Phân tích & Tài liệu: Nhóm làm việc cùng nhau để giải thích kết quả và tạo ra các báo cáo toàn diện
Nhưng đây mới là lúc nó thực sự hữu ích: Khung này linh hoạt về mặt tính toán, nghĩa là các nhà nghiên cứu có thể phân bổ tài nguyên dựa trên khả năng tiếp cận sức mạnh tính toán và hạn chế về ngân sách của họ. Điều này khiến nó trở thành một công cụ được thiết kế cho môi trường nghiên cứu thực tế.

Schmidgall và cộng sự
Yếu tố con người: Nơi AI gặp gỡ chuyên môn
Trong khi Agent Laboratory có khả năng tự động hóa ấn tượng, thì điều kỳ diệu thực sự diễn ra ở cái mà họ gọi là "chế độ đồng lái". Trong thiết lập này, các nhà nghiên cứu có thể cung cấp phản hồi ở từng giai đoạn của quy trình, tạo ra sự hợp tác thực sự giữa chuyên môn của con người và sự hỗ trợ của AI.
Dữ liệu phản hồi của đồng phi công tiết lộ một số hiểu biết hấp dẫn. Ở chế độ tự động, các bài báo do Phòng thí nghiệm Agent tạo ra đạt điểm trung bình là 3.8/10 trong các đánh giá của con người. Nhưng khi các nhà nghiên cứu tham gia vào chế độ đồng phi công, những điểm số đó đã tăng lên 4.38/10. Điều đặc biệt thú vị là những cải tiến này xuất hiện ở đâu - các bài báo đạt điểm cao hơn đáng kể về độ rõ ràng (+0.23) và trình bày (+0.33).
Nhưng đây là sự thật: ngay cả với sự tham gia của con người, các bài báo này vẫn đạt điểm thấp hơn khoảng 1.45 điểm so với điểm trung bình được chấp nhận Thần kinh bài báo (đạt 5.85 điểm). Đây không phải là một thất bại, nhưng là một bài học quan trọng về cách AI và chuyên môn của con người cần bổ sung cho nhau.
Đánh giá này còn tiết lộ thêm một điều thú vị nữa: Người đánh giá AI luôn đánh giá các bài báo cao hơn khoảng 2.3 điểm so với người đánh giá là con người. Khoảng cách này làm nổi bật lý do tại sao sự giám sát của con người vẫn đóng vai trò quan trọng trong đánh giá nghiên cứu.

Schmidgall và cộng sự
Chia nhỏ các con số
Điều gì thực sự quan trọng trong môi trường nghiên cứu? Chi phí và hiệu suất. Cách tiếp cận của Agent Laboratory đối với việc so sánh mô hình cho thấy một số lợi ích hiệu quả đáng ngạc nhiên về mặt này.
GPT-4o nổi lên như nhà vô địch về tốc độ, hoàn thành toàn bộ quy trình làm việc chỉ trong 1,165.4 giây – nhanh hơn 3.2 lần so với o1-mini và nhanh hơn 5.3 lần so với o1-preview. Nhưng điều quan trọng hơn nữa là nó chỉ tốn 2.33 đô la cho mỗi bài báo. So với các phương pháp nghiên cứu tự động trước đây có giá khoảng 15 đô la, chúng tôi đang hướng đến mức giảm chi phí 84%.
Nhìn vào hiệu suất của mô hình:
- o1-preview đạt điểm cao nhất về tính hữu ích và rõ ràng
- o1-mini đạt được điểm chất lượng thử nghiệm tốt nhất
- GPT-4o tụt hậu về số liệu nhưng dẫn đầu về hiệu quả chi phí
Những hàm ý thực tế ở đây rất đáng kể.
Các nhà nghiên cứu hiện có thể lựa chọn phương pháp tiếp cận dựa trên nhu cầu cụ thể của mình:
- Cần tạo mẫu nhanh? GPT-4o cung cấp tốc độ và hiệu quả về chi phí
- Ưu tiên chất lượng thử nghiệm? o1-mini có thể là lựa chọn tốt nhất của bạn
- Bạn đang tìm kiếm bản đầu ra được đánh bóng nhất? o1-preview cho thấy sự hứa hẹn
Tính linh hoạt này có nghĩa là các nhóm nghiên cứu có thể điều chỉnh khuôn khổ cho phù hợp với nguồn lực và yêu cầu của họ, thay vì bị bó buộc vào một giải pháp chung cho mọi trường hợp.
Một chương mới trong nghiên cứu
Sau khi xem xét khả năng và kết quả của Agent Laboratory, tôi tin rằng chúng ta đang chứng kiến sự thay đổi đáng kể trong cách thức tiến hành nghiên cứu. Nhưng không phải câu chuyện về sự thay thế thường thống trị các tiêu đề - mà là thứ gì đó tinh tế và mạnh mẽ hơn nhiều.
Trong khi các bài báo của Agent Laboratory vẫn chưa đạt được các tiêu chuẩn hội nghị hàng đầu, chúng đang tạo ra một mô hình mới để tăng tốc nghiên cứu. Hãy nghĩ về điều đó giống như có một nhóm trợ lý nghiên cứu AI không bao giờ ngủ, mỗi người chuyên về các khía cạnh khác nhau của quá trình khoa học.
Những hàm ý đối với các nhà nghiên cứu là rất sâu sắc:
- Thời gian dành cho việc đánh giá tài liệu và mã hóa cơ bản có thể được chuyển hướng sang ý tưởng sáng tạo
- Những ý tưởng nghiên cứu có thể bị gác lại do hạn chế về nguồn lực trở nên khả thi
- Khả năng tạo mẫu nhanh chóng và thử nghiệm các giả thuyết có thể dẫn đến đột phá nhanh hơn
Những hạn chế hiện tại, như khoảng cách giữa AI và điểm đánh giá của con người, là những cơ hội. Mỗi lần lặp lại của các hệ thống này đưa chúng ta đến gần hơn với sự hợp tác nghiên cứu tinh vi hơn giữa con người và AI.
Nhìn về phía trước, tôi thấy ba sự phát triển quan trọng có thể định hình lại quá trình khám phá khoa học:
- Các mô hình cộng tác giữa con người và AI tinh vi hơn sẽ xuất hiện khi các nhà nghiên cứu học cách tận dụng các công cụ này một cách hiệu quả
- Việc tiết kiệm chi phí và thời gian có thể dân chủ hóa nghiên cứu, cho phép các phòng thí nghiệm và tổ chức nhỏ hơn theo đuổi các dự án đầy tham vọng hơn
- Khả năng tạo mẫu nhanh có thể dẫn đến nhiều phương pháp tiếp cận thử nghiệm hơn trong nghiên cứu
Chìa khóa để tối đa hóa tiềm năng này là gì? Hiểu rằng Agent Laboratory và các khuôn khổ tương tự là công cụ khuếch đại, không phải tự động hóa. Tương lai của nghiên cứu không phải là lựa chọn giữa chuyên môn của con người và khả năng của AI – mà là tìm ra những cách sáng tạo để kết hợp chúng.