Trí tuệ nhân tạo

Các nhà nghiên cứu AI tạo ra mô hình chơi trò chơi điện tử có thể nhớ lại các sự kiện trong quá khứ

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Một nhóm các nhà nghiên cứu tại phòng thí nghiệm AI của Uber đã gần đây phát triển một hệ thống các thuật toán AI vượt trội hơn cả người chơi và các hệ thống AI khác tại các trò chơi điện tử cổ điển Atari. Hệ thống AI được phát triển bởi các nhà nghiên cứu có khả năng nhớ lại các chiến lược thành công trước đây, tạo ra các chiến lược mới dựa trên những gì đã hoạt động trong quá khứ. Đội nghiên cứu của nghiên cứu tin rằng các thuật toán họ phát triển có tiềm năng ứng dụng trong các lĩnh vực kỹ thuật khác như xử lý ngôn ngữ và robot.

Phương pháp điển hình được sử dụng để tạo ra các hệ thống AI có khả năng chơi trò chơi điện tử là sử dụng thuật toán học tăng cường. Các thuật toán học tăng cường học cách thực hiện một nhiệm vụ bằng cách khám phá một loạt các hành động có thể, và sau mỗi hành động, chúng được cung cấp một loại tăng cường (một phần thưởng hoặc hình phạt). Theo thời gian, mô hình AI học được những hành động nào dẫn đến phần thưởng lớn hơn, và nó trở nên có khả năng thực hiện những hành động này hơn. Thật không may, các mô hình học tăng cường gặp rắc rối khi chúng gặp phải các điểm dữ liệu không phù hợp với các điểm khác trong tập dữ liệu.

Theo đội nghiên cứu, lý do tại sao phương pháp của họ chưa được các nhà nghiên cứu AI khác xem xét là vì chiến lược khác với phương pháp “động lực nội tại” thường được sử dụng trong học tăng cường. Vấn đề với phương pháp động lực nội tại là mô hình có thể dễ bị “quên” về các khu vực có thể mang lại phần thưởng mà vẫn xứng đáng được khám phá. Hiện tượng này được gọi là “ngắt kết nối”. Do đó, khi mô hình gặp phải dữ liệu không mong muốn, nó có thể quên về các khu vực mà vẫn nên được khám phá.

Theo TechXplore, đội nghiên cứu đã thiết lập để tạo ra một mô hình học tập linh hoạt hơn và có khả năng phản ứng với dữ liệu không mong muốn. Các nhà nghiên cứu đã vượt qua vấn đề này bằng cách giới thiệu một thuật toán có khả năng nhớ tất cả các hành động được thực hiện bởi một phiên bản trước của mô hình khi nó cố gắng giải quyết một vấn đề. Khi mô hình AI gặp phải một điểm dữ liệu không nhất quán với những gì nó đã học được cho đến nay, mô hình sẽ kiểm tra bản đồ nhớ của nó. Mô hình sẽ xác định哪 các chiến lược thành công và thất bại và chọn chiến lược phù hợp.

Khi chơi một trò chơi điện tử, mô hình thu thập ảnh chụp màn hình của trò chơi khi nó chơi, tạo ra một nhật ký của các hành động của nó. Các hình ảnh được nhóm lại với nhau dựa trên sự tương似, tạo thành các điểm rõ ràng trong thời gian mà mô hình có thể tham khảo lại. Thuật toán có thể sử dụng các hình ảnh được ghi nhật ký để quay lại một điểm thú vị trong thời gian và tiếp tục khám phá từ đó. Khi mô hình tìm thấy rằng nó đang thua, nó sẽ tham khảo lại các ảnh chụp màn hình được chụp và thử một chiến lược khác.

Như được giải thích bởi BBC, cũng có vấn đề về việc xử lý các kịch bản nguy hiểm cho tác nhân AI chơi trò chơi. Nếu tác nhân gặp phải một nguy hiểm có thể giết nó, điều đó sẽ ngăn cản nó quay lại các khu vực xứng đáng được khám phá hơn, một vấn đề được gọi là “lỗi đường ray”. Mô hình AI xử lý các vấn đề lỗi đường ray thông qua một quá trình riêng biệt từ quá trình được sử dụng để khuyến khích khám phá các khu vực cũ.

Đội nghiên cứu đã cho mô hình chơi qua 55 trò chơi Atari. Những trò chơi này thường được sử dụng để đánh giá hiệu suất của các mô hình AI, nhưng các nhà nghiên cứu đã thêm một yếu tố mới cho mô hình của họ. Các nhà nghiên cứu đã giới thiệu các quy tắc bổ sung cho các trò chơi, chỉ đạo mô hình không chỉ đạt được điểm số cao nhất có thể mà còn cố gắng đạt được điểm số cao hơn mỗi lần. Khi kết quả của hiệu suất của mô hình được phân tích, các nhà nghiên cứu đã tìm thấy rằng hệ thống AI của họ đã vượt trội hơn các AI khác tại các trò chơi khoảng 85% thời gian. Mô hình AI thực hiện đặc biệt tốt tại trò chơi Montezuma’s Revenge, một trò chơi nền tảng nơi người chơi tránh các nguy hiểm và thu thập kho báu. Trò chơi này đã đánh bại kỷ lục của một người chơi và cũng đạt điểm cao hơn bất kỳ hệ thống AI nào khác.

Theo các nhà nghiên cứu AI của Uber, các chiến lược được sử dụng bởi đội nghiên cứu có ứng dụng cho các ngành công nghiệp như robot. Các robot được lợi từ khả năng nhớ lại những hành động nào thành công, những hành động nào không hoạt động và những hành động nào chưa được thử.

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.

Unite.AI

Các nhà nghiên cứu AI tạo ra mô hình chơi trò chơi điện tử có thể nhớ lại các sự kiện trong quá khứ

You may like