Trí tuệ nhân tạo

Trí tuệ nhân tạo mới của DeepMind có thể học các quy tắc của một trò chơi khi nó chơi

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Công ty con của Alphabet, DeepMind đã gần đây phát triển một hệ thống trí tuệ nhân tạo có khả năng học các quy tắc của một trò chơi khi nó chơi. Trong khi DeepMind đã tạo ra các mô hình trí tuệ nhân tạo ấn tượng có thể làm chủ các trò chơi như Cờ vua, Shogi, Cờ vây và trò chơi điện tử trước đó, những mô hình này phải được cung cấp các quy tắc của trò chơi trước. Như vậy, trí tuệ nhân tạo mới của DeepMind đại diện cho một cải tiến đáng kể so với các thuật toán trí tuệ nhân tạo trước đó học cách chơi trò chơi thông qua học tăng cường.

Hệ thống Trí tuệ nhân tạo – MuZero

Trong một bài báo được xuất bản gần đây trên tạp chí Nature, DeepMind đã mô tả cách hệ thống trí tuệ nhân tạo mới của họ hoạt động. Trí tuệ nhân tạo mới, được gọi là MuZero, có thể học các quy tắc của một trò chơi khi nó chơi nhờ vào một nguyên tắc gọi là “tìm kiếm trước”. Như được báo cáo bởi Engadget, MuZero sử dụng tìm kiếm trước để xác định các bước nên được thực hiện dựa trên các phản ứng có khả năng nhất từ các đối thủ.
Khi xem xét tất cả các bước có thể được thực hiện trong các trò chơi như cờ vua, MuZero có thể ưu tiên, thu hẹp các bước xuống chỉ các bước có khả năng và liên quan nhất. MuZero sẽ học từ cả các bước thành công và không thành công. Thay vì mô hình hóa tất cả các yếu tố có thể, nó chỉ xem xét các yếu tố có liên quan nhất đến quyết định tại tay. MuZero cơ bản lấy vô số biến số có thể được xem xét và cô đọng chúng xuống chỉ các tính năng quan trọng và có tác động nhất. Những tính năng này được đại diện trong một thuật toán tìm kiếm dựa trên cây. Các khả năng trong cây được kết hợp với một mô hình đã học dựa trên các tính năng của môi trường thử nghiệm. Tìm kiếm trước được thực hiện sau khi các khía cạnh quan trọng nhất của môi trường đã được xác định.
Để đưa ra một quyết định cuối cùng, ba yếu tố được xem xét.
MuZero xem xét kết quả của lựa chọn trước, vị trí hiện tại nó chiếm và các hành động có thể được thực hiện tiếp theo. Cách tiếp cận này vượt qua các cách tiếp cận trước đó được sử dụng bởi DeepMind, bao gồm tìm kiếm trước cơ bản và mô hình dựa trên cây. MuZero đã chứng minh là ít nhất cũng tốt như AlphaZero trong cờ vua, shogi và cờ vây, và khi nó chơi trò chơi Ms. Pac-Man, MuZero chỉ có thể xem xét khoảng sáu hoặc bảy bước tại một thời điểm. Mặc dù có giới hạn này, trí tuệ nhân tạo vẫn có thể hoạt động khá tốt. DeepMind cũng đã thử nghiệm khả năng của MuZero bằng cách giới hạn số lượng mô phỏng nó có thể hoàn thành trước khi nó phải cam kết với một bước. Generally, càng nhiều thời gian chương trình được cho để xem xét các bước có thể, nó hoạt động càng tốt.
Nhà khoa học nghiên cứu chính tại DeepMind, David Silver, giải thích qua TechXplore rằng MuZero là mô hình trí tuệ nhân tạo đầu tiên có thể tạo ra bản thể hiện của riêng nó về các quy tắc của một môi trường, sử dụng bản thể hiện đó để lên kế hoạch cho các hành động.
“Đối với lần đầu tiên, chúng tôi thực sự có một hệ thống có thể xây dựng sự hiểu biết của riêng nó về cách thế giới hoạt động và sử dụng sự hiểu biết đó để thực hiện loại lập kế hoạch trước tiên tiến như bạn đã từng thấy cho các trò chơi như cờ vua,” Silver nói. “(MuZero) có thể bắt đầu từ không, và chỉ thông qua thử nghiệm và sai lầm, cả khám phá các quy tắc của thế giới và sử dụng các quy tắc đó để đạt được loại hiệu suất siêu phàm.”

Ứng dụng có thể

Một trí tuệ nhân tạo thực sự có thể học các ràng buộc của một nhiệm vụ và hoạt động trong các ràng buộc đó có nhiều ứng dụng có thể. MuZero có thể được sử dụng cho các nhiệm vụ như nén video, điều này đã từng khó khăn để tự động hóa bằng trí tuệ nhân tạo, do nhiều định dạng video và chế độ nén khác nhau. MuZero đã có thể đạt được khoảng 5% cải tiến nén. Điều này có thể có ý nghĩa đối với số lượng lớn các video được lưu trữ bởi Google và YouTube. Ngoài video, DeepMind cũng đang xem xét sử dụng cùng các kỹ thuật MuZero cho thiết kế kiến trúc protein và lập trình robot.
Theo Wendy Hall, giáo sư Khoa học Máy tính tại Đại học Southampton, MuZero đại diện cho “một bước tiến quan trọng” cho các thuật toán học tăng cường. Tuy nhiên, Hall lo lắng rằng các thuật toán có thể bị lạm dụng. Ví dụ, Lực lượng Không quân Hoa Kỳ đã tham khảo các bài báo nghiên cứu sơ bộ về MuZero để tạo ra một hệ thống trí tuệ nhân tạo có thể phóng tên lửa từ máy bay do thám U-2. Điều này mặc dù các nhà nghiên cứu của DeepMind đã thể hiện sự phản đối sử dụng các thuật toán của họ cho bất kỳ vũ khí chết người nào, ký vào Lời thề Vũ khí Tự động Chết người để lập luận rằng bất kỳ công nghệ chết người nào nên ở dưới sự kiểm soát của con người.
Silver giải thích rằng DeepMind đang nhìn về tương lai, nhằm phát triển các thuật toán mạnh mẽ và linh hoạt như não bộ. Bước đầu tiên trong việc tạo ra các thuật toán linh hoạt và mạnh mẽ là hiểu được ý nghĩa của một hệ thống thông minh, và trí thông minh được liên kết với khả năng phân biệt các mẫu và quy tắc của một môi trường phức tạp.

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.

Unite.AI

Trí tuệ nhân tạo mới của DeepMind có thể học các quy tắc của một trò chơi khi nó chơi

Hệ thống Trí tuệ nhân tạo – MuZero

Ứng dụng có thể

You may like