Robot

Các nhà khoa học máy tính sử dụng sự củng cố tích cực để dạy cho robot

Published October 28, 2020

Updated April 28, 2026

Alex McFarland

Các nhà khoa học máy tính tại Đại học Johns Hopkins đã triển khai kỹ thuật đào tạo lâu đời của sự củng cố tích cực, thường được sử dụng để đào tạo động vật như chó, trên một robot để nó có thể tự dạy mình những kỹ năng mới. Trong số những kỹ năng mới đó là khả năng xếp chồng các khối.

Robot được gọi là Spot, và theo các nhà nghiên cứu, nó có thể học các kỹ năng trong vài ngày mà truyền thống mất khoảng một tháng.

Sự củng cố tích cực

Sự củng cố tích cực được nhóm sử dụng để tăng cường các kỹ năng của robot. Tốc độ mà nhóm có thể làm điều này khiến cho việc triển khai các loại robot này trong thế giới thực trở nên dễ dàng hơn.

Công việc được công bố trên IEEE Robotics and Automation Letters, titled “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”

Andrew Hundt là một sinh viên tiến sĩ làm việc tại Đại học Johns Hopkins và là tác giả chính của nghiên cứu.

“Câu hỏi ở đây là làm thế nào chúng ta có thể giúp robot học một kỹ năng?” anh nói. “Tôi đã có chó nên tôi biết phần thưởng hiệu quả và đó là nguồn cảm hứng cho việc thiết kế thuật toán học của tôi.”

Một trong những lý do sự củng cố tích cực hoạt động trên máy tính là chúng không có não bộ trực giác, nghĩa là chúng cơ bản là một bức tranh trắng mà bất cứ thứ gì cũng có thể được chiếu lên. Nói cách khác, chúng phải học mọi thứ từ không có gì. Một trong những phương pháp học hiệu quả nhất cho máy tính là thử nghiệm và sai lầm, điều mà các nhà roboticists vẫn đang làm việc ngày nay.

Đây chính xác là những gì các nhà nghiên cứu đã làm khi họ tạo ra một hệ thống phần thưởng cho robot, tương tự như quá trình đào tạo một con chó bằng cách cho nó ăn vặt. Sự khác biệt là robot sẽ nhận được điểm số khi nó hoàn thành một nhiệm vụ chính xác.

https://www.youtube.com/watch?v=dvxqjJBWFD4

Kỹ năng được học

Khi nói đến việc học cách xếp chồng các khối, robot phải học cách tập trung vào các hành động xây dựng. Trong phương pháp này, Spot robot nhận được điểm số cao hơn khi nó hoàn thành các hành vi chính xác trong quá trình xếp chồng các khối. Ở đầu bên kia, nó không kiếm được gì cho các hành vi không chính xác. Nó kiếm được số điểm cao nhất bằng cách hoàn thành một chồng bốn khối với khối cuối cùng ở trên cùng.

Các nhà nghiên cứu đã thấy thành công lớn trong phương pháp này, với robot học trong vài ngày những gì sẽ mất vài tuần trong quá khứ. Bằng cách đào tạo một robot mô phỏng, nhóm đã giảm thời gian thực hành trước khi chuyển sang robot Spot.

“Robot muốn có điểm số cao hơn,” Hundt nói. “Nó nhanh chóng học được hành vi đúng để nhận được phần thưởng tốt nhất. Trên thực tế, nó từng mất một tháng thực hành để robot đạt được độ chính xác 100%. Chúng tôi đã có thể làm được điều đó trong hai ngày.”

Ngoài việc học cách xếp chồng các khối, robot cũng sử dụng sự củng cố tích cực để học các nhiệm vụ khác, chẳng hạn như cách chơi một trò chơi điều hướng mô phỏng.

“Vào đầu, robot không có ý tưởng về việc nó đang làm gì, nhưng nó sẽ trở nên tốt hơn và tốt hơn với mỗi lần thực hành. Nó không bao giờ bỏ cuộc và tiếp tục cố gắng xếp chồng và có thể hoàn thành nhiệm vụ 100% thời gian,” Hundt nói.

Một số ứng dụng có thể cho phương pháp này bao gồm đào tạo robot gia đình để hoàn thành các nhiệm vụ nhất định, cũng như cải thiện các phương tiện tự động.

“Mục tiêu của chúng tôi là cuối cùng phát triển các robot có thể thực hiện các nhiệm vụ phức tạp trong thế giới thực – như lắp ráp sản phẩm, chăm sóc người già và phẫu thuật,” Hager nói. “Chúng tôi hiện không biết cách lập trình các nhiệm vụ như vậy – thế giới quá phức tạp. Nhưng công việc như thế này cho thấy chúng tôi có hứa hẹn về ý tưởng rằng robot có thể học cách thực hiện các nhiệm vụ thực tế như vậy một cách an toàn và hiệu quả.”

Alex McFarland

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.

Unite.AI

Các nhà khoa học máy tính sử dụng sự củng cố tích cực để dạy cho robot

Sự củng cố tích cực

Kỹ năng được học

You may like