Trí tuệ nhân tạo
DeepMind và Google Brain Nhắm Tạo Phương Pháp Cải Thiện Hiệu Suất Của Học Luyện Cưỡng Bức

Các hệ thống học luyện cưỡng bức có thể mạnh mẽ và chắc chắn, có khả năng thực hiện các nhiệm vụ phức tạp thông qua hàng nghìn lần đào tạo. Mặc dù các thuật toán học luyện cưỡng bức có khả năng cho phép hành vi tinh vi và đôi khi gây ngạc nhiên, chúng mất nhiều thời gian để đào tạo và yêu cầu lượng lớn dữ liệu. Những yếu tố này làm cho các kỹ thuật học luyện cưỡng bức tương đối không hiệu quả, và gần đây các nhóm nghiên cứu từ Alphabet DeepMind và Google Brain đã cố gắng tìm ra các phương pháp hiệu quả hơn để tạo ra các hệ thống học luyện cưỡng bức.
Như được báo cáo bởi VentureBeat, nhóm nghiên cứu kết hợp gần đây đã đề xuất các phương pháp để làm cho quá trình đào tạo học luyện cưỡng bức hiệu quả hơn. Một trong những cải tiến được đề xuất là một thuật toán gọi là Chia Sẻ Chính Sách Hành Vi Thích Nghi (ABPS), trong khi phương pháp khác là một khuôn khổ gọi là Hàm Xấp Xỉ Giá Trị Toàn Cầu (UVFA). ABPS cho phép các nhóm đại lý AI chia sẻ kinh nghiệm được chọn thích nghi, trong khi UVFA cho phép các đại lý AI đồng thời điều tra các chính sách khám phá hướng dẫn.
ABPS được thiết kế để đẩy nhanh quá trình tùy chỉnh siêu tham số khi đào tạo mô hình. ABPS giúp tìm siêu tham số tối ưu nhanh hơn bằng cách cho phép nhiều đại lý khác nhau với các siêu tham số khác nhau chia sẻ kinh nghiệm chính sách hành vi. Để chính xác hơn, ABPS cho phép các đại lý học luyện cưỡng bức chọn hành động từ các hành động mà chính sách đã cho là ổn định và sau đó nó được thưởng và quan sát dựa trên trạng thái tiếp theo.
Các đại lý tăng cường trí tuệ nhân tạo được đào tạo với các kết hợp khác nhau của các siêu tham số có thể, như tốc độ giảm và tốc độ học. Khi đào tạo mô hình, mục tiêu là mô hình hội tụ về kết hợp siêu tham số mang lại hiệu suất tốt nhất, và trong trường hợp này cũng cải thiện hiệu quả dữ liệu. Hiệu quả được tăng lên bằng cách đào tạo nhiều đại lý cùng một lúc và chọn hành vi của chỉ một đại lý để triển khai trong bước thời gian tiếp theo. Chính sách mà đại lý mục tiêu có được được sử dụng để lấy mẫu hành động. Các chuyển đổi được đăng nhập trong không gian chia sẻ, và không gian này được đánh giá liên tục để chọn chính sách không cần phải xảy ra quá thường xuyên. Vào cuối đào tạo, một tập hợp các đại lý được chọn và các đại lý hoạt động hàng đầu được chọn để triển khai cuối cùng.
Về UVFA, nó cố gắng giải quyết một trong những vấn đề phổ biến của học luyện cưỡng bức, đó là các đại lý tăng cường yếu thường không học được nhiệm vụ. UVFA cố gắng giải quyết vấn đề này bằng cách cho phép đại lý học một tập hợp riêng biệt các chính sách khai thác và khám phá cùng một lúc. Việc tách các nhiệm vụ này tạo ra một khuôn khổ cho phép các chính sách khám phá tiếp tục khám phá môi trường trong khi các chính sách khai thác tiếp tục cố gắng tối đa hóa phần thưởng cho nhiệm vụ hiện tại. Các chính sách khám phá của UVFA đóng vai trò như một kiến trúc cơ sở sẽ tiếp tục cải thiện ngay cả khi không có phần thưởng tự nhiên được tìm thấy. Trong điều kiện như vậy, một hàm tương ứng với phần thưởng nội tại được xấp xỉ, điều này thúc đẩy các đại lý khám phá tất cả các trạng thái trong môi trường, ngay cả khi chúng thường quay lại các trạng thái quen thuộc.
Như VentureBeat giải thích, khi khuôn khổ UVFA được áp dụng, các phần thưởng nội tại của hệ thống được cung cấp trực tiếp cho đại lý dưới dạng đầu vào. Đại lý sau đó giữ một biểu diễn của tất cả các đầu vào (như phần thưởng, hành động và trạng thái) trong một tập phim nhất định. Kết quả là phần thưởng được bảo tồn theo thời gian và chính sách của đại lý ít nhất được thông tin bởi nó ở mọi thời điểm.
Điều này được thực hiện với sự sử dụng của một mô-đun “tính mới của tập phim” và một mô-đun “tính mới suốt đời”. Chức năng của mô-đun đầu tiên là giữ bộ nhớ tập phim hiện tại và ánh xạ các phát hiện hiện tại đến biểu diễn đã đề cập, cho phép đại lý xác định một phần thưởng nội tại của tập phim cho mỗi bước đào tạo. Sau đó, trạng thái liên kết với quan sát hiện tại được thêm vào bộ nhớ. Trong khi đó, mô-đun tính mới suốt đời chịu trách nhiệm ảnh hưởng đến tần suất đại lý khám phá trong quá trình nhiều tập phim.
Theo các nhóm nghiên cứu của Alphabet/Google, các kỹ thuật đào tạo mới đã chứng minh tiềm năng cải thiện đáng kể khi đào tạo một hệ thống học luyện cưỡng bức. UVFA đã có thể tăng gấp đôi hiệu suất của một số đại lý cơ sở chơi các trò chơi Atari khác nhau. Trong khi đó, ABPS đã có thể tăng hiệu suất trên một số trò chơi Atari giống nhau, giảm biến thể giữa các đại lý hoạt động hàng đầu khoảng 25%. Thuật toán được đào tạo bằng UVFA đã có thể đạt được điểm số cao trong trò chơi Pitfall mà không cần bất kỳ tính năng được thiết kế của các bản demo con người.












