sơ khai DeepMind và Google Brain Aim tạo ra các phương pháp để nâng cao hiệu quả của việc học tăng cường - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

DeepMind và Google Brain Aim tạo ra các phương pháp để cải thiện hiệu quả của việc học tăng cường

mm
cập nhật on

Các hệ thống học tăng cường có thể mạnh mẽ và vững chắc, có thể thực hiện các nhiệm vụ cực kỳ phức tạp thông qua hàng nghìn lần lặp lại đào tạo. Mặc dù các thuật toán học tăng cường có khả năng kích hoạt hành vi phức tạp và đôi khi gây ngạc nhiên, nhưng chúng mất nhiều thời gian để đào tạo và yêu cầu lượng dữ liệu khổng lồ. Những yếu tố này làm cho các kỹ thuật học tăng cường trở nên kém hiệu quả và gần đây, các nhóm nghiên cứu từ Alphabet DeepMind và Google Brain đã nỗ lực tìm ra các phương pháp hiệu quả hơn để tạo ra các hệ thống học tăng cường.

Theo báo cáo của VentureBeat, nhóm nghiên cứu kết hợp gần đây đã đề xuất các phương pháp giúp đào tạo học tăng cường hiệu quả hơn. Một trong những cải tiến được đề xuất là một thuật toán có tên là Chia sẻ chính sách hành vi thích ứng (ABPS), trong khi cải tiến kia là một khung có tên là Bộ xấp xỉ hàm giá trị phổ quát (UVFA). ABPS cho phép các nhóm tác nhân AI chia sẻ trải nghiệm được chọn một cách thích ứng của họ, trong khi UVFA cho phép những AI đó điều tra đồng thời các chính sách khám phá theo chỉ đạo.

ABPS nhằm mục đích đẩy nhanh việc tùy chỉnh các siêu tham số khi đào tạo một mô hình. ABPS giúp việc tìm kiếm các siêu tham số tối ưu nhanh hơn bằng cách cho phép một số tác nhân khác nhau có các siêu tham số khác nhau chia sẻ kinh nghiệm về chính sách hành vi của họ. Nói chính xác hơn, ABPS cho phép các tác nhân học tăng cường chọn các hành động từ những hành động mà chính sách cho là ổn và sau đó, nó được trao phần thưởng và quan sát dựa trên trạng thái sau.

Các tác nhân tăng cường AI được đào tạo với nhiều cách kết hợp khác nhau của các siêu tham số có thể có, như tốc độ phân rã và tốc độ học tập. Khi đào tạo một mô hình, mục tiêu là mô hình hội tụ trên sự kết hợp của các siêu tham số mang lại cho nó hiệu suất tốt nhất và trong trường hợp này là những siêu tham số cũng cải thiện hiệu quả dữ liệu. Hiệu quả được tăng lên bằng cách đào tạo nhiều tác nhân cùng một lúc và chọn hành vi của chỉ một tác nhân sẽ được triển khai trong bước thời gian tiếp theo. Chính sách mà tác nhân đích có được sử dụng để lấy mẫu các hành động. Sau đó, quá trình chuyển đổi được ghi lại trong một không gian dùng chung và không gian này được đánh giá liên tục để việc lựa chọn chính sách không phải diễn ra thường xuyên. Khi kết thúc khóa đào tạo, một nhóm các đại lý được chọn và các đại lý có hiệu suất cao nhất được chọn để trải qua đợt triển khai cuối cùng.

Về mặt UVFA, nó cố gắng giải quyết một trong những vấn đề phổ biến của việc học tăng cường, đó là các tác nhân được tăng cường yếu thường không học các nhiệm vụ. UVFA cố gắng giải quyết vấn đề bằng cách yêu cầu đại lý tìm hiểu một bộ chính sách khai thác và thăm dò riêng biệt cùng một lúc. Việc tách biệt các nhiệm vụ sẽ tạo ra một khuôn khổ cho phép các chính sách khám phá tiếp tục khám phá môi trường trong khi các chính sách khai thác tiếp tục thử và tối đa hóa phần thưởng cho nhiệm vụ hiện tại. Các chính sách khám phá của UVFA đóng vai trò là kiến ​​trúc cơ sở sẽ tiếp tục cải thiện ngay cả khi không tìm thấy phần thưởng tự nhiên nào. Trong điều kiện như vậy, một chức năng tương ứng với phần thưởng nội tại được xấp xỉ, điều này thúc đẩy các tác nhân khám phá tất cả các trạng thái trong một môi trường, ngay cả khi họ thường xuyên quay lại trạng thái quen thuộc.

Như VentureBeat đã giải thích, khi khung UVFA đang hoạt động, phần thưởng nội tại của hệ thống được trao trực tiếp cho tác nhân dưới dạng đầu vào. Sau đó, tác nhân theo dõi biểu diễn của tất cả các yếu tố đầu vào (chẳng hạn như phần thưởng, hành động và trạng thái) trong một tập nhất định. Kết quả là phần thưởng được bảo toàn theo thời gian và chính sách của đại lý ít nhất cũng được nó thông báo mọi lúc.

Điều này được thực hiện với việc sử dụng mô-đun “tính mới nhiều tập” và mô-đun “tính mới lâu dài”. Chức năng của mô-đun đầu tiên là giữ bộ nhớ hiện tại, theo từng giai đoạn và ánh xạ các phát hiện hiện tại tới biểu diễn đã đề cập trước đó, cho phép tác nhân xác định phần thưởng nội tại theo từng giai đoạn cho mỗi bước đào tạo. Sau đó, trạng thái được liên kết với quan sát hiện tại được thêm vào bộ nhớ. Trong khi đó, mô-đun tính mới lâu dài chịu trách nhiệm ảnh hưởng đến tần suất tác nhân khám phá trong suốt nhiều tập.

Theo các nhóm của Alphabet/Google, các kỹ thuật đào tạo mới đã chứng minh tiềm năng cải thiện đáng kể trong khi đào tạo một hệ thống học tập tăng cường. UVFA đã có thể tăng gấp đôi hiệu suất của một số tác nhân cơ bản đã chơi các trò chơi Atari khác nhau. Trong khi đó, ABPS có thể tăng hiệu suất trên một số trò chơi Atari giống nhau, giảm khoảng 25% sự khác biệt giữa các đại lý có hiệu suất cao nhất. Thuật toán được đào tạo bởi UVFA đã có thể tự mình đạt được điểm số cao trong Cạm bẫy, thiếu bất kỳ tính năng được thiết kế nào của các bản trình diễn của con người.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.