Connect with us

Trí tuệ nhân tạo

DeepMind Báo Cáo Phương Pháp Mới Để Đào Tạo Trí Tuệ Nhân Tạo Học Kích Sức An Toàn

mm

Học tăng cường là một hướng đi đầy hứa hẹn trong phát triển trí tuệ nhân tạo, tạo ra trí tuệ nhân tạo có thể xử lý các nhiệm vụ phức tạp cực kỳ. Các thuật toán học tăng cường được sử dụng trong việc tạo ra các hệ thống robot di động và xe tự lái trong số các ứng dụng khác. Tuy nhiên, do cách thức mà học tăng cường được đào tạo, chúng có thể偶爾 прояв ra các hành vi kỳ lạ và không mong muốn. Những hành vi này có thể nguy hiểm, và các nhà nghiên cứu trí tuệ nhân tạo gọi đây là vấn đề “khám phá an toàn”, nơi trí tuệ nhân tạo bị kẹt trong việc khám phá các trạng thái không an toàn.

Gần đây, phòng thí nghiệm nghiên cứu trí tuệ nhân tạo của Google, DeepMind, đã phát hành một bài báo đề xuất các phương pháp mới để giải quyết vấn đề khám phá an toàn và đào tạo trí tuệ nhân tạo học tăng cường một cách an toàn hơn. Phương pháp được đề xuất bởi DeepMind cũng sửa lỗi cho việc hack phần thưởng hoặc lỗ hổng trong tiêu chí phần thưởng.

Phương pháp mới của DeepMind có hai hệ thống khác nhau nhằm hướng dẫn hành vi của trí tuệ nhân tạo trong các tình huống có thể phát sinh hành vi không an toàn. Hai hệ thống được sử dụng bởi kỹ thuật đào tạo của DeepMind là mô hình tạo và mô hình động lực học tiến. Cả hai mô hình này được đào tạo trên nhiều loại dữ liệu, chẳng hạn như các bản demo bởi các chuyên gia an toàn và các đường đi xe hoàn toàn ngẫu nhiên. Dữ liệu được dán nhãn bởi một người giám sát với các giá trị phần thưởng cụ thể, và tác nhân trí tuệ nhân tạo sẽ nhận ra các mẫu hành vi để thu thập phần thưởng lớn nhất. Các trạng thái không an toàn cũng đã được dán nhãn, và khi mô hình đã dự đoán thành công phần thưởng và trạng thái không an toàn, nó sẽ được triển khai để thực hiện các hành động mục tiêu.

Đội ngũ nghiên cứu giải thích trong bài báo rằng ý tưởng là tạo ra các hành vi có thể từ đầu, để đề xuất các hành vi mong muốn, và để các kịch bản giả định này trở nên thông tin nhất có thể đồng thời tránh can thiệp trực tiếp vào môi trường học. Đội ngũ DeepMind gọi phương pháp này là ReQueST, hoặc tổng hợp truy vấn phần thưởng thông qua tối ưu hóa đường đi.

ReQueST có thể dẫn đến bốn loại hành vi khác nhau. Loại hành vi thứ nhất cố gắng tối đa hóa sự không chắc chắn về các mô hình phần thưởng tập hợp. Trong khi đó, hành vi thứ hai và thứ ba cố gắng tối thiểu hóa và tối đa hóa phần thưởng dự đoán. Phần thưởng dự đoán được tối thiểu hóa để dẫn đến việc phát hiện các hành vi mà mô hình có thể dự đoán không chính xác. Mặt khác, phần thưởng dự đoán được tối đa hóa để dẫn đến việc gắn nhãn hành vi có giá trị thông tin cao nhất. Cuối cùng, loại hành vi thứ tư cố gắng tối đa hóa tính mới của các đường đi, để mô hình tiếp tục khám phá bất kể phần thưởng dự kiến.

Khi mô hình đã đạt đến mức thu thập phần thưởng mong muốn, một tác nhân lập kế hoạch được sử dụng để đưa ra quyết định dựa trên các phần thưởng đã học. Phương pháp điều khiển dự đoán mô hình này cho phép các tác nhân học cách tránh các trạng thái không an toàn bằng cách sử dụng mô hình động và dự đoán các hậu quả có thể, trái ngược với các hành vi của các thuật toán học thông qua thử nghiệm và sai lầm.

Như được báo cáo bởi VentureBeat, các nhà nghiên cứu của DeepMind tin rằng dự án của họ là hệ thống học tăng cường đầu tiên có khả năng học trong một cách thức kiểm soát và an toàn:

“Tôi biết, ReQueST là thuật toán mô hình phần thưởng đầu tiên học an toàn về các trạng thái không an toàn và mở rộng để đào tạo các mô hình phần thưởng mạng nơ-ron trong các môi trường có trạng thái liên tục và chiều cao. Cho đến nay, chúng tôi chỉ chứng minh hiệu quả của ReQueST trong các lĩnh vực mô phỏng với động lực học tương đối đơn giản. Một hướng đi cho công việc trong tương lai là kiểm tra ReQueST trong các lĩnh vực 3D với vật lý thực tế hơn và các tác nhân khác hoạt động trong môi trường.”

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.