sơ khai Tác nhân AI thể hiện các thuộc tính trí tuệ mới nổi trong trốn tìm ảo - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Tác nhân AI thể hiện các thuộc tính trí tuệ mới nổi trong trốn tìm ảo

mm
cập nhật on

Một trong những sự thật thú vị về nghiên cứu AI là nó thường có thể thực hiện các hành động và theo đuổi các chiến lược khiến chính các nhà nghiên cứu thiết kế chúng phải ngạc nhiên. Điều này xảy ra trong một trò chơi trốn tìm ảo gần đây, trong đó nhiều đặc vụ AI đọ sức với nhau. Các nhà nghiên cứu tại OpenAI, một công ty AI có trụ sở tại San Francisco, đã rất ngạc nhiên khi thấy rằng các tác nhân AI của họ bắt đầu khai thác các chiến lược trong thế giới trò chơi mà các nhà nghiên cứu thậm chí không biết là có tồn tại.

OpenAI đã huấn luyện một nhóm các đặc vụ AI chơi trò trốn tìm với nhau. Các chương trình AI được đào tạo bằng phương pháp học tăng cường, một kỹ thuật trong đó hành vi mong muốn được gợi ra từ các thuật toán AI bằng cách cung cấp phản hồi cho các thuật toán. AI bắt đầu bằng cách thực hiện các hành động ngẫu nhiên và mỗi khi thực hiện một hành động giúp nó tiến gần hơn đến mục tiêu, tác nhân đó sẽ được thưởng. AI mong muốn đạt được số phần thưởng tối đa có thể, vì vậy nó sẽ thử nghiệm để xem hành động nào nhận được nhiều phần thưởng hơn. Thông qua thử và sai, AI có khả năng phân biệt các chiến lược sẽ mang lại cho họ chiến thắng, những chiến lược sẽ mang lại cho họ nhiều phần thưởng nhất.

học tăng cườngg đã thể hiện thành công ấn tượng trong việc học các quy tắc của trò chơi. OpenAI gần đây đã đào tạo một nhóm AI để chơi MMORPG DOTA 2và AI đã đánh bại một đội vô địch thế giới gồm những người chơi là con người vào năm ngoái. Điều tương tự cũng xảy ra với trò chơi StarCraft khi AI được DeepMind đào tạo về trò chơi. Học tăng cường cũng đã được sử dụng để dạy các chương trình AI chơi Pictionary với con người, học cách giải thích hình ảnh và sử dụng lý luận thông thường cơ bản.

Trong trò chơi điện tử trốn tìm do các nhà nghiên cứu tạo ra, nhiều tác nhân AI đã đọ sức với nhau. Kết quả là một cuộc chạy đua vũ trang, trong đó mỗi đặc vụ muốn vượt trội hơn người kia và giành được nhiều điểm thưởng nhất. Một chiến lược mới được một tác nhân áp dụng sẽ khiến đối thủ của nó tìm kiếm một chiến lược mới để chống lại nó và ngược lại. Igor Mordatch, một nhà nghiên cứu tại OpenAI, giải thích với IEEE Spectrum rằng thí nghiệm chứng minh rằng quá trình thử và chơi sai giữa các tác nhân “đủ để các tác nhân tự học các hành vi đáng ngạc nhiên—giống như trẻ em chơi với nhau vậy”.

Các hành vi đáng ngạc nhiên chính xác là gì? Các nhà nghiên cứu đã có bốn chiến lược cơ bản mà họ mong muốn các đặc vụ AI học được và họ đã học những chiến lược này khá nhanh, trở nên thành thạo chúng chỉ sau 25 triệu trò chơi mô phỏng. Trò chơi diễn ra trong môi trường 3d có đầy đủ các đường dốc, khối và tường. Các đặc vụ AI đã học cách rượt đuổi nhau xung quanh, di chuyển các khối để xây dựng pháo đài mà họ có thể ẩn nấp và di chuyển các đường dốc xung quanh. Những người tìm kiếm AI đã học cách kéo các đường dốc xung quanh để vào bên trong pháo đài của những người tìm kiếm, trong khi những người tìm kiếm học cách thử và đưa các đường dốc vào pháo đài của họ để những người tìm kiếm không thể sử dụng chúng.

Tuy nhiên, xung quanh điểm chuẩn 380 triệu trò chơi, một điều bất ngờ đã xảy ra. Các tác nhân AI đã học cách sử dụng hai chiến lược mà các nhà nghiên cứu không mong đợi. Các đặc vụ tìm kiếm đã học được rằng bằng cách nhảy lên một chiếc hộp và nghiêng/lái chiếc hộp về phía pháo đài gần đó, họ có thể nhảy vào pháo đài và tìm thấy người trốn. Các nhà nghiên cứu thậm chí còn không nhận ra rằng điều này có thể xảy ra trong môi trường vật lý của trò chơi. Những người chăn nuôi đã học cách giải quyết vấn đề này bằng cách kéo các hộp vào vị trí trong pháo đài của họ.

Mặc dù hành vi không mong muốn của các tác nhân được đào tạo về thuật toán học tăng cường là vô hại trong trường hợp này, nhưng nó làm dấy lên một số lo ngại tiềm ẩn về cách học tăng cường được áp dụng cho các tình huống khác. Một thành viên của nhóm nghiên cứu OpenAI, Bowen Baker, đã giải thích với IEEE Spectrum rằng những hành vi bất ngờ này có thể tiềm ẩn nguy hiểm. Rốt cuộc, điều gì sẽ xảy ra nếu robot bắt đầu hành xử theo những cách không mong muốn?

Baker giải thích: “Việc xây dựng những môi trường này rất khó. “Các đặc vụ sẽ đưa ra những hành vi không mong muốn này, đây sẽ là một vấn đề an toàn trong tương lai khi bạn đặt chúng vào những môi trường phức tạp hơn.”

Tuy nhiên, Baker cũng giải thích rằng các chiến lược củng cố có thể dẫn đến các giải pháp sáng tạo cho các vấn đề hiện tại. Các hệ thống được đào tạo với học tăng cường có thể giải quyết một loạt các vấn đề bằng các giải pháp mà chúng ta thậm chí không thể tưởng tượng được.