sơ khai DeepMind khám phá kỹ thuật đào tạo AI cũng có thể hoạt động trong não của chúng ta - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

DeepMind khám phá kỹ thuật đào tạo AI cũng có thể hoạt động trong não của chúng ta

mm
cập nhật on

DeepMind mới đây thôi xuất bản một bài báo trình bày chi tiết cách thức một loại hình học tập củng cố mới được phát triển có khả năng giải thích cách thức hoạt động của các con đường khen thưởng trong não người. Theo báo cáo của NewScientist, phương pháp đào tạo học máy được gọi là học tăng cường phân phối và các cơ chế đằng sau nó dường như giải thích một cách hợp lý cách các tế bào thần kinh trong não giải phóng dopamine.

Khoa học thần kinh và khoa học máy tính có một lịch sử lâu dài cùng nhau. Từ năm 1951, Marvin Minksy đã sử dụng hệ thống khen thưởng và trừng phạt để tạo ra một chương trình máy tính có khả năng giải một mê cung. Minksy lấy cảm hứng từ công trình của Ivan Pavlov, một nhà sinh lý học đã chứng minh rằng chó có thể học hỏi thông qua một loạt phần thưởng và hình phạt. Bài báo mới của Deepmind bổ sung vào lịch sử đan xen của khoa học thần kinh và khoa học máy tính bằng cách áp dụng một kiểu học tập củng cố để hiểu rõ hơn về cách các tế bào thần kinh dopamine có thể hoạt động.

Bất cứ khi nào một người hoặc động vật chuẩn bị thực hiện một hành động, tập hợp các tế bào thần kinh trong não của họ chịu trách nhiệm giải phóng dopamine sẽ đưa ra dự đoán về mức độ khen thưởng của hành động đó. Một khi hành động đã được thực hiện và hậu quả (phần thưởng) của hành động đó trở nên rõ ràng, não sẽ giải phóng dopamine. Tuy nhiên, việc giải phóng dopamine này được chia tỷ lệ phù hợp với kích thước của lỗi trong dự đoán. Nếu phần thưởng lớn hơn/tốt hơn mong đợi, lượng dopamine tăng mạnh hơn sẽ được kích hoạt. Ngược lại, phần thưởng kém hơn dẫn đến lượng dopamine được giải phóng ít hơn. Dopamine phục vụ như một chức năng điều chỉnh làm cho các tế bào thần kinh điều chỉnh các dự đoán của chúng cho đến khi chúng hội tụ về phần thưởng thực sự kiếm được. Điều này rất giống với cách hoạt động của các thuật toán học tăng cường.

Năm 2017 chứng kiến ​​các nhà nghiên cứu DeepMind phát hành phiên bản nâng cao của thuật toán học tăng cường thường được sử dụng và phương pháp học vượt trội này có thể tăng hiệu suất trên nhiều nhiệm vụ học tăng cường. Nhóm DeepMind nghĩ rằng các cơ chế đằng sau thuật toán mới có thể được sử dụng để giải thích rõ hơn cách các tế bào thần kinh dopamine hoạt động trong não người.

Trái ngược với các thuật toán học tăng cường cũ hơn, thuật toán mới hơn của DeepMind thể hiện phần thưởng dưới dạng phân phối. Các phương pháp học tăng cường cũ hơn thể hiện phần thưởng ước tính chỉ là một con số duy nhất đại diện cho kết quả mong đợi trung bình. Thay đổi này cho phép mô hình thể hiện chính xác hơn các phần thưởng có thể có và kết quả là hoạt động tốt hơn. Hiệu suất vượt trội của phương pháp đào tạo mới đã thúc đẩy các nhà nghiên cứu DeepMind điều tra xem liệu các tế bào thần kinh dopamine trong não người có hoạt động theo cách tương tự hay không.

Để điều tra hoạt động của các tế bào thần kinh dopamin, DeepMind đã hợp tác với Harvard để nghiên cứu hoạt động của các tế bào thần kinh dopamin ở chuột. Các nhà nghiên cứu đã cho những con chuột thực hiện các nhiệm vụ khác nhau và trao cho chúng phần thưởng dựa trên việc tung xúc xắc, ghi lại cách các tế bào thần kinh dopamine của chúng kích hoạt. Các tế bào thần kinh khác nhau dường như dự đoán các kết quả tiềm năng khác nhau, giải phóng lượng dopamine khác nhau. Một số tế bào thần kinh dự đoán thấp hơn phần thưởng thực tế trong khi một số dự đoán phần thưởng cao hơn phần thưởng thực tế. Sau khi vẽ biểu đồ phân phối dự đoán phần thưởng, các nhà nghiên cứu nhận thấy rằng phân phối dự đoán khá gần với phân phối phần thưởng thực sự. Điều này cho thấy rằng bộ não sử dụng hệ thống phân phối khi đưa ra dự đoán và điều chỉnh dự đoán để phù hợp hơn với thực tế.

Nghiên cứu có thể cung cấp thông tin cho cả khoa học thần kinh và khoa học máy tính. Nghiên cứu hỗ trợ việc sử dụng học tăng cường phân phối như một phương pháp tạo ra các mô hình AI tiên tiến hơn. Ngoài ra, nó có thể có ý nghĩa đối với các lý thuyết của chúng ta về cách bộ não hoạt động liên quan đến các hệ thống khen thưởng. Nếu các tế bào thần kinh dopamine được phân phối và một số bi quan hoặc lạc quan hơn những người khác, thì việc hiểu những sự phân phối này có thể thay đổi cách chúng ta tiếp cận các khía cạnh của tâm lý như sức khỏe tinh thần và động lực.

Như MIT Technology View đã báo cáo, Matt Botvinik, giám đốc nghiên cứu khoa học thần kinh tại DeepMind, đã giải thích tầm quan trọng của những phát hiện này trong một cuộc họp báo. Botvinik nói:

“Nếu bộ não đang sử dụng nó, đó có lẽ là một ý kiến ​​hay. Nó cho chúng ta biết rằng đây là một kỹ thuật tính toán có thể mở rộng quy mô trong các tình huống thực tế. Nó sẽ phù hợp tốt với các quy trình tính toán khác. Nó cho chúng ta một góc nhìn mới về những gì đang diễn ra trong bộ não của chúng ta trong cuộc sống hàng ngày.”