AI 101

Học Tăng Cường Sâu là gì?

Published April 17, 2020

Updated March 16, 2026

Daniel Nelson

Học Tăng Cường Sâu là gì?

Cùng với học máy không giám sát và học có giám sát, một hình thức phổ biến khác để tạo ra AI là học tăng cường. Vượt xa học tăng cường thông thường, học tăng cường sâu có thể dẫn đến những kết quả ấn tượng đến kinh ngạc, nhờ vào việc nó kết hợp những khía cạnh tốt nhất của cả học sâu và học tăng cường. Hãy cùng xem xét chính xác cách thức hoạt động của học tăng cường sâu. Trước khi đi sâu vào học tăng cường sâu, có lẽ chúng ta nên ôn lại cách thức hoạt động của học tăng cường thông thường. Trong học tăng cường, các thuật toán hướng mục tiêu được thiết kế thông qua một quá trình thử và sai, tối ưu hóa cho hành động dẫn đến kết quả tốt nhất/hành động nhận được nhiều “phần thưởng” nhất. Khi các thuật toán học tăng cường được huấn luyện, chúng được đưa ra “phần thưởng” hoặc “hình phạt” ảnh hưởng đến những hành động chúng sẽ thực hiện trong tương lai. Các thuật toán cố gắng tìm một tập hợp các hành động sẽ cung cấp cho hệ thống nhiều phần thưởng nhất, cân bằng cả phần thưởng trước mắt và tương lai. Các thuật toán học tăng cường rất mạnh mẽ vì chúng có thể được áp dụng cho hầu hết mọi nhiệm vụ, có khả năng học linh hoạt và động từ môi trường và khám phá các hành động có thể thực hiện.

Tổng quan về Học Tăng Cường Sâu

Ảnh: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Khi nói đến học tăng cường sâu, môi trường thường được biểu diễn bằng hình ảnh. Một hình ảnh là một bản chụp môi trường tại một thời điểm cụ thể. Tác nhân phải phân tích các hình ảnh và trích xuất thông tin liên quan từ chúng, sử dụng thông tin đó để quyết định hành động nào nên thực hiện. Học tăng cường sâu thường được thực hiện bằng một trong hai kỹ thuật khác nhau: học dựa trên giá trị và học dựa trên chính sách. Các kỹ thuật học dựa trên giá trị sử dụng các thuật toán và kiến trúc như mạng nơ-ron tích chập và Deep-Q-Networks. Các thuật toán này hoạt động bằng cách chuyển đổi hình ảnh sang thang độ xám và cắt bỏ các phần không cần thiết của hình ảnh. Sau đó, hình ảnh trải qua các phép toán tích chập và gộp khác nhau, trích xuất các phần quan trọng nhất của hình ảnh. Các phần quan trọng của hình ảnh sau đó được sử dụng để tính toán giá trị Q cho các hành động khác nhau mà tác nhân có thể thực hiện. Giá trị Q được sử dụng để xác định hành động tốt nhất cho tác nhân. Sau khi các giá trị Q ban đầu được tính toán, lan truyền ngược được thực hiện để có thể xác định các giá trị Q chính xác nhất. Các phương pháp dựa trên chính sách được sử dụng khi số lượng hành động có thể mà tác nhân có thể thực hiện là cực kỳ cao, điều này thường xảy ra trong các kịch bản thực tế. Những tình huống như vậy đòi hỏi một cách tiếp cận khác vì việc tính toán giá trị Q cho tất cả các hành động riêng lẻ là không thực tế. Các phương pháp tiếp cận dựa trên chính sách hoạt động mà không cần tính toán giá trị hàm cho từng hành động riêng lẻ. Thay vào đó, chúng áp dụng các chính sách bằng cách học trực tiếp chính sách, thường thông qua các kỹ thuật gọi là Policy Gradients. Policy gradients hoạt động bằng cách nhận một trạng thái và tính toán xác suất cho các hành động dựa trên kinh nghiệm trước đó của tác nhân. Hành động có xác suất cao nhất sau đó được chọn. Quá trình này được lặp lại cho đến khi kết thúc thời kỳ đánh giá và phần thưởng được trao cho tác nhân. Sau khi phần thưởng được xử lý với tác nhân, các tham số của mạng được cập nhật bằng lan truyền ngược.

Q-Learning là gì?

Vì Q-Learning là một phần lớn của quá trình học tăng cường sâu, hãy dành chút thời gian để thực sự hiểu cách thức hoạt động của hệ thống Q-learning. Quá trình Quyết định Markov

Một quá trình quyết định Markov. Ảnh: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Để một tác nhân AI thực hiện một loạt nhiệm vụ và đạt được mục tiêu, tác nhân phải có khả năng xử lý một chuỗi các trạng thái và sự kiện. Tác nhân sẽ bắt đầu ở một trạng thái và nó phải thực hiện một loạt hành động để đạt đến trạng thái kết thúc, và có thể có một số lượng lớn các trạng thái tồn tại giữa trạng thái bắt đầu và kết thúc. Việc lưu trữ thông tin về mọi trạng thái là không thực tế hoặc không thể, vì vậy hệ thống phải tìm cách chỉ bảo tồn thông tin trạng thái liên quan nhất. Điều này được thực hiện thông qua việc sử dụng Quá trình Quyết định Markov, chỉ bảo tồn thông tin về trạng thái hiện tại và trạng thái trước đó. Mọi trạng thái tuân theo một thuộc tính Markov, theo dõi cách tác nhân thay đổi từ trạng thái trước sang trạng thái hiện tại. Deep Q-Learning Khi mô hình có quyền truy cập vào thông tin về các trạng thái của môi trường học, các giá trị Q có thể được tính toán. Các giá trị Q là tổng phần thưởng được trao cho tác nhân ở cuối một chuỗi hành động. Các giá trị Q được tính toán với một chuỗi phần thưởng. Có một phần thưởng ngay lập tức, được tính ở trạng thái hiện tại và phụ thuộc vào hành động hiện tại. Giá trị Q cho trạng thái tiếp theo cũng được tính toán, cùng với giá trị Q cho trạng thái sau đó, và cứ tiếp tục cho đến khi tất cả các giá trị Q cho các trạng thái khác nhau đã được tính toán. Ngoài ra còn có một tham số Gamma được sử dụng để kiểm soát mức độ ảnh hưởng của phần thưởng tương lai đến hành động của tác nhân. Các chính sách thường được tính toán bằng cách khởi tạo ngẫu nhiên các giá trị Q và để mô hình hội tụ về các giá trị Q tối ưu trong quá trình đào tạo. Deep Q-Networks Một trong những vấn đề cơ bản liên quan đến việc sử dụng Q-learning cho học tăng cường là lượng bộ nhớ cần thiết để lưu trữ dữ liệu mở rộng nhanh chóng khi số lượng trạng thái tăng lên. Deep Q Networks giải quyết vấn đề này bằng cách kết hợp các mô hình mạng nơ-ron với các giá trị Q, cho phép một tác nhân học từ kinh nghiệm và đưa ra dự đoán hợp lý về các hành động tốt nhất cần thực hiện. Với deep Q-learning, các hàm giá trị Q được ước tính bằng mạng nơ-ron. Mạng nơ-ron lấy trạng thái làm dữ liệu đầu vào, và mạng xuất ra giá trị Q cho tất cả các hành động khác nhau mà tác nhân có thể thực hiện. Deep Q-learning được thực hiện bằng cách lưu trữ tất cả các kinh nghiệm trong quá khứ vào bộ nhớ, tính toán đầu ra tối đa cho mạng Q, và sau đó sử dụng một hàm mất mát để tính toán sự khác biệt giữa các giá trị hiện tại và các giá trị cao nhất có thể về mặt lý thuyết. Học Tăng Cường Sâu so với Học Sâu Một điểm khác biệt quan trọng giữa học tăng cường sâu và học sâu thông thường là trong trường hợp đầu tiên, các đầu vào liên tục thay đổi, điều này không xảy ra trong học sâu truyền thống. Làm thế nào mô hình học có thể tính đến các đầu vào và đầu ra liên tục thay đổi? Về cơ bản, để tính đến sự phân kỳ giữa các giá trị dự đoán và giá trị mục tiêu, có thể sử dụng hai mạng nơ-ron thay vì một. Một mạng ước tính các giá trị mục tiêu, trong khi mạng kia chịu trách nhiệm cho các dự đoán. Các tham số của mạng mục tiêu được cập nhật khi mô hình học, sau khi một số lần lặp đào tạo đã chọn trôi qua. Đầu ra của các mạng tương ứng sau đó được kết hợp với nhau để xác định sự khác biệt.

Học Dựa trên Chính sách

Các phương pháp tiếp cận học dựa trên chính sách hoạt động khác với các phương pháp dựa trên giá trị Q. Trong khi các phương pháp dựa trên giá trị Q tạo ra một hàm giá trị dự đoán phần thưởng cho các trạng thái và hành động, các phương pháp dựa trên chính sách xác định một chính sách sẽ ánh xạ các trạng thái thành hành động. Nói cách khác, hàm chính sách lựa chọn hành động được tối ưu hóa trực tiếp mà không liên quan đến hàm giá trị. Policy Gradients Một chính sách cho học tăng cường sâu rơi vào một trong hai loại: ngẫu nhiên hoặc xác định. Một chính sách xác định là nơi các trạng thái được ánh xạ tới các hành động, có nghĩa là khi chính sách được cung cấp thông tin về một trạng thái, một hành động được trả về. Trong khi đó, các chính sách ngẫu nhiên trả về một phân phối xác suất cho các hành động thay vì một hành động rời rạc, đơn lẻ. Các chính sách xác định được sử dụng khi không có sự không chắc chắn về kết quả của các hành động có thể được thực hiện. Nói cách khác, khi bản thân môi trường là xác định. Ngược lại, đầu ra chính sách ngẫu nhiên phù hợp cho các môi trường mà kết quả của hành động là không chắc chắn. Thông thường, các kịch bản học tăng cường liên quan đến một mức độ không chắc chắn nào đó nên các chính sách ngẫu nhiên được sử dụng. Các phương pháp tiếp cận policy gradient có một vài lợi thế so với các phương pháp Q-learning, cũng như một số nhược điểm. Về mặt lợi thế, các phương pháp dựa trên chính sách hội tụ về các tham số tối ưu nhanh hơn và đáng tin cậy hơn. Gradient chính sách chỉ có thể được theo dõi cho đến khi các tham số tốt nhất được xác định, trong khi với các phương pháp dựa trên giá trị, những thay đổi nhỏ trong giá trị hành động ước tính có thể dẫn đến những thay đổi lớn trong hành động và các tham số liên quan của chúng. Policy gradients cũng hoạt động tốt hơn cho không gian hành động chiều cao. Khi có một số lượng cực kỳ cao các hành động có thể thực hiện, deep Q-learning trở nên không thực tế vì nó phải gán một điểm số cho mọi hành động có thể tại tất cả các bước thời gian, điều này có thể là không thể về mặt tính toán. Tuy nhiên, với các phương pháp dựa trên chính sách, các tham số được điều chỉnh theo thời gian và số lượng tham số tốt nhất có thể nhanh chóng thu hẹp khi mô hình hội tụ. Policy gradients cũng có khả năng triển khai các chính sách ngẫu nhiên, không giống như các chính sách dựa trên giá trị. Bởi vì các chính sách ngẫu nhiên tạo ra một phân phối xác suất, một sự đánh đổi khám phá/khai thác không cần phải được triển khai. Về mặt nhược điểm, nhược điểm chính của policy gradients là chúng có thể bị kẹt trong khi tìm kiếm các tham số tối ưu, chỉ tập trung vào một tập hợp hẹp, cục bộ các giá trị tối ưu thay vì các giá trị tối ưu toàn cục. Hàm Điểm Chính sách Các chính sách được sử dụng để tối ưu hóa hiệu suất của mô hình nhằm tối đa hóa một hàm điểm – J(θ). Nếu J(θ) là thước đo mức độ tốt của chính sách của chúng ta để đạt được mục tiêu mong muốn, chúng ta có thể tìm các

Daniel Nelson

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.

Unite.AI

Học Tăng Cường Sâu là gì?

Học Tăng Cường Sâu là gì?

Tổng quan về Học Tăng Cường Sâu

Q-Learning là gì?

Học Dựa trên Chính sách

You may like