AI 101

Reinforcement Learning là gì?

Published October 20, 2019

Updated March 16, 2026

Daniel Nelson

Reinforcement Learning là gì?

Nói một cách đơn giản, reinforcement learning là một kỹ thuật học máy liên quan đến việc huấn luyện một tác nhân trí tuệ nhân tạo thông qua sự lặp lại của các hành động và phần thưởng liên quan. Một tác nhân reinforcement learning thử nghiệm trong một môi trường, thực hiện các hành động và được thưởng khi thực hiện các hành động đúng. Theo thời gian, tác nhân học cách thực hiện các hành động để tối đa hóa phần thưởng của nó. Đó là định nghĩa nhanh về reinforcement learning, nhưng xem xét kỹ hơn các khái niệm đằng sau reinforcement learning sẽ giúp bạn hiểu rõ hơn và trực quan hơn về nó. Thuật ngữ “reinforcement learning” được điều chỉnh từ khái niệm reinforcement trong tâm lý học. Vì lý do đó, hãy dành một chút thời gian để hiểu khái niệm tâm lý học về reinforcement. Theo nghĩa tâm lý học, thuật ngữ reinforcement đề cập đến điều gì đó làm tăng khả năng xảy ra một phản ứng/hành động cụ thể. Khái niệm reinforcement này là ý tưởng trung tâm của lý thuyết điều kiện hóa thao tác, ban đầu được đề xuất bởi nhà tâm lý học B.F. Skinner. Trong ngữ cảnh này, reinforcement là bất cứ điều gì làm tăng tần suất của một hành vi nhất định. Nếu chúng ta nghĩ về các reinforcement có thể có cho con người, đó có thể là những thứ như lời khen ngợi, tăng lương tại nơi làm việc, kẹo và các hoạt động vui chơi. Theo nghĩa tâm lý học truyền thống, có hai loại reinforcement. Có reinforcement tích cực và reinforcement tiêu cực. Reinforcement tích cực là việc thêm một thứ gì đó để tăng cường một hành vi, như cho chú chó của bạn một món quà khi nó ngoan ngoãn. Reinforcement tiêu cực liên quan đến việc loại bỏ một kích thích để gợi ra một hành vi, như tắt tiếng ồn lớn để dụ một con mèo nhút nhát ra ngoài.

Reinforcement Tích cực & Tiêu cực

Reinforcement tích cực làm tăng tần suất của một hành vi trong khi reinforcement tiêu cực làm giảm tần suất. Nói chung, reinforcement tích cực là loại reinforcement phổ biến nhất được sử dụng trong reinforcement learning, vì nó giúp các mô hình tối đa hóa hiệu suất trong một nhiệm vụ nhất định. Không chỉ vậy, reinforcement tích cực dẫn dắt mô hình thực hiện những thay đổi bền vững hơn, những thay đổi có thể trở thành các mẫu hình nhất quán và tồn tại trong thời gian dài. Ngược lại, trong khi reinforcement tiêu cực cũng làm cho một hành vi có nhiều khả năng xảy ra hơn, nó được sử dụng để duy trì một tiêu chuẩn hiệu suất tối thiểu hơn là đạt được hiệu suất tối đa của một mô hình. Reinforcement tiêu cực trong reinforcement learning có thể giúp đảm bảo rằng một mô hình tránh xa các hành động không mong muốn, nhưng nó không thực sự có thể khiến một mô hình khám phá các hành động mong muốn.

Huấn luyện một Tác nhân Reinforcement

Khi một tác nhân reinforcement learning được huấn luyện, có bốn thành phần khác nhau hoặc trạng thái được sử dụng trong quá trình huấn luyện: trạng thái ban đầu (State 0), trạng thái mới (State 1), hành động và phần thưởng. Hãy tưởng tượng rằng chúng ta đang huấn luyện một tác nhân reinforcement để chơi một trò chơi điện tử platform nơi mục tiêu của AI là đi đến cuối màn chơi bằng cách di chuyển sang phải trên màn hình. Trạng thái ban đầu của trò chơi được rút ra từ môi trường, có nghĩa là khung hình đầu tiên của trò chơi được phân tích và đưa cho mô hình. Dựa trên thông tin này, mô hình phải quyết định một hành động. Trong các giai đoạn đầu của quá trình huấn luyện, các hành động này là ngẫu nhiên nhưng khi mô hình được reinforcement, một số hành động nhất định sẽ trở nên phổ biến hơn. Sau khi hành động được thực hiện, môi trường của trò chơi được cập nhật và một trạng thái hoặc khung hình mới được tạo ra. Nếu hành động do tác nhân thực hiện tạo ra một kết quả mong muốn, giả sử trong trường hợp này là tác nhân vẫn còn sống và không bị kẻ địch tấn công, một số phần thưởng sẽ được trao cho tác nhân và nó có nhiều khả năng thực hiện điều tương tự trong tương lai. Hệ thống cơ bản này được lặp lại liên tục, xảy ra lần này đến lần khác, và mỗi lần tác nhân cố gắng học hỏi thêm một chút và tối đa hóa phần thưởng của mình.

Nhiệm vụ Theo tập vs Liên tục

Các nhiệm vụ reinforcement learning thường có thể được phân vào một trong hai loại khác nhau: nhiệm vụ theo tập và nhiệm vụ liên tục. Các nhiệm vụ theo tập sẽ thực hiện vòng lặp học/huấn luyện và cải thiện hiệu suất của chúng cho đến khi đáp ứng một số tiêu chí kết thúc và quá trình huấn luyện bị chấm dứt. Trong một trò chơi, điều này có thể là đến cuối màn chơi hoặc rơi vào một mối nguy hiểm như gai nhọn. Ngược lại, các nhiệm vụ liên tục không có tiêu chí kết thúc, về cơ bản tiếp tục huấn luyện mãi mãi cho đến khi kỹ sư chọn kết thúc quá trình huấn luyện.

Monte Carlo vs Temporal Difference

Có hai cách chính để học, hoặc huấn luyện, một tác nhân reinforcement learning. Trong phương pháp Monte Carlo, phần thưởng được trao cho tác nhân (điểm số của nó được cập nhật) chỉ vào cuối tập huấn luyện. Nói cách khác, chỉ khi điều kiện kết thúc được kích hoạt thì mô hình mới biết nó đã thực hiện tốt như thế nào. Sau đó, nó có thể sử dụng thông tin này để cập nhật và khi vòng huấn luyện tiếp theo bắt đầu, nó sẽ phản ứng theo thông tin mới. Phương pháp temporal-difference khác với phương pháp Monte Carlo ở chỗ ước tính giá trị, hoặc ước tính điểm số, được cập nhật trong quá trình tập huấn luyện. Một khi mô hình chuyển sang bước thời gian tiếp theo, các giá trị sẽ được cập nhật.

Khám phá vs Khai thác

Huấn luyện một tác nhân reinforcement learning là một hành động cân bằng, liên quan đến việc cân bằng hai chỉ số khác nhau: khám phá và khai thác. Khám phá là hành động thu thập thêm thông tin về môi trường xung quanh, trong khi khai thác là sử dụng thông tin đã biết về môi trường để kiếm điểm thưởng. Nếu một tác nhân chỉ khám phá và không bao giờ khai thác môi trường, các hành động mong muốn sẽ không bao giờ được thực hiện. Mặt khác, nếu tác nhân chỉ khai thác và không bao giờ khám phá, tác nhân sẽ chỉ học cách thực hiện một hành động và sẽ không khám phá ra các chiến lược khả thi khác để kiếm phần thưởng. Do đó, việc cân bằng giữa khám phá và khai thác là rất quan trọng khi tạo ra một tác nhân reinforcement learning.

Các Trường hợp Sử dụng cho Reinforcement Learning

Reinforcement learning có thể được sử dụng trong nhiều vai trò khác nhau và nó phù hợp nhất cho các ứng dụng nơi các nhiệm vụ yêu cầu tự động hóa. Tự động hóa các nhiệm vụ được thực hiện bởi robot công nghiệp là một lĩnh vực mà reinforcement learning tỏ ra hữu ích. Reinforcement learning cũng có thể được sử dụng cho các vấn đề như khai thác văn bản, tạo ra các mô hình có thể tóm tắt các văn bản dài. Các nhà nghiên cứu cũng đang thử nghiệm sử dụng reinforcement learning trong lĩnh vực chăm sóc sức khỏe, với các tác nhân reinforcement xử lý các công việc như tối ưu hóa chính sách điều trị. Reinforcement learning cũng có thể được sử dụng để tùy chỉnh tài liệu giáo dục cho học sinh.

Tóm tắt về Reinforcement Learning

Reinforcement learning là một phương pháp mạnh mẽ để xây dựng các tác nhân AI có thể dẫn đến những kết quả ấn tượng và đôi khi đáng ngạc nhiên. Huấn luyện một tác nhân thông qua reinforcement learning có thể phức tạp và khó khăn, vì nó đòi hỏi nhiều lần lặp huấn luyện và sự cân bằng tinh tế của sự phân đôi khám phá/khai thác. Tuy nhiên, nếu thành công, một tác nhân được tạo ra bằng reinforcement learning có thể thực hiện các nhiệm vụ phức tạp trong nhiều môi trường khác nhau.

Unite.AI

Reinforcement Learning là gì?

Reinforcement Learning là gì?

Reinforcement Tích cực & Tiêu cực

Huấn luyện một Tác nhân Reinforcement

Nhiệm vụ Theo tập vs Liên tục

Monte Carlo vs Temporal Difference

Khám phá vs Khai thác

Các Trường hợp Sử dụng cho Reinforcement Learning

Tóm tắt về Reinforcement Learning

You may like