AI 101

Reinforcement Learning là gì?

Published October 20, 2019

Updated April 28, 2026

Daniel Nelson

Reinforcement Learning là gì?

Được đơn giản hóa, reinforcement learning là một kỹ thuật học máy liên quan đến việc đào tạo một tác nhân trí tuệ nhân tạo thông qua việc lặp lại các hành động và phần thưởng liên quan. Một tác nhân reinforcement learning thực nghiệm trong một môi trường, thực hiện các hành động và được thưởng khi thực hiện các hành động chính xác. Theo thời gian, tác nhân học cách thực hiện các hành động sẽ tối đa hóa phần thưởng của nó. Đó là một định nghĩa nhanh về reinforcement learning, nhưng việc xem xét kỹ lưỡng các khái niệm đằng sau reinforcement learning sẽ giúp bạn có được một sự hiểu biết tốt hơn, trực quan hơn về nó.

Thuật ngữ “reinforcement learning” được lấy từ khái niệm reinforcement trong tâm lý học. Vì lý do đó, hãy dành một chút thời gian để hiểu khái niệm reinforcement trong tâm lý học. Trong ý nghĩa tâm lý, thuật ngữ reinforcement đề cập đến điều gì đó làm tăng khả năng một phản ứng/hành động cụ thể sẽ xảy ra. Khái niệm reinforcement này là một ý tưởng trung tâm của lý thuyết điều kiện hóa vận hành, ban đầu được đề xuất bởi nhà tâm lý học B.F. Skinner. Trong bối cảnh này, reinforcement là bất cứ điều gì gây ra tần suất của một hành vi nhất định tăng lên. Nếu chúng ta nghĩ về các loại reinforcement có thể cho con người, những điều này có thể là những điều như lời khen, tăng lương tại nơi làm việc, kẹo và các hoạt động thú vị.

Trong ý nghĩa truyền thống, tâm lý học, có hai loại reinforcement. Có reinforcement tích cực và reinforcement tiêu cực. Reinforcement tích cực là việc thêm một thứ gì đó để tăng một hành vi, như cho chó một món ăn khi nó表现 tốt. Reinforcement tiêu cực liên quan đến việc loại bỏ một kích thích để gây ra một hành vi, như tắt tiếng ồn lớn để thu hút một con mèo rụt rè.

Reinforcement Tích cực & Tiêu cực

Reinforcement tích cực làm tăng tần suất của một hành vi trong khi reinforcement tiêu cực làm giảm tần suất. Generally, reinforcement tích cực là loại reinforcement phổ biến nhất được sử dụng trong reinforcement learning, vì nó giúp các mô hình tối đa hóa hiệu suất trên một nhiệm vụ nhất định. Không chỉ vậy, mà reinforcement tích cực còn dẫn đến mô hình thực hiện các thay đổi bền vững, những thay đổi có thể trở thành các mẫu nhất quán và tồn tại trong thời gian dài.

Ngược lại, trong khi reinforcement tiêu cực cũng làm cho một hành vi có khả năng xảy ra, nó được sử dụng để duy trì một tiêu chuẩn hiệu suất tối thiểu chứ không phải đạt được hiệu suất tối đa của mô hình. Reinforcement tiêu cực trong reinforcement learning có thể giúp đảm bảo rằng một mô hình tránh được các hành động không mong muốn, nhưng nó không thể thực sự khiến mô hình khám phá các hành động mong muốn.

Đào tạo một Tác nhân Reinforcement

Khi một tác nhân reinforcement learning được đào tạo, có bốn thành phần khác nhau hoặc trạng thái được sử dụng trong đào tạo: trạng thái ban đầu (Trạng thái 0), trạng thái mới (Trạng thái 1), hành động và phần thưởng.

Hãy tưởng tượng rằng chúng ta đang đào tạo một tác nhân reinforcement để chơi một trò chơi nền tảng video nơi mục tiêu của AI là đến cuối cấp độ bằng cách di chuyển sang phải trên màn hình. Trạng thái ban đầu của trò chơi được rút ra từ môi trường, có nghĩa là khung hình đầu tiên của trò chơi được phân tích và đưa đến mô hình. Dựa trên thông tin này, mô hình phải quyết định một hành động.

Trong các giai đoạn đào tạo ban đầu, những hành động này là ngẫu nhiên nhưng khi mô hình được tăng cường, một số hành động sẽ trở nên phổ biến hơn. Sau khi hành động được thực hiện, môi trường của trò chơi được cập nhật và một trạng thái mới hoặc khung hình được tạo. Nếu hành động được thực hiện bởi tác nhân tạo ra một kết quả mong muốn, hãy nói trong trường hợp này rằng tác nhân vẫn còn sống và không bị tấn công bởi một kẻ thù, một số phần thưởng được trao cho tác nhân và nó trở nên có khả năng thực hiện lại trong tương lai.

Hệ thống cơ bản này được lặp lại liên tục, xảy ra lại và lại, và mỗi lần tác nhân cố gắng học một chút và tối đa hóa phần thưởng của nó.

Nhiệm vụ Episodic so với Nhiệm vụ Liên tục

Các nhiệm vụ reinforcement learning có thể thường được phân vào một trong hai loại khác nhau: nhiệm vụ episodic và nhiệm vụ liên tục.

Nhiệm vụ episodic sẽ thực hiện vòng lặp học/training và cải thiện hiệu suất cho đến khi một số tiêu chí kết thúc được đáp ứng và đào tạo được chấm dứt. Trong một trò chơi, điều này có thể là đạt đến cuối cấp độ hoặc rơi vào một chướng ngại vật như đinh. Ngược lại, nhiệm vụ liên tục không có tiêu chí chấm dứt, về cơ bản là tiếp tục đào tạo mãi mãi cho đến khi kỹ sư chọn chấm dứt đào tạo.

Monte Carlo so với Temporal Difference

Có hai cách chính để học, hoặc đào tạo, một tác nhân reinforcement learning. Trong phương pháp Monte Carlo, phần thưởng được giao cho tác nhân (điểm số của nó được cập nhật) chỉ tại cuối kỳ đào tạo. Để nói một cách khác, chỉ khi điều kiện chấm dứt được đáp ứng, mô hình mới học cách thực hiện tốt như thế nào. Nó có thể sử dụng thông tin này để cập nhật và khi vòng đào tạo tiếp theo được bắt đầu, nó sẽ phản ứng theo thông tin mới.

Phương pháp temporal-difference khác với phương pháp Monte Carlo ở chỗ việc ước tính giá trị, hoặc ước tính điểm, được cập nhật trong quá trình kỳ đào tạo. Một khi mô hình tiến đến bước thời gian tiếp theo, các giá trị được cập nhật.

Khám phá so với Khai thác

Đào tạo một tác nhân reinforcement learning là một hành động cân bằng, liên quan đến việc cân bằng hai chỉ số khác nhau: khám phá và khai thác.

Khám phá là hành động thu thập thêm thông tin về môi trường xung quanh, trong khi khai thác là sử dụng thông tin đã biết về môi trường để kiếm điểm phần thưởng. Nếu một tác nhân chỉ khám phá và không bao giờ khai thác môi trường, các hành động mong muốn sẽ không bao giờ được thực hiện. Mặt khác, nếu tác nhân chỉ khai thác và không bao giờ khám phá, tác nhân sẽ chỉ học cách thực hiện một hành động và sẽ không khám phá các chiến lược khác để kiếm điểm phần thưởng. Do đó, việc cân bằng khám phá và khai thác là rất quan trọng khi tạo một tác nhân reinforcement learning.

Trường hợp Sử dụng cho Reinforcement Learning

Reinforcement learning có thể được sử dụng trong nhiều vai trò khác nhau, và nó phù hợp nhất với các ứng dụng mà nhiệm vụ yêu cầu tự động hóa.

Tự động hóa các nhiệm vụ để được thực hiện bởi rô-bốt công nghiệp là một lĩnh vực mà reinforcement learning chứng minh là hữu ích. Reinforcement learning cũng có thể được sử dụng cho các vấn đề như khai thác văn bản, tạo ra các mô hình có thể tóm tắt các văn bản dài. Các nhà nghiên cứu cũng đang thử nghiệm việc sử dụng reinforcement learning trong lĩnh vực chăm sóc sức khỏe, với các tác nhân reinforcement xử lý các công việc như tối ưu hóa các chính sách điều trị. Reinforcement learning cũng có thể được sử dụng để tùy chỉnh tài liệu giáo dục cho học sinh.

Tóm tắt về Reinforcement Learning

Reinforcement learning là một phương pháp mạnh mẽ để xây dựng các tác nhân AI có thể dẫn đến kết quả ấn tượng và đôi khi gây ngạc nhiên. Việc đào tạo một tác nhân thông qua reinforcement learning có thể phức tạp và khó khăn, vì nó đòi hỏi nhiều vòng lặp đào tạo và một sự cân bằng tinh tế của sự khám phá/khai thác. Tuy nhiên, nếu thành công, một tác nhân được tạo ra với reinforcement learning có thể thực hiện các nhiệm vụ phức tạp trong nhiều môi trường khác nhau.

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.

Unite.AI

Reinforcement Learning là gì?

Reinforcement Learning là gì?

Reinforcement Tích cực & Tiêu cực

Đào tạo một Tác nhân Reinforcement

Nhiệm vụ Episodic so với Nhiệm vụ Liên tục

Monte Carlo so với Temporal Difference

Khám phá so với Khai thác

Trường hợp Sử dụng cho Reinforcement Learning

Tóm tắt về Reinforcement Learning

You may like