sơ khai Học tăng cường là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Học tăng cường là gì?

mm
cập nhật on

Học tăng cường là gì?

Nói một cách đơn giản, học tăng cường là một kỹ thuật học máy bao gồm việc đào tạo một tác nhân trí tuệ nhân tạo thông qua việc lặp lại các hành động và phần thưởng liên quan. Tác nhân học tăng cường thử nghiệm trong một môi trường, thực hiện hành động và được khen thưởng khi thực hiện đúng hành động. Theo thời gian, đại lý học cách thực hiện các hành động sẽ tối đa hóa phần thưởng của nó. Đó là một định nghĩa nhanh về học tăng cường, nhưng xem xét kỹ hơn các khái niệm đằng sau học tăng cường sẽ giúp bạn hiểu rõ hơn, trực quan hơn về nó.

Thuật ngữ “học tăng cường” được chuyển thể từ khái niệm củng cố trong tâm lý học. Vì lý do đó, chúng ta hãy dành một chút thời gian để hiểu khái niệm tâm lý về sự củng cố. Theo nghĩa tâm lý, thuật ngữ củng cố đề cập đến điều gì đó làm tăng khả năng xảy ra một phản ứng/hành động cụ thể. Khái niệm củng cố này là một ý tưởng trung tâm của lý thuyết về điều hòa hoạt động, ban đầu được đề xuất bởi nhà tâm lý học BF Skinner. Trong bối cảnh này, củng cố là bất cứ điều gì làm tăng tần suất của một hành vi nhất định. Nếu chúng ta nghĩ về sự củng cố khả dĩ cho con người, thì đó có thể là những thứ như lời khen ngợi, tăng lương trong công việc, kẹo và các hoạt động vui chơi.

Theo nghĩa tâm lý truyền thống, có hai loại củng cố. Có củng cố tích cực và củng cố tiêu cực. Củng cố tích cực là việc bổ sung một thứ gì đó để nâng cao hành vi, chẳng hạn như thưởng cho chó của bạn khi nó cư xử tốt. Củng cố tiêu cực liên quan đến việc loại bỏ tác nhân kích thích để khơi gợi một hành vi, chẳng hạn như tắt tiếng ồn lớn để dỗ dành một con mèo lém lỉnh.

Củng cố tích cực và tiêu cực

Củng cố tích cực làm tăng tần suất của một hành vi trong khi củng cố tiêu cực làm giảm tần suất. Nói chung, củng cố tích cực là loại củng cố phổ biến nhất được sử dụng trong học tăng cường, vì nó giúp các mô hình tối đa hóa hiệu suất đối với một nhiệm vụ nhất định. Không chỉ vậy, sự củng cố tích cực còn dẫn dắt mô hình tạo ra những thay đổi bền vững hơn, những thay đổi có thể trở thành những khuôn mẫu nhất quán và tồn tại trong thời gian dài.

Ngược lại, trong khi củng cố tiêu cực cũng làm cho một hành vi có nhiều khả năng xảy ra hơn, nó được sử dụng để duy trì tiêu chuẩn hiệu suất tối thiểu thay vì đạt được hiệu suất tối đa của một mô hình. Củng cố tiêu cực trong học tăng cường có thể giúp đảm bảo rằng một mô hình tránh xa các hành động không mong muốn, nhưng nó không thể thực sự khiến một mô hình khám phá các hành động mong muốn.

Đào tạo một đại lý tăng cường

Khi một tác nhân học tăng cường được đào tạo, có bốn thành phần khác nhau or tiểu bang được sử dụng trong đào tạo: trạng thái ban đầu (Trạng thái 0), trạng thái mới (Trạng thái 1), hành động và phần thưởng.

Hãy tưởng tượng rằng chúng ta đang đào tạo một nhân viên tăng cường để chơi một trò chơi điện tử nền tảng trong đó mục tiêu của AI là đi đến cuối cấp bằng cách di chuyển ngay trên màn hình. Trạng thái ban đầu của trò chơi được rút ra từ môi trường, nghĩa là khung hình đầu tiên của trò chơi được phân tích và đưa vào mô hình. Dựa trên thông tin này, mô hình phải quyết định một hành động.

Trong giai đoạn đào tạo ban đầu, những hành động này là ngẫu nhiên nhưng khi mô hình được củng cố, một số hành động nhất định sẽ trở nên phổ biến hơn. Sau khi hành động được thực hiện, môi trường của trò chơi được cập nhật và một trạng thái hoặc khung mới được tạo. Nếu hành động do tác nhân thực hiện mang lại kết quả mong muốn, giả sử trong trường hợp này là tác nhân vẫn còn sống và chưa bị kẻ thù tấn công, một số phần thưởng sẽ được trao cho tác nhân và nhiều khả năng nó sẽ làm điều tương tự trong tương lai.

Hệ thống cơ bản này liên tục lặp đi lặp lại, lặp đi lặp lại và mỗi lần tác nhân cố gắng tìm hiểu thêm một chút và tối đa hóa phần thưởng của nó.

Nhiệm vụ theo từng tập so với liên tục

Các nhiệm vụ học tăng cường thường có thể được đặt vào một trong hai loại khác nhau: nhiệm vụ theo từng đợt và nhiệm vụ liên tục.

Các nhiệm vụ theo từng giai đoạn sẽ thực hiện vòng lặp học tập/đào tạo và cải thiện hiệu suất của chúng cho đến khi đáp ứng một số tiêu chí cuối cùng và quá trình đào tạo kết thúc. Trong một trò chơi, điều này có thể đạt đến cuối cấp độ hoặc rơi vào tình trạng nguy hiểm như gai. Ngược lại, các nhiệm vụ liên tục không có tiêu chí chấm dứt, về cơ bản là tiếp tục đào tạo mãi mãi cho đến khi kỹ sư chọn kết thúc đào tạo.

Monte Carlo vs Chênh lệch thời gian

Có hai cách chính để học hoặc đào tạo một tác nhân học tăng cường. TRONG phương pháp Monte Carlo, phần thưởng chỉ được chuyển đến đại lý (điểm của nó được cập nhật) khi kết thúc đợt huấn luyện. Nói cách khác, chỉ khi đạt được điều kiện kết thúc thì mô hình mới biết nó hoạt động tốt như thế nào. Sau đó, nó có thể sử dụng thông tin này để cập nhật và khi vòng đào tạo tiếp theo bắt đầu, nó sẽ phản hồi theo thông tin mới.

Sản phẩm phương pháp chênh lệch thời gian khác với phương pháp Monte Carlo ở chỗ ước tính giá trị, hoặc ước tính điểm số, được cập nhật trong quá trình đào tạo. Khi mô hình chuyển sang bước thời gian tiếp theo, các giá trị được cập nhật.

Thăm dò vs Khai thác

Đào tạo một tác nhân học tăng cường là một hành động cân bằng, liên quan đến việc cân bằng hai số liệu khác nhau: thăm dò và khai thác.

Thăm dò là hành động thu thập thêm thông tin về môi trường xung quanh, trong khi thăm dò là sử dụng thông tin đã biết về môi trường để kiếm điểm thưởng. Nếu một tác nhân chỉ khám phá và không bao giờ khai thác môi trường, các hành động mong muốn sẽ không bao giờ được thực hiện. Mặt khác, nếu tác nhân chỉ khai thác và không bao giờ khám phá, tác nhân sẽ chỉ học cách thực hiện một hành động và sẽ không khám phá ra các chiến lược khả thi khác để kiếm phần thưởng. Do đó, cân bằng giữa khám phá và khai thác là rất quan trọng khi tạo tác nhân học tăng cường.

Các trường hợp sử dụng để học tăng cường

Học tăng cường có thể được sử dụng trong nhiều vai trò khác nhau và nó phù hợp nhất cho các ứng dụng mà các tác vụ yêu cầu tự động hóa.

Tự động hóa các nhiệm vụ do rô-bốt công nghiệp thực hiện là một lĩnh vực mà học tăng cường tỏ ra hữu ích. Học tăng cường cũng có thể được sử dụng cho các vấn đề như khai thác văn bản, tạo các mô hình có thể tóm tắt các phần văn bản dài. Các nhà nghiên cứu cũng đang thử nghiệm sử dụng học tăng cường trong lĩnh vực chăm sóc sức khỏe, với các tác nhân tăng cường xử lý các công việc như tối ưu hóa các chính sách điều trị. Học tăng cường cũng có thể được sử dụng để tùy chỉnh tài liệu giáo dục cho học sinh.

Tóm tắt Học tăng cường

Học tăng cường là một phương pháp mạnh mẽ để xây dựng các tác nhân AI có thể dẫn đến kết quả ấn tượng và đôi khi gây ngạc nhiên. Đào tạo một tác nhân thông qua học tăng cường có thể phức tạp và khó khăn, vì phải lặp lại nhiều lần đào tạo và sự cân bằng tinh tế của sự phân đôi khám phá/khai thác. Tuy nhiên, nếu thành công, một tác nhân được tạo bằng học tăng cường có thể thực hiện các tác vụ phức tạp trong nhiều môi trường khác nhau.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.