sơ khai Tăng cường Gradient là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Tăng cường Gradient là gì?

mm
cập nhật on

Một loại mô hình học máy phổ biến được cho là cực kỳ hữu ích trong các cuộc thi khoa học dữ liệu là mô hình tăng cường độ dốc. Tăng cường độ dốc về cơ bản là quá trình chuyển đổi mô hình học yếu thành mô hình học mạnh. Tuy nhiên, làm thế nào chính xác điều này được thực hiện? Chúng ta hãy xem xét kỹ hơn các thuật toán tăng cường độ dốc và tốt hơn hiểu làm thế nào một mô hình tăng cường độ dốc chuyển những người học yếu kém thành những người học giỏi.

Xác định tăng cường độ dốc

Bài viết này nhằm mục đích cung cấp cho bạn một trực giác tốt về việc tăng cường độ dốc là gì mà không có nhiều sự cố về toán học làm nền tảng cho các thuật toán. Sau khi bạn đánh giá cao cách hoạt động của tính năng tăng cường độ dốc ở cấp độ cao, bạn nên tìm hiểu sâu hơn và khám phá phép toán giúp điều đó trở nên khả thi.

Hãy bắt đầu bằng cách xác định ý nghĩa của việc “thúc đẩy” người học. Người học yếu được chuyển đổi thành người học mạnh bằng cách điều chỉnh các thuộc tính của mô hình học tập. Chính xác thì thuật toán học tập nào đang được tăng cường?

Các mô hình tăng cường hoạt động bằng cách tăng cường một mô hình học máy phổ biến khác, một cây quyết định.

A cây quyết định mô hình hoạt động bằng cách chia tập dữ liệu thành các phần ngày càng nhỏ hơn và khi các tập hợp con không thể chia nhỏ hơn nữa thì kết quả là một cây có các nút và lá. Các nút trong cây quyết định là nơi đưa ra quyết định về điểm dữ liệu bằng cách sử dụng các tiêu chí lọc khác nhau. Các lá trong cây quyết định là các điểm dữ liệu đã được phân loại. Thuật toán cây quyết định có thể xử lý cả dữ liệu số và dữ liệu phân loại, đồng thời việc phân chia trong cây dựa trên các biến/tính năng cụ thể.

Minh họa về cách đào tạo các mô hình thúc đẩy.
Ảnh: SeattleDataBuy qua Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

Một loại thuật toán thúc đẩy là Thuật toán AdaBoost. Thuật toán AdaBoost bắt đầu bằng cách huấn luyện mô hình cây quyết định và gán trọng số bằng nhau cho mọi quan sát. Sau khi cây đầu tiên được đánh giá về độ chính xác, trọng số cho các quan sát khác nhau được điều chỉnh. Các quan sát dễ phân loại có trọng số giảm xuống, trong khi các quan sát khó phân loại có trọng số tăng lên. Cây thứ hai được tạo bằng cách sử dụng các trọng số đã điều chỉnh này, với mục đích là dự đoán của cây thứ hai sẽ chính xác hơn dự đoán của cây thứ nhất.

Mô hình hiện bao gồm các dự đoán cho cây ban đầu và cây mới (hoặc Cây 1 + Cây 2). Độ chính xác phân loại được đánh giá một lần nữa dựa trên mô hình mới. Cây thứ ba được tạo dựa trên sai số được tính toán cho mô hình và các trọng số một lần nữa được điều chỉnh. Quá trình này tiếp tục với một số lần lặp nhất định và mô hình cuối cùng là một mô hình tập hợp sử dụng tổng trọng số của các dự đoán được thực hiện bởi tất cả các cây được xây dựng trước đó.

Quá trình được mô tả ở trên sử dụng Cây quyết định và các công cụ dự đoán/mô hình cơ sở, tuy nhiên, phương pháp tăng cường có thể được thực hiện với nhiều loại mô hình như nhiều mô hình phân loại và mô hình hồi quy tiêu chuẩn. Các khái niệm chính cần hiểu là những người dự đoán tiếp theo học hỏi từ những sai lầm của những người trước đó và những người dự đoán được tạo tuần tự.

Ưu điểm chính của các thuật toán tăng tốc là chúng mất ít thời gian hơn để tìm ra các dự đoán hiện tại khi so sánh với các mô hình học máy khác. Tuy nhiên, cần cẩn thận khi sử dụng các thuật toán tăng cường vì chúng dễ bị quá khớp.

Tăng cường Gradient

Bây giờ chúng ta sẽ xem xét một trong những thuật toán tăng tốc phổ biến nhất. Mô hình Tăng cường Độ dốc (GBM) được biết đến với độ chính xác cao và chúng tăng cường các nguyên tắc chung được sử dụng trong AdaBoost.

Sự khác biệt chính giữa Mô hình tăng cường độ dốc và AdaBoost là GBM sử dụng một phương pháp khác để tính toán những người học đang xác định sai điểm dữ liệu. AdaBoost tính toán nơi một mô hình hoạt động kém hiệu quả bằng cách kiểm tra các điểm dữ liệu có trọng số cao. Trong khi đó, GBM sử dụng độ dốc để xác định độ chính xác của người học, áp dụng hàm mất mát cho mô hình. Các hàm mất mát là một cách để đo lường độ chính xác của sự phù hợp của mô hình trên tập dữ liệu, tính toán lỗi và tối ưu hóa mô hình để giảm lỗi đó. GBM cho phép người dùng tối ưu hóa một hàm tổn thất được chỉ định dựa trên mục tiêu mong muốn của họ.

Sử dụng hàm mất mát phổ biến nhất - Lỗi bình phương trung bình (MSE) - như một ví dụ, xuống dốc được sử dụng để cập nhật các dự đoán dựa trên tốc độ học được xác định trước, nhằm mục đích tìm các giá trị có tổn thất nhỏ nhất.

Để làm rõ hơn:

Dự đoán mô hình mới = biến đầu ra – dự đoán cũ không hoàn hảo.

Theo nghĩa thống kê hơn, GBM nhằm mục đích tìm các mẫu có liên quan trong phần dư của mô hình, điều chỉnh mô hình để phù hợp với mẫu và đưa phần dư về gần 0 nhất có thể. Nếu bạn thực hiện hồi quy các dự đoán của mô hình, phần dư sẽ được phân phối quanh XNUMX (hoàn toàn phù hợp) và GBM đang tìm các mẫu trong phần dư và cập nhật mô hình xung quanh các mẫu này.

Nói cách khác, các dự đoán được cập nhật sao cho tổng của tất cả các phần dư càng gần 0 càng tốt, nghĩa là các giá trị được dự đoán sẽ rất gần với các giá trị thực tế.

Lưu ý rằng GBM có thể sử dụng nhiều hàm mất mát khác (chẳng hạn như mất mát logarit). MSE đã được chọn ở trên với mục đích đơn giản.

Các biến thể trên các mô hình tăng cường độ dốc

Mô hình tăng cường độ dốc là các thuật toán tham lam có xu hướng khớp quá mức trên tập dữ liệu. Điều này có thể được bảo vệ chống lại với một số phương pháp khác nhau có thể cải thiện hiệu suất của GBM.

GBM có thể được điều chỉnh bằng bốn phương pháp khác nhau: Thu hẹp, Ràng buộc cây, Tăng cường độ dốc ngẫu nhiên và Học tập bị phạt.

Sự thu hẹp

Như đã đề cập trước đó, các dự đoán trong GBM được tổng hợp lại với nhau theo kiểu tuần tự. Trong “Shrinkage”, phần bổ sung của mỗi cây vào tổng thể được điều chỉnh. Các trọng số được áp dụng làm chậm tốc độ học của thuật toán, đòi hỏi phải thêm nhiều cây hơn vào mô hình, điều này thường cải thiện độ bền và hiệu suất của mô hình. Sự đánh đổi là mô hình mất nhiều thời gian hơn để đào tạo.

Ràng buộc cây

Hạn chế cây bằng nhiều điều chỉnh khác nhau như thêm chiều sâu cho cây hoặc tăng số lượng nút hoặc lá trong cây có thể khiến mô hình khó khớp hơn. Áp đặt một ràng buộc đối với số lượng quan sát tối thiểu trên mỗi lần phân tách cũng có tác dụng tương tự. Một lần nữa, sự đánh đổi là mô hình sẽ mất nhiều thời gian hơn để đào tạo.

Lấy mẫu ngẫu nhiên

Các học viên riêng lẻ có thể được tạo thông qua một quy trình ngẫu nhiên, dựa trên các mẫu con được chọn ngẫu nhiên của tập dữ liệu huấn luyện. Điều này có tác dụng làm giảm mối tương quan giữa các cây, giúp bảo vệ chống lại việc trang bị quá mức. Tập dữ liệu có thể được ghép lại trước khi tạo cây hoặc trước khi xem xét việc phân chia cây.

Hình phạt học tập

Ngoài việc hạn chế mô hình thông qua việc giới hạn cấu trúc của cây, có thể sử dụng cây hồi quy. Cây hồi quy có các giá trị số được gắn vào mỗi lá và các giá trị này có chức năng như trọng số và có thể được điều chỉnh bằng các hàm chính quy hóa phổ biến như chính quy hóa L1 và L2.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.