AI 101
Ensemble Learning Là Gì?

Một trong những kỹ thuật học máy mạnh mẽ nhất là học tập hợp. Học tập hợp là việc sử dụng nhiều mô hình học máy để cải thiện độ tin cậy và độ chính xác của dự đoán. Vậy làm thế nào việc sử dụng nhiều mô hình học máy lại dẫn đến dự đoán chính xác hơn? Những kỹ thuật nào được sử dụng để tạo ra mô hình học tập hợp? Chúng ta sẽ khám phá câu trả lời cho những câu hỏi này, xem xét lý do tại sao sử dụng mô hình tập hợp và các phương pháp chính để tạo ra mô hình tập hợp.
Ensemble Learning Là Gì?
Đơn giản nói, học tập hợp là quá trình đào tạo nhiều mô hình học máy và kết hợp đầu ra của chúng lại với nhau. Các mô hình khác nhau được sử dụng làm cơ sở để tạo ra một mô hình dự đoán tối ưu. Kết hợp một tập hợp đa dạng các mô hình học máy cá nhân có thể cải thiện sự ổn định của mô hình tổng thể, dẫn đến dự đoán chính xác hơn. Mô hình học tập hợp thường đáng tin cậy hơn các mô hình cá nhân, và do đó, chúng thường đứng đầu trong nhiều cuộc thi học máy.
Có nhiều kỹ thuật mà một kỹ sư có thể sử dụng để tạo ra một mô hình học tập hợp. Các kỹ thuật học tập hợp đơn giản bao gồm việc tính trung bình đầu ra của các mô hình khác nhau, trong khi cũng có các phương pháp và thuật toán phức tạp hơn được phát triển đặc biệt để kết hợp dự đoán của nhiều mô hình cơ bản lại với nhau.
Tại Sao Sử Dụng Phương Pháp Đào Tạo Tập Hợp?
Các mô hình học máy có thể khác nhau vì nhiều lý do. Các mô hình học máy khác nhau có thể hoạt động trên các mẫu dữ liệu dân số khác nhau, các kỹ thuật mô hình hóa khác nhau có thể được sử dụng, và một giả thuyết khác có thể được sử dụng.
Hãy tưởng tượng bạn đang chơi một trò chơi trivia với một nhóm lớn người. Nếu bạn đang chơi một mình, chắc chắn sẽ có một số chủ đề mà bạn có kiến thức về và nhiều chủ đề bạn không có kiến thức về. Giờ hãy giả sử bạn đang chơi trong một đội với những người khác. Giống như bạn, họ sẽ có một số kiến thức về chuyên môn của mình và không có kiến thức về các chủ đề khác. Tuy nhiên, khi kiến thức của bạn được kết hợp, bạn sẽ có dự đoán chính xác hơn cho nhiều lĩnh vực, và số lượng chủ đề mà đội của bạn thiếu kiến thức sẽ giảm. Đây là nguyên tắc tương tự như học tập hợp, kết hợp dự đoán của các thành viên trong đội (các mô hình cá nhân) để cải thiện độ chính xác và giảm thiểu lỗi.
Các nhà thống kê đã chứng minh rằng khi một đám đông người được yêu cầu đoán câu trả lời đúng cho một câu hỏi nhất định với một loạt câu trả lời có thể, tất cả các câu trả lời của họ sẽ tạo thành một phân phối xác suất. Những người thực sự biết câu trả lời đúng sẽ chọn câu trả lời đúng với sự tự tin, trong khi những người chọn câu trả lời sai sẽ phân phối dự đoán của họ trên phạm vi các câu trả lời sai có thể. Quay lại ví dụ về trò chơi trivia, nếu bạn và hai người bạn biết câu trả lời đúng là A, cả ba bạn sẽ bỏ phiếu cho A, trong khi ba người khác trong đội của bạn không biết câu trả lời sẽ dự đoán sai B, C, D hoặc E. Kết quả là A có ba phiếu và các câu trả lời khác có thể có tối đa một hoặc hai phiếu.
Tất cả các mô hình đều có một số lượng lỗi. Lỗi của một mô hình sẽ khác với lỗi được tạo ra bởi một mô hình khác, vì các mô hình khác nhau do các lý do được mô tả ở trên. Khi tất cả các lỗi được kiểm tra, chúng sẽ không tập trung vào một câu trả lời hoặc câu trả lời khác, mà sẽ phân tán xung quanh. Các dự đoán sai cơ bản sẽ được phân tán trên tất cả các câu trả lời sai có thể, hủy bỏ lẫn nhau. Trong khi đó, các dự đoán đúng từ các mô hình khác nhau sẽ tập trung xung quanh câu trả lời đúng. Khi sử dụng phương pháp đào tạo tập hợp, câu trả lời đúng có thể được tìm thấy với độ tin cậy cao hơn.
Các Phương Pháp Đào Tạo Tập Hợp Đơn Giản
Các phương pháp đào tạo tập hợp đơn giản thường chỉ liên quan đến việc áp dụng các kỹ thuật thống kê tóm tắt, chẳng hạn như xác định mode, trung bình hoặc trung bình có trọng số của một tập hợp dự đoán.
Mode đề cập đến phần tử thường xuyên nhất trong một tập hợp số. Để có được mode, các mô hình học máy cá nhân trả về dự đoán của chúng và những dự đoán này được coi là lá phiếu cho dự đoán cuối cùng. Việc tính trung bình của dự đoán được thực hiện bằng cách tính trung bình số học của dự đoán, làm tròn đến số nguyên gần nhất. Cuối cùng, một trung bình có trọng số có thể được tính bằng cách gán trọng số khác nhau cho các mô hình được sử dụng để tạo dự đoán, với trọng số đại diện cho tầm quan trọng được nhận thức của mô hình đó. Đại diện số của dự đoán lớp được nhân cùng với trọng số từ 0 đến 1,0, dự đoán có trọng số cá nhân sau đó được cộng lại với nhau và kết quả được làm tròn đến số nguyên gần nhất.
Các Phương Pháp Đào Tạo Tập Hợp Nâng Cao
Có ba kỹ thuật đào tạo tập hợp nâng cao chính, mỗi kỹ thuật được thiết kế để giải quyết một loại vấn đề học máy cụ thể. Các kỹ thuật “bagging” được sử dụng để giảm phương sai của dự đoán của mô hình, với phương sai đề cập đến mức độ kết quả dự đoán khác nhau khi dựa trên cùng một quan sát. Các kỹ thuật “boosting” được sử dụng để chống lại sự thiên vị của mô hình. Cuối cùng, “stacking” được sử dụng để cải thiện dự đoán nói chung.
Các phương pháp học tập hợp bản thân có thể được chia thành một trong hai nhóm khác nhau: phương pháp tuần tự và phương pháp tập hợp song song.
Các phương pháp tập hợp tuần tự được đặt tên “tuần tự” vì các mô hình cơ bản / học máy được tạo ra tuần tự. Trong trường hợp của các phương pháp tuần tự, ý tưởng cơ bản là sự phụ thuộc giữa các mô hình cơ bản được khai thác để có dự đoán chính xác hơn. Các ví dụ bị dán nhãn sai có trọng số của chúng được điều chỉnh trong khi các ví dụ được dán nhãn đúng giữ nguyên trọng số. Mỗi khi một học máy mới được tạo ra, trọng số sẽ thay đổi và độ chính xác (hy vọng) sẽ cải thiện.
Ngược lại với các mô hình tập hợp tuần tự, các phương pháp tập hợp song song tạo ra các mô hình cơ bản song song. Khi thực hiện học tập hợp song song, ý tưởng là khai thác sự độc lập của các mô hình cơ bản, vì tốc độ lỗi chung có thể được giảm bằng cách tính trung bình dự đoán của các học máy cá nhân.
Các phương pháp đào tạo tập hợp có thể là đồng nhất hoặc dị tính. Hầu hết các phương pháp học tập hợp là đồng nhất, có nghĩa là chúng sử dụng một loại mô hình học máy cơ bản / thuật toán. Ngược lại, các tập hợp dị tính sử dụng các thuật toán học máy khác nhau, đa dạng hóa và thay đổi các học máy để đảm bảo rằng độ chính xác là cao nhất có thể.
Ví Dụ Về Thuật Toán Học Tập Hợp

Hình ảnh hóa học tập hợp boosting. Ảnh: Sirakorn qua Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)
Ví dụ về các phương pháp tập hợp tuần tự bao gồm AdaBoost, XGBoost, và Gradient tree boosting. Đây đều là các mô hình boosting. Đối với các mô hình boosting này, mục tiêu là chuyển đổi các học máy yếu, hiệu suất kém thành các học máy mạnh mẽ hơn. Các mô hình như AdaBoost và XGBoost bắt đầu với nhiều học máy yếu, hiệu suất chỉ略 tốt hơn việc đoán ngẫu nhiên. Khi quá trình đào tạo tiếp tục, trọng số được áp dụng cho dữ liệu và điều chỉnh. Các trường hợp được phân loại sai bởi các học máy trong các vòng đào tạo trước được gán trọng số cao hơn. Sau khi quá trình này được lặp lại cho số vòng đào tạo mong muốn, dự đoán được kết hợp lại với nhau thông qua một tổng trọng số (đối với các nhiệm vụ hồi quy) và một lá phiếu trọng số (đối với các nhiệm vụ phân loại).

Quá trình học tập hợp bagging. Ảnh: SeattleDataGuy qua Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)
Một ví dụ về mô hình tập hợp song song là Random Forest classifier, và Random Forests cũng là một ví dụ về kỹ thuật bagging. Thuật ngữ “bagging” đến từ “bootstrap aggregation”. Các mẫu được lấy từ tập dữ liệu tổng thể bằng một kỹ thuật lấy mẫu gọi là “bootstrap sampling”, được sử dụng bởi các mô hình cơ bản để tạo dự đoán. Đối với các nhiệm vụ phân loại, đầu ra của các mô hình cơ bản được tổng hợp bằng cách bỏ phiếu, trong khi chúng được tính trung bình lại với nhau đối với các nhiệm vụ hồi quy. Random Forests sử dụng các cây quyết định cá nhân làm mô hình cơ bản của chúng, và mỗi cây trong tập hợp được xây dựng bằng một mẫu khác nhau từ tập dữ liệu. Một tập hợp con ngẫu nhiên của các tính năng cũng được sử dụng để tạo cây. Điều này dẫn đến các cây quyết định cá nhân được ngẫu hóa cao, tất cả đều được kết hợp lại với nhau để cung cấp dự đoán đáng tin cậy.

Hình ảnh hóa học tập hợp stacking. Ảnh: Supun Setunga qua Wikimedia Commons, CC BY S.A 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)
Về các kỹ thuật tập hợp stacking, nhiều mô hình hồi quy hoặc phân loại được kết hợp lại với nhau thông qua một mô hình cấp cao hơn, mô hình meta. Các mô hình cơ bản cấp thấp hơn được đào tạo bằng cách cho ăn toàn bộ tập dữ liệu. Đầu ra của các mô hình cơ bản sau đó được sử dụng làm tính năng để đào tạo mô hình meta. Các mô hình tập hợp stacking thường dị tính, nghĩa là chúng sử dụng các thuật toán học máy khác nhau.












