AI 101
Học Tập Tập Hợp là gì?

Một trong những kỹ thuật máy học mạnh mẽ nhất là học tập tập hợp. Học tập tập hợp là việc sử dụng nhiều mô hình máy học để cải thiện độ tin cậy và độ chính xác của các dự đoán. Vậy làm thế nào mà việc sử dụng nhiều mô hình máy học lại dẫn đến các dự đoán chính xác hơn? Những loại kỹ thuật nào được sử dụng để tạo ra các mô hình học tập tập hợp? Chúng ta sẽ khám phá câu trả lời cho những câu hỏi này, xem xét lý do đằng sau việc sử dụng các mô hình tập hợp và những cách chính để tạo ra các mô hình tập hợp.
Học Tập Tập Hợp là gì?
Nói một cách đơn giản, học tập tập hợp là quá trình huấn luyện nhiều mô hình máy học và kết hợp đầu ra của chúng lại với nhau. Các mô hình khác nhau được sử dụng làm nền tảng để tạo ra một mô hình dự đoán tối ưu. Kết hợp một tập hợp đa dạng các mô hình máy học riêng lẻ có thể cải thiện tính ổn định của mô hình tổng thể, dẫn đến các dự đoán chính xác hơn. Các mô hình học tập tập hợp thường đáng tin cậy hơn các mô hình riêng lẻ, và do đó, chúng thường đứng đầu trong nhiều cuộc thi máy học. Có những kỹ thuật khác nhau mà một kỹ sư có thể sử dụng để tạo ra một mô hình học tập tập hợp. Các kỹ thuật học tập tập hợp đơn giản bao gồm những việc như tính trung bình đầu ra của các mô hình khác nhau, trong khi cũng có những phương pháp và thuật toán phức tạp hơn được phát triển đặc biệt để kết hợp các dự đoán của nhiều bộ học/mô hình cơ sở lại với nhau.
Tại sao Sử dụng Các Phương Pháp Huấn luyện Tập hợp?
Các mô hình máy học có thể khác nhau vì nhiều lý do. Các mô hình máy học khác nhau có thể hoạt động trên các mẫu dữ liệu dân số khác nhau, các kỹ thuật mô hình hóa khác nhau có thể được sử dụng, và một giả thuyết khác có thể được áp dụng. Hãy tưởng tượng bạn đang chơi một trò chơi đố vui với một nhóm người lớn. Nếu bạn ở trong một đội một mình, chắc chắn sẽ có một số chủ đề mà bạn có kiến thức và nhiều chủ đề bạn không biết gì. Bây giờ giả sử bạn đang chơi trong một đội với những người khác. Giống như bạn, họ sẽ có một số kiến thức về chuyên môn của riêng họ và không có kiến thức về các chủ đề khác. Tuy nhiên, khi kiến thức của bạn được kết hợp, bạn có những dự đoán chính xác hơn cho nhiều lĩnh vực hơn, và số lượng chủ đề mà đội của bạn thiếu kiến thức sẽ giảm đi. Đây là nguyên tắc tương tự làm nền tảng cho học tập tập hợp, kết hợp các dự đoán của các thành viên nhóm khác nhau (các mô hình riêng lẻ) để cải thiện độ chính xác và giảm thiểu lỗi. Các nhà thống kê đã chứng minh rằng khi một đám đông người được yêu cầu đoán câu trả lời đúng cho một câu hỏi nhất định với một loạt các câu trả lời có thể, tất cả câu trả lời của họ tạo thành một phân phối xác suất. Những người thực sự biết câu trả lời đúng sẽ chọn câu trả lời đúng một cách tự tin, trong khi những người chọn câu trả lời sai sẽ phân phối các dự đoán của họ trên phạm vi các câu trả lời sai có thể. Quay lại ví dụ về trò chơi đố vui, nếu bạn và hai người bạn của bạn biết câu trả lời đúng là A, cả ba bạn sẽ bỏ phiếu cho A, trong khi ba người khác trong đội của bạn không biết câu trả lời có khả năng đoán sai B, C, D hoặc E. Kết quả là A có ba phiếu và các câu trả lời khác có khả năng chỉ có một hoặc tối đa hai phiếu. Tất cả các mô hình đều có một lượng lỗi nhất định. Lỗi của một mô hình sẽ khác với lỗi do một mô hình khác tạo ra, vì bản thân các mô hình là khác nhau vì những lý do đã mô tả ở trên. Khi tất cả các lỗi được kiểm tra, chúng sẽ không tập trung xung quanh câu trả lời này hay câu trả lời khác, mà thay vào đó chúng sẽ phân tán xung quanh. Các dự đoán sai về cơ bản được trải rộng trên tất cả các câu trả lời sai có thể, triệt tiêu lẫn nhau. Trong khi đó, các dự đoán đúng từ các mô hình khác nhau sẽ tập trung xung quanh câu trả lời đúng thực sự. Khi các phương pháp huấn luyện tập hợp được sử dụng, câu trả lời đúng có thể được tìm thấy với độ tin cậy cao hơn.
Các Phương Pháp Huấn luyện Tập hợp Đơn giản
Các phương pháp huấn luyện tập hợp đơn giản thường chỉ liên quan đến việc áp dụng các kỹ thuật thống kê tóm tắt, chẳng hạn như xác định mode, trung bình cộng hoặc trung bình có trọng số của một tập hợp các dự đoán. Mode đề cập đến phần tử xuất hiện thường xuyên nhất trong một tập hợp số. Để có được mode, các mô hình học riêng lẻ trả về các dự đoán của chúng và những dự đoán này được coi là phiếu bầu cho dự đoán cuối cùng. Việc xác định trung bình cộng của các dự đoán được thực hiện đơn giản bằng cách tính toán trung bình cộng của các dự đoán, làm tròn đến số nguyên gần nhất. Cuối cùng, một trung bình có trọng số có thể được tính bằng cách gán các trọng số khác nhau cho các mô hình được sử dụng để tạo dự đoán, với các trọng số đại diện cho tầm quan trọng được nhận thức của mô hình đó. Biểu diễn số của dự đoán lớp được nhân với một trọng số từ 0 đến 1.0, các dự đoán có trọng số riêng lẻ sau đó được tổng hợp lại và kết quả được làm tròn đến số nguyên gần nhất.
Các Phương Pháp Huấn luyện Tập hợp Nâng cao
Có ba kỹ thuật huấn luyện tập hợp nâng cao chính, mỗi kỹ thuật được thiết kế để xử lý một loại vấn đề máy học cụ thể. Các kỹ thuật “Bagging” được sử dụng để giảm phương sai của các dự đoán của một mô hình, với phương sai đề cập đến mức độ kết quả dự đoán khác nhau khi dựa trên cùng một quan sát. Các kỹ thuật “Boosting” được sử dụng để chống lại độ chệch của các mô hình. Cuối cùng, “stacking” được sử dụng để cải thiện dự đoán nói chung. Bản thân các phương pháp học tập tập hợp thường có thể được chia thành một trong hai nhóm khác nhau: phương pháp tập hợp tuần tự và phương pháp tập hợp song song. Các phương pháp tập hợp tuần tự có tên “tuần tự” vì các bộ học/mô hình cơ sở được tạo ra một cách tuần tự. Trong trường hợp các phương pháp tuần tự, ý tưởng cốt lõi là sự phụ thuộc giữa các bộ học cơ sở được khai thác để có được các dự đoán chính xác hơn. Các ví dụ bị gán nhãn sai có trọng số của chúng được điều chỉnh trong khi các ví dụ được gán nhãn đúng duy trì cùng trọng số. Mỗi khi một bộ học mới được tạo ra, các trọng số thay đổi và độ chính xác (hy vọng) được cải thiện. Ngược lại với các mô hình tập hợp tuần tự, các phương pháp tập hợp song song tạo ra các bộ học cơ sở song song. Khi thực hiện học tập tập hợp song song, ý tưởng là khai thác thực tế rằng các bộ học cơ sở có tính độc lập, vì tỷ lệ lỗi chung có thể được giảm bằng cách lấy trung bình các dự đoán của các bộ học riêng lẻ. Các phương pháp huấn luyện tập hợp về bản chất có thể là đồng nhất hoặc không đồng nhất. Hầu hết các phương pháp học tập tập hợp là đồng nhất, có nghĩa là chúng sử dụng một loại mô hình/thuật toán học cơ sở duy nhất. Ngược lại, các tập hợp không đồng nhất sử dụng các thuật toán học khác nhau, đa dạng hóa và thay đổi các bộ học để đảm bảo độ chính xác cao nhất có thể.
Ví dụ về Các Thuật toán Học Tập Tập Hợp

Minh họa về boosting tập hợp. Ảnh: Sirakorn via Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)
Ví dụ về các phương pháp tập hợp tuần tự bao gồm AdaBoost, XGBoost và Gradient tree boosting. Đây đều là các mô hình boosting. Đối với các mô hình boosting này, mục tiêu là chuyển đổi các bộ học yếu, hoạt động kém thành các bộ học mạnh mẽ hơn. Các mô hình như AdaBoost và XGBoost bắt đầu với nhiều bộ học yếu chỉ hoạt động tốt hơn một chút so với việc đoán ngẫu nhiên. Khi quá trình huấn luyện tiếp tục, trọng số được áp dụng cho dữ liệu và được điều chỉnh. Các trường hợp bị phân loại sai bởi các bộ học trong các vòng huấn luyện trước đó được gán nhiều trọng số hơn. Sau khi quá trình này được lặp lại cho số vòng huấn luyện mong muốn, các dự đoán được kết hợp với nhau thông qua một tổng có trọng số (cho các tác vụ hồi quy) và một cuộc bỏ phiếu có trọng số (cho các tác vụ phân loại).

Quá trình học bagging. Ảnh: SeattleDataGuy via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)
Một ví dụ về mô hình tập hợp song song là bộ phân loại Random Forest, và Random Forests cũng là một ví dụ về kỹ thuật bagging. Thuật ngữ “bagging” xuất phát từ “bootstrap aggregation”. Các mẫu được lấy từ tổng tập dữ liệu bằng một kỹ thuật lấy mẫu được gọi là “bootstrap sampling”, được các bộ học cơ sở sử dụng để đưa ra dự đoán. Đối với các tác vụ phân loại, đầu ra của các mô hình cơ sở được tổng hợp bằng cách bỏ phiếu, trong khi chúng được tính trung bình với nhau cho các tác vụ hồi quy. Random Forests sử dụng các cây quyết định riêng lẻ làm bộ học cơ sở của chúng, và mỗi cây trong tập hợp được xây dựng bằng cách sử dụng một mẫu khác nhau từ tập dữ liệu. Một tập hợp con ngẫu nhiên các đặc trưng cũng được sử dụng để tạo ra cây. Dẫn đến các cây quyết định riêng lẻ được ngẫu nhiên hóa cao, tất cả đều được kết hợp với nhau để cung cấp các dự đoán đáng tin cậy.

Minh họa về stacking tập hợp. Ảnh: Supun Setunga via Wikimedia Commons, CC BY S.A 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)
Về các kỹ thuật tập hợp stacking, nhiều mô hình hồi quy hoặc phân loại được kết hợp với nhau thông qua một mô hình siêu cấp cao hơn. Các mô hình cơ sở cấp thấp hơn được huấn luyện bằng cách được cung cấp toàn bộ tập dữ liệu. Đầu ra của các mô hình cơ sở sau đó được sử dụng làm đặc trưng để huấn luyện mô hình siêu cấp. Các mô hình tập hợp stacking thường không đồng nhất về bản chất.












