AI 101
Các Mô Hình Học Máy Tạo Và Phân Biệt

Một số mô hình học máy thuộc về một trong hai loại “tạo” hoặc “phân biệt”. Vậy sự khác biệt giữa hai loại mô hình này là gì? Điều gì có nghĩa là một mô hình là phân biệt hoặc tạo?
Câu trả lời ngắn gọn là các mô hình tạo bao gồm phân phối của tập dữ liệu, trả về một xác suất cho một ví dụ nhất định. Các mô hình tạo thường được sử dụng để dự đoán điều gì xảy ra tiếp theo trong một chuỗi. Trong khi đó, các mô hình phân biệt được sử dụng cho việc phân loại hoặc hồi quy và chúng trả về một dự đoán dựa trên xác suất có điều kiện. Hãy cùng khám phá sự khác biệt giữa các mô hình tạo và phân biệt chi tiết hơn, để chúng ta có thể hiểu rõ ràng về những gì phân biệt hai loại mô hình này và khi nào nên sử dụng từng loại.
Các Mô Hình Tạo Và Phân Biệt
Có nhiều cách để phân loại một mô hình học máy. Một mô hình có thể được phân loại thuộc về các loại khác nhau như: mô hình tạo, mô hình phân biệt, mô hình tham số, mô hình không tham số, mô hình dựa trên cây, mô hình không dựa trên cây.
Bài viết này sẽ tập trung vào sự khác biệt giữa các mô hình tạo và phân biệt. Chúng ta sẽ bắt đầu bằng cách định nghĩa cả mô hình tạo và phân biệt, và sau đó chúng ta sẽ khám phá một số ví dụ về từng loại mô hình.
Các Mô Hình Tạo
Các mô hình tạo là những mô hình tập trung vào phân phối của các lớp trong tập dữ liệu. Các thuật toán học máy thường mô hình hóa phân phối của các điểm dữ liệu. Các mô hình tạo dựa trên việc tìm xác suất chung. Tạo điểm nơi một tính năng đầu vào nhất định và một nhãn đầu ra mong muốn cùng tồn tại.
Các mô hình tạo thường được sử dụng để ước tính xác suất và khả năng, mô hình hóa các điểm dữ liệu và phân biệt giữa các lớp dựa trên các xác suất này. Bởi vì mô hình học một phân phối xác suất cho tập dữ liệu, nó có thể tham khảo phân phối này để tạo ra các ví dụ dữ liệu mới. Các mô hình tạo thường dựa trên định lý Bayes để tìm xác suất chung, tìm p(x,y). Về cơ bản, các mô hình tạo mô hình hóa cách dữ liệu được tạo ra, trả lời câu hỏi:
“Xác suất nào mà lớp này hoặc lớp khác tạo ra điểm dữ liệu này?”
Ví dụ về các mô hình học máy tạo bao gồm Phân tích Discriminant tuyến tính (LDA), Mô hình Markov ẩn và mạng Bayes như Naive Bayes.
Các Mô Hình Phân Biệt
Trong khi các mô hình tạo học về phân phối của tập dữ liệu, các mô hình phân biệt học về ranh giới giữa các lớp trong một tập dữ liệu. Với các mô hình phân biệt, mục tiêu là xác định ranh giới quyết định giữa các lớp để áp dụng các nhãn lớp đáng tin cậy cho các ví dụ dữ liệu. Các mô hình phân biệt tách các lớp trong tập dữ liệu bằng cách sử dụng xác suất có điều kiện, không đưa ra bất kỳ giả định nào về các điểm dữ liệu riêng lẻ.
Các mô hình phân biệt nhằm trả lời câu hỏi:
“Ví dụ này nằm ở phía nào của ranh giới quyết định?”
Ví dụ về các mô hình phân biệt trong học máy bao gồm máy hỗ trợ vector, hồi quy logistic, cây quyết định và rừng ngẫu nhiên.
Sự Khác Biệt Giữa Các Mô Hình Tạo Và Phân Biệt
Dưới đây là một bản tóm tắt nhanh về các sự khác biệt chính giữa các mô hình tạo và phân biệt.
Các mô hình tạo:
- Các mô hình tạo nhằm mục đích nắm bắt phân phối thực sự của các lớp trong tập dữ liệu.
- Các mô hình tạo dự đoán phân phối xác suất chung – p(x,y) – sử dụng định lý Bayes.
- Các mô hình tạo tính toán đắt hơn so với các mô hình phân biệt.
- Các mô hình tạo hữu ích cho các nhiệm vụ học máy không giám sát.
- Các mô hình tạo bị ảnh hưởng bởi sự hiện diện của các điểm ngoại lệ nhiều hơn so với các mô hình phân biệt.
Các mô hình phân biệt:
- Các mô hình phân biệt mô hình hóa ranh giới quyết định cho các lớp trong tập dữ liệu.
- Các mô hình phân biệt học xác suất có điều kiện – p(y|x).
- Các mô hình phân biệt tính toán rẻ hơn so với các mô hình tạo.
- Các mô hình phân biệt hữu ích cho các nhiệm vụ học máy giám sát.
- Các mô hình phân biệt có lợi thế là mạnh mẽ hơn đối với các điểm ngoại lệ, không giống như các mô hình tạo.
- Các mô hình phân biệt mạnh mẽ hơn đối với các điểm ngoại lệ so với các mô hình tạo.
Chúng ta sẽ khám phá một số ví dụ khác về các mô hình học máy tạo và phân biệt.
Ví Dụ Về Các Mô Hình Tạo
Phân Tích Discriminant tuyến tính (LDA)
LDA hoạt động bằng cách ước tính phương sai và trung bình của dữ liệu cho từng lớp trong tập dữ liệu. Sau khi trung bình và phương sai cho từng lớp đã được tính toán, dự đoán có thể được thực hiện bằng cách ước tính xác suất rằng một tập hợp đầu vào nhất định thuộc về một lớp nhất định.
Mô Hình Markov Ẩn
Mô hình Markov có thể được coi là đồ thị với các xác suất chỉ ra khả năng di chuyển từ một điểm trong chuỗi, một “trạng thái”, sang một trạng thái khác. Mô hình Markov được sử dụng để xác định xác suất di chuyển từ trạng thái j sang trạng thái i, có thể được biểu thị là p(i,j). Đây chỉ là xác suất chung được đề cập ở trên. Một Mô hình Markov ẩn là nơi một chuỗi Markov vô hình, không quan sát được được sử dụng. Dữ liệu đầu vào được đưa vào mô hình và các xác suất cho trạng thái hiện tại và trạng thái ngay trước đó được sử dụng để tính toán kết quả có khả năng nhất.
Mạng Bayes
Mạng Bayes là một loại mô hình đồ họa xác suất. Chúng đại diện cho các mối quan hệ có điều kiện giữa các biến, như được biểu diễn bởi một đồ thị có hướng không चक. Trong một mạng Bayes, mỗi cạnh của đồ thị đại diện cho một mối quan hệ có điều kiện, và mỗi nút tương ứng với một biến duy nhất. Sự độc lập có điều kiện cho các mối quan hệ duy nhất trong đồ thị có thể được sử dụng để xác định phân phối chung của các biến và tính toán xác suất chung. Nói cách khác, một mạng Bayes nắm bắt một tập hợp con của các mối quan hệ độc lập trong một phân phối xác suất chung.
Khi một mạng Bayes đã được tạo và định nghĩa đúng, với Các biến ngẫu nhiên, Mối quan hệ có điều kiện và Phân phối xác suất được biết, nó có thể được sử dụng để ước tính xác suất của các sự kiện hoặc kết quả.
Một trong những loại mạng Bayes được sử dụng phổ biến nhất là mô hình Naive Bayes. Mô hình Naive Bayes xử lý thách thức của việc tính toán xác suất cho các tập dữ liệu có nhiều tham số / biến bằng cách coi tất cả các tính năng là độc lập với nhau.
Ví Dụ Về Các Mô Hình Phân Biệt
Máy Hỗ Trợ Vector
Máy hỗ trợ vector hoạt động bằng cách vẽ một ranh giới quyết định giữa các điểm dữ liệu, tìm ranh giới quyết định tốt nhất để tách các lớp khác nhau trong tập dữ liệu. Thuật toán SVM vẽ các dòng hoặc siêu phẳng tách các điểm, đối với không gian 2 chiều và không gian 3 chiều tương ứng. SVM cố gắng tìm dòng / siêu phẳng tốt nhất để tách các lớp bằng cách cố gắng tối đa hóa khoảng cách, hoặc khoảng cách giữa dòng / siêu phẳng đến các điểm gần nhất. Các mô hình SVM cũng có thể được sử dụng trên các tập dữ liệu không tách rời tuyến tính bằng cách sử dụng “mánh lới hạt nhân” để xác định ranh giới quyết định không tuyến tính.
Hồi Quy Logistic
Hồi quy logistic là một thuật toán sử dụng một hàm logit (log-odds) để xác định xác suất của một đầu vào thuộc về một trong hai trạng thái. Một hàm sigmoid được sử dụng để “nén” xác suất về 0 hoặc 1, đúng hoặc sai. Các xác suất lớn hơn 0,50 được giả định là lớp 1, trong khi các xác suất 0,49 hoặc thấp hơn được giả định là 0. Vì lý do này, hồi quy logistic thường được sử dụng trong các vấn đề phân loại nhị phân. Tuy nhiên, hồi quy logistic có thể được áp dụng cho các vấn đề đa lớp bằng cách sử dụng phương pháp một so với tất cả, tạo một mô hình phân loại nhị phân cho từng lớp và xác định xác suất rằng một ví dụ là một lớp mục tiêu hoặc một lớp khác trong tập dữ liệu.
Cây Quyết Định
Một mô hình cây quyết định hoạt động bằng cách chia một tập dữ liệu thành các phần nhỏ hơn và nhỏ hơn, và khi các tập con không thể chia nhỏ hơn, kết quả là một cây với các nút và lá. Các nút trong một cây quyết định là nơi các quyết định về các điểm dữ liệu được thực hiện bằng cách sử dụng các tiêu chí lọc khác nhau. Các lá trong một cây quyết định là các điểm dữ liệu đã được phân loại. Các thuật toán cây quyết định có thể xử lý cả dữ liệu số và dữ liệu danh mục, và các phân chia trong cây dựa trên các biến / tính năng cụ thể.
Rừng Ngẫu Nhiên
Một mô hình rừng ngẫu nhiên cơ bản chỉ là một tập hợp các cây quyết định nơi dự đoán của các cây riêng lẻ được tính trung bình để đi đến một quyết định cuối cùng. Thuật toán rừng ngẫu nhiên chọn các quan sát và tính năng một cách ngẫu nhiên, xây dựng các cây riêng lẻ dựa trên các lựa chọn này.












