AI 101
Học Có Giám Sát vs Học Không Giám Sát

Trong học máy, hầu hết các nhiệm vụ có thể được phân loại dễ dàng vào một trong hai lớp khác nhau: vấn đề học có giám sát hoặc vấn đề học không giám sát. Trong học có giám sát, dữ liệu có nhãn hoặc lớp được thêm vào, trong khi trong trường hợp học không giám sát, dữ liệu không có nhãn. Hãy cùng xem xét kỹ tại sao sự khác biệt này là quan trọng và xem một số thuật toán liên quan đến từng loại học.
Học Có Giám Sát vs Học Không Giám Sát
Hầu hết các nhiệm vụ học máy thuộc lĩnh vực học có giám sát. Trong các thuật toán học có giám sát, các thể hiện/các điểm dữ liệu trong tập dữ liệu có một lớp hoặc nhãn được gán cho chúng. Điều này có nghĩa là mô hình học máy có thể học để phân biệt những tính năng nào liên quan đến một lớp nhất định và rằng kỹ sư học máy có thể kiểm tra hiệu suất của mô hình bằng cách xem có bao nhiêu thể hiện được phân loại đúng. Các thuật toán phân loại có thể được sử dụng để phân biệt nhiều mẫu phức tạp, miễn là dữ liệu được gán nhãn với các lớp thích hợp. Ví dụ, một thuật toán học máy có thể học để phân biệt các động vật khác nhau dựa trên các đặc điểm như “râu”, “đuôi”, “móng vuốt”, v.v.
Ngược lại với học có giám sát, học không giám sát liên quan đến việc tạo ra một mô hình có thể trích xuất mẫu từ dữ liệu không có nhãn. Nói cách khác, máy tính phân tích các tính năng đầu vào và xác định cho mình những tính năng và mẫu quan trọng nhất. Học không giám sát cố gắng tìm ra sự tương đồng vốn có giữa các thể hiện khác nhau. Nếu một thuật toán học có giám sát nhằm đặt các điểm dữ liệu vào các lớp đã biết, các thuật toán học không giám sát sẽ kiểm tra các tính năng chung của các thể hiện đối tượng và đặt chúng vào các nhóm dựa trên các tính năng này, về cơ bản tạo ra các lớp của riêng nó.
Các ví dụ về thuật toán học có giám sát là Hồi quy tuyến tính, Hồi quy logistic, K-nearest Neighbors, Cây quyết định và Máy hỗ trợ vector.
Trong khi đó, một số ví dụ về thuật toán học không giám sát là Phân tích thành phần chính và Phân cụm K-means.
Thuật toán Học Có Giám Sát
Hồi quy tuyến tính là một thuật toán lấy hai tính năng và vẽ ra mối quan hệ giữa chúng. Hồi quy tuyến tính được sử dụng để dự đoán giá trị số trong mối quan hệ với các biến số khác. Hồi quy tuyến tính có phương trình của Y = a + bX, trong đó b là độ dốc của đường thẳng và a là nơi y cắt trục X.
Hồi quy logistic là một thuật toán phân loại nhị phân. Thuật toán kiểm tra mối quan hệ giữa các tính năng số và tìm ra xác suất mà thể hiện có thể được phân loại vào một trong hai lớp khác nhau. Các giá trị xác suất được “nén” về 0 hoặc 1. Nói cách khác, các xác suất mạnh sẽ tiến gần đến 0,99 trong khi các xác suất yếu sẽ tiến gần đến 0.
K-nearest Neighbors gán một lớp cho các điểm dữ liệu mới dựa trên các lớp được gán cho một số lượng nhất định các điểm lân cận trong tập huấn luyện. Số lượng điểm lân cận được thuật toán xem xét là quan trọng, và quá ít hoặc quá nhiều điểm lân cận có thể phân loại sai các điểm.
Cây quyết định là một loại thuật toán phân loại và hồi quy. Một cây quyết định hoạt động bằng cách chia một tập dữ liệu thành các phần nhỏ hơn và nhỏ hơn cho đến khi các tập con không thể chia nhỏ hơn được và kết quả là một cây có các nút và lá. Các nút là nơi quyết định về các điểm dữ liệu được thực hiện bằng các tiêu chí lọc khác nhau, trong khi các lá là các thể hiện đã được gán một số nhãn (một điểm dữ liệu đã được phân loại). Các thuật toán cây quyết định có thể xử lý cả dữ liệu số và dữ liệu danh mục. Các phân chia được thực hiện trong cây trên các biến/tính năng cụ thể.
Máy hỗ trợ vector là một thuật toán phân loại hoạt động bằng cách vẽ các siêu phẳng, hoặc các đường phân chia, giữa các điểm dữ liệu. Các điểm dữ liệu được phân chia thành các lớp dựa trên phía nào của siêu phẳng chúng nằm. Nhiều siêu phẳng có thể được vẽ trên một mặt phẳng, chia một tập dữ liệu thành nhiều lớp. Bộ phân loại sẽ cố gắng tối đa hóa khoảng cách giữa siêu phẳng phân chia và các điểm trên cả hai phía của mặt phẳng, và khoảng cách càng lớn giữa đường thẳng và các điểm, bộ phân loại càng tự tin.
Thuật toán Học Không Giám Sát
Phân tích thành phần chính là một kỹ thuật được sử dụng để giảm chiều, nghĩa là chiều hoặc độ phức tạp của dữ liệu được thể hiện theo cách đơn giản hơn. Thuật toán Phân tích thành phần chính tìm ra các chiều mới cho dữ liệu mà là trực giao. Trong khi chiều của dữ liệu được giảm, sự biến thiên giữa dữ liệu nên được bảo tồn càng nhiều càng tốt. Điều này có nghĩa là trong thực tế, nó lấy các tính năng trong tập dữ liệu và cô đọng chúng thành ít tính năng hơn đại diện cho hầu hết dữ liệu.
Phân cụm K-means là một thuật toán tự động nhóm các điểm dữ liệu vào các cụm dựa trên các tính năng tương tự. Các mẫu trong tập dữ liệu được phân tích và các điểm dữ liệu được chia thành các nhóm dựa trên các mẫu này. Về cơ bản, K-means tạo ra các lớp của riêng nó từ dữ liệu không có nhãn. Thuật toán K-means hoạt động bằng cách gán các tâm cho các cụm, hoặc tâm cụm, và di chuyển tâm cụm cho đến khi vị trí tối ưu cho tâm cụm được tìm thấy. Vị trí tối ưu sẽ là nơi khoảng cách giữa tâm cụm và các điểm dữ liệu xung quanh trong lớp được giảm thiểu. “K” trong phân cụm K-means đề cập đến số lượng tâm cụm đã được chọn.
Tổng Kết
Để kết thúc, hãy nhanh chóng xem lại các điểm khác biệt chính giữa học có giám sát và học không giám sát.
Như chúng ta đã thảo luận trước đó, trong các nhiệm vụ học có giám sát, dữ liệu đầu vào được gán nhãn và số lượng lớp được biết. Trong khi đó, dữ liệu đầu vào không được gán nhãn và số lượng lớp không được biết trong các trường hợp học không giám sát. Học không giám sát có xu hướng ít phức tạp về tính toán hơn, trong khi học có giám sát có xu hướng phức tạp về tính toán hơn. Trong khi kết quả học có giám sát thường rất chính xác, kết quả học không giám sát thường ít chính xác / vừa phải chính xác.












