sơ khai Học có giám sát so với học không giám sát - Unite.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Học tập có giám sát và không giám sát

mm
cập nhật on

Trong học máy, hầu hết các nhiệm vụ có thể dễ dàng được phân loại thành một trong hai lớp khác nhau: các vấn đề học có giám sát hoặc các vấn đề học không giám sát. Trong học có giám sát, dữ liệu có nhãn hoặc lớp được gắn vào nó, trong khi trong trường hợp học không giám sát, dữ liệu sẽ không được gắn nhãn. Chúng ta hãy xem xét kỹ lý do tại sao sự khác biệt này lại quan trọng và xem xét một số thuật toán liên quan đến từng loại hình học tập.

Học tập có giám sát và không giám sát

Hầu hết các nhiệm vụ học máy đều thuộc lĩnh vực của học có giám sát. Trong các thuật toán học có giám sát, các phiên bản/điểm dữ liệu riêng lẻ trong tập dữ liệu có một lớp hoặc nhãn được gán cho chúng. Điều này có nghĩa là mô hình máy học có thể học cách phân biệt các tính năng nào tương quan với một lớp nhất định và kỹ sư máy học có thể kiểm tra hiệu suất của mô hình bằng cách xem có bao nhiêu trường hợp được phân loại đúng. Các thuật toán phân loại có thể được sử dụng để phân biệt nhiều mẫu phức tạp, miễn là dữ liệu được gắn nhãn với các lớp thích hợp. Chẳng hạn, một thuật toán học máy có thể học cách phân biệt các loài động vật khác nhau dựa trên các đặc điểm như “râu”, “đuôi”, “móng vuốt”, v.v.

Ngược lại với học có giám sát, học không giám sát liên quan đến việc tạo một mô hình có khả năng trích xuất các mẫu từ dữ liệu chưa được gắn nhãn. Nói cách khác, máy tính phân tích các tính năng đầu vào và tự xác định đâu là các tính năng và mẫu quan trọng nhất. Học không giám sát cố gắng tìm ra những điểm tương đồng vốn có giữa các trường hợp khác nhau. Nếu thuật toán học có giám sát nhằm mục đích đặt các điểm dữ liệu vào các lớp đã biết, thì thuật toán học không giám sát sẽ kiểm tra các tính năng phổ biến đối với các thể hiện đối tượng và đặt chúng vào các nhóm dựa trên các tính năng này, về cơ bản tạo ra các lớp riêng.

Ví dụ về các thuật toán học có giám sát là Hồi quy tuyến tính, Hồi quy logistic, Hàng xóm gần nhất K, Cây quyết định và Máy vectơ hỗ trợ.

Trong khi đó, một số ví dụ về thuật toán học tập không giám sát là Phân tích thành phần chính và Phân cụm K-Means.

Thuật toán học có giám sát

linear Regression là một thuật toán lấy hai tính năng và vẽ ra mối quan hệ giữa chúng. Hồi quy tuyến tính được sử dụng để dự đoán các giá trị số liên quan đến các biến số khác. Hồi quy Tuyến tính có phương trình là Y = a +bX, trong đó b là hệ số góc của đường thẳng và a là vị trí y cắt trục X.

Hồi quy logistic là một thuật toán phân loại nhị phân. Thuật toán kiểm tra mối quan hệ giữa các đặc trưng số và tìm xác suất mà thể hiện có thể được phân loại thành một trong hai lớp khác nhau. Các giá trị xác suất được "ép" về 0 hoặc 1. Nói cách khác, xác suất mạnh sẽ tiến tới 0.99 trong khi xác suất yếu sẽ tiến tới 0.

K-Những người hàng xóm gần nhất gán một lớp cho các điểm dữ liệu mới dựa trên các lớp đã gán của một số lượng lân cận đã chọn trong tập huấn luyện. Số lượng hàng xóm được thuật toán xem xét là rất quan trọng và quá ít hoặc quá nhiều hàng xóm có thể phân loại sai điểm.

Cây quyết định là một loại thuật toán phân loại và hồi quy. Cây quyết định hoạt động bằng cách chia tập dữ liệu thành các phần ngày càng nhỏ hơn cho đến khi các tập hợp con không thể chia nhỏ hơn nữa và kết quả là một cây có các nút và lá. Các nút là nơi đưa ra quyết định về các điểm dữ liệu bằng cách sử dụng các tiêu chí lọc khác nhau, trong khi các nút là các trường hợp đã được gán một số nhãn (một điểm dữ liệu đã được phân loại). Thuật toán cây quyết định có khả năng xử lý cả dữ liệu số và dữ liệu phân loại. Việc phân chia được thực hiện trong cây theo các biến/tính năng cụ thể.

Hỗ trợ Máy Vector là một thuật toán phân loại hoạt động bằng cách vẽ các siêu phẳng hoặc các đường phân tách giữa các điểm dữ liệu. Các điểm dữ liệu được phân tách thành các lớp dựa trên phía của siêu phẳng mà chúng đang ở. Nhiều siêu phẳng có thể được vẽ trên một mặt phẳng, chia tập dữ liệu thành nhiều lớp. Bộ phân loại sẽ cố gắng tối đa hóa khoảng cách giữa siêu phẳng lặn và các điểm ở hai bên của mặt phẳng và khoảng cách giữa đường thẳng và các điểm càng lớn thì bộ phân loại càng tự tin.

Thuật toán học tập không giám sát

Phân tích thành phần chính là một kỹ thuật được sử dụng để giảm kích thước, nghĩa là kích thước hoặc độ phức tạp của dữ liệu được thể hiện theo cách đơn giản hơn. Thuật toán Phân tích thành phần chính tìm các kích thước mới cho dữ liệu trực giao. Mặc dù số chiều của dữ liệu bị giảm, phương sai giữa các dữ liệu phải được giữ nguyên càng nhiều càng tốt. Điều này có nghĩa là trong thực tế, nó lấy các tính năng trong tập dữ liệu và chắt lọc chúng thành ít tính năng hơn đại diện cho hầu hết dữ liệu.

Phân cụm K-Means là một thuật toán tự động nhóm các điểm dữ liệu thành các cụm dựa trên các tính năng tương tự. Các mẫu trong tập dữ liệu được phân tích và các điểm dữ liệu được chia thành các nhóm dựa trên các mẫu này. Về cơ bản, K-mean tạo các lớp riêng từ dữ liệu chưa được gắn nhãn. Thuật toán K-Means hoạt động bằng cách gán các tâm cho các cụm hoặc trọng tâm và di chuyển các trọng tâm cho đến khi tìm thấy vị trí tối ưu cho các trọng tâm. Vị trí tối ưu sẽ là vị trí mà khoảng cách giữa các trọng tâm đến các điểm dữ liệu xung quanh trong lớp được giảm thiểu. “K” trong phân cụm K-mean đề cập đến số lượng centroid đã được chọn.

Tổng kết

Để kết thúc, chúng ta hãy xem nhanh những khác biệt chính giữa học có giám sát và học không giám sát.

Như chúng ta đã thảo luận trước đây, trong các tác vụ học có giám sát, dữ liệu đầu vào được gắn nhãn và số lớp được biết. Trong khi đó, dữ liệu đầu vào không được gắn nhãn và số lượng lớp không được biết đến trong các trường hợp học tập không giám sát. Học không giám sát có xu hướng ít phức tạp hơn về mặt tính toán, trong khi học có giám sát có xu hướng phức tạp hơn về mặt tính toán. Mặc dù kết quả học có giám sát có xu hướng chính xác cao, nhưng kết quả học không giám sát có xu hướng kém chính xác/chính xác vừa phải.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.