sơ khai Học máy là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Học máy là gì?

mm
cập nhật on

Học máy là một trong những lĩnh vực công nghệ phát triển nhanh nhất, nhưng mặc dù các từ “học máy” được sử dụng thường xuyên như thế nào, nhưng vẫn có thể khó hiểu chính xác học máy là gì.

học máy không chỉ đề cập đến một thứ, đó là một thuật ngữ chung có thể được áp dụng cho nhiều khái niệm và kỹ thuật khác nhau. Hiểu về học máy có nghĩa là làm quen với các hình thức phân tích mô hình, biến số và thuật toán khác nhau. Chúng ta hãy xem xét kỹ hơn về máy học để hiểu rõ hơn về những gì nó bao gồm.

Học máy là gì?

Mặc dù thuật ngữ máy học có thể được áp dụng cho nhiều thứ khác nhau, nhưng nói chung, thuật ngữ này đề cập đến việc cho phép máy tính thực hiện các tác vụ mà không cần nhận hướng dẫn rõ ràng từng dòng để thực hiện điều đó. Một chuyên gia máy học không cần phải viết ra tất cả các bước cần thiết để giải quyết vấn đề vì máy tính có khả năng “học” bằng cách phân tích các mẫu trong dữ liệu và khái quát hóa các mẫu này thành dữ liệu mới.

Hệ thống máy học có ba phần cơ bản:

  • Đầu vào
  • Các thuật toán
  • Kết quả đầu ra

Đầu vào là dữ liệu được đưa vào hệ thống máy học và dữ liệu đầu vào có thể được chia thành các nhãn và tính năng. Các tính năng là các biến có liên quan, các biến sẽ được phân tích để tìm hiểu các mẫu và đưa ra kết luận. Trong khi đó, các nhãn là các lớp/mô tả được cung cấp cho các phiên bản riêng lẻ của dữ liệu.

Các tính năng và nhãn có thể được sử dụng trong hai loại vấn đề học máy khác nhau: học có giám sát và học không giám sát.

Học không giám sát so với học có giám sát

In học có giám sát, dữ liệu đầu vào được kèm theo một sự thật cơ bản. Các bài toán học có giám sát có các giá trị đầu ra chính xác như một phần của tập dữ liệu, vì vậy các lớp dự kiến ​​sẽ được biết trước. Điều này giúp nhà khoa học dữ liệu có thể kiểm tra hiệu suất của thuật toán bằng cách kiểm tra dữ liệu trên tập dữ liệu thử nghiệm và xem phần trăm mục được phân loại chính xác.

Ngược lại, học tập không giám sát các vấn đề không có nhãn sự thật cơ bản gắn liền với chúng. Một thuật toán học máy được đào tạo để thực hiện các nhiệm vụ học tập không giám sát phải có khả năng tự suy ra các mẫu có liên quan trong dữ liệu.

Các thuật toán học có giám sát thường được sử dụng cho các vấn đề phân loại, trong đó một tập dữ liệu lớn chứa đầy các thể hiện phải được sắp xếp vào một trong nhiều lớp khác nhau. Một loại học tập có giám sát khác là một nhiệm vụ hồi quy, trong đó giá trị đầu ra của thuật toán là liên tục về bản chất thay vì phân loại.

Trong khi đó, các thuật toán học không giám sát được sử dụng cho các tác vụ như ước tính mật độ, phân cụm và học đại diện. Ba nhiệm vụ này cần mô hình học máy để suy ra cấu trúc của dữ liệu, không có lớp được xác định trước cho mô hình.

Chúng ta hãy xem qua một số thuật toán phổ biến nhất được sử dụng trong cả học tập không giám sát và học tập có giám sát.

Các loại học tập có giám sát

Các thuật toán học có giám sát phổ biến bao gồm:

  • Vịnh Naive
  • Hỗ trợ Máy Vector
  • Hồi quy logistic
  • Rừng ngẫu nhiên
  • Mạng lưới thần kinh nhân tạo

Hỗ trợ Máy Vector là các thuật toán chia tập dữ liệu thành các lớp khác nhau. Các điểm dữ liệu được nhóm thành các cụm bằng cách vẽ các đường phân tách các lớp với nhau. Các điểm được tìm thấy ở một phía của đường thẳng sẽ thuộc về một lớp, trong khi các điểm ở phía bên kia của đường thẳng thuộc về một lớp khác. Máy vectơ hỗ trợ nhằm mục đích tối đa hóa khoảng cách giữa đường thẳng và các điểm được tìm thấy ở hai bên của đường thẳng và khoảng cách càng lớn thì bộ phân loại càng tự tin rằng điểm thuộc về một lớp chứ không phải một lớp khác.

Hồi quy logistic là một thuật toán được sử dụng trong các nhiệm vụ phân loại nhị phân khi các điểm dữ liệu cần được phân loại thuộc một trong hai lớp. Hồi quy logistic hoạt động bằng cách gắn nhãn điểm dữ liệu là 1 hoặc 0. Nếu giá trị cảm nhận được của điểm dữ liệu là 0.49 trở xuống, thì điểm đó được phân loại là 0, trong khi nếu từ 0.5 trở lên thì được phân loại là 1.

Thuật toán cây quyết định hoạt động bằng cách chia các tập dữ liệu thành các phần nhỏ hơn và nhỏ hơn. Tiêu chí chính xác được sử dụng để phân chia dữ liệu tùy thuộc vào kỹ sư máy học, nhưng mục tiêu cuối cùng là phân chia dữ liệu thành các điểm dữ liệu đơn lẻ, sau đó sẽ được phân loại bằng khóa.

Thuật toán Rừng ngẫu nhiên về cơ bản là nhiều bộ phân loại Cây quyết định đơn lẻ được liên kết với nhau thành một bộ phân loại mạnh hơn.

Sản phẩm Phân loại Naive Bayes tính xác suất xảy ra một điểm dữ liệu nhất định dựa trên xác suất xảy ra sự kiện trước đó. Nó dựa trên Định lý Bayes và đặt các điểm dữ liệu vào các lớp dựa trên xác suất tính toán của chúng. Khi triển khai trình phân loại Naive Bayes, người ta giả định rằng tất cả các yếu tố dự đoán đều có cùng ảnh hưởng đến kết quả của lớp.

An Mạng lưới thần kinh nhân tạo, hay perceptron nhiều lớp, là các thuật toán học máy lấy cảm hứng từ cấu trúc và chức năng của bộ não con người. Mạng lưới thần kinh nhân tạo có tên như vậy vì chúng được tạo ra từ nhiều nút/nơ-ron được liên kết với nhau. Mỗi nơ-ron thao tác dữ liệu bằng một hàm toán học. Trong các mạng thần kinh nhân tạo, có các lớp đầu vào, lớp ẩn và lớp đầu ra.

Lớp ẩn của mạng thần kinh là nơi dữ liệu thực sự được giải thích và phân tích cho các mẫu. Nói cách khác, đó là nơi thuật toán học. Nhiều tế bào thần kinh kết hợp với nhau tạo ra các mạng phức tạp hơn có khả năng học các mẫu phức tạp hơn.

Các loại học tập không giám sát

Các thuật toán học không giám sát bao gồm:

  • K-có nghĩa là phân cụm
  • Tự động mã hóa
  • Phân tích thành phần chính

K-có nghĩa là phân cụm là một kỹ thuật phân loại không giám sát và nó hoạt động bằng cách tách các điểm dữ liệu thành các cụm hoặc nhóm dựa trên các tính năng của chúng. K-nghĩa là phân cụm phân tích các tính năng được tìm thấy trong các điểm dữ liệu và phân biệt các mẫu trong đó làm cho các điểm dữ liệu được tìm thấy trong một cụm lớp nhất định giống nhau hơn so với các cụm chứa các điểm dữ liệu khác. Điều này được thực hiện bằng cách đặt các trung tâm có thể có cho cụm hoặc trọng tâm, trong biểu đồ dữ liệu và gán lại vị trí của trọng tâm cho đến khi tìm thấy một vị trí giúp giảm thiểu khoảng cách giữa trọng tâm và các điểm thuộc lớp của trọng tâm đó. Nhà nghiên cứu có thể chỉ định số cụm mong muốn.

Phân tích thành phần chính là một kỹ thuật làm giảm số lượng lớn các tính năng/biến thành một không gian tính năng nhỏ hơn/ít tính năng hơn. “Các thành phần chính” của các điểm dữ liệu được chọn để lưu giữ, trong khi các tính năng khác được nén xuống thành một biểu diễn nhỏ hơn. Mối quan hệ giữa các phần dữ liệu ban đầu được giữ nguyên, nhưng do độ phức tạp của các điểm dữ liệu đơn giản hơn nên dữ liệu dễ định lượng và mô tả hơn.

Tự động mã hóa là các phiên bản của mạng thần kinh có thể được áp dụng cho các nhiệm vụ học tập không giám sát. Bộ mã hóa tự động có khả năng lấy dữ liệu dạng tự do, không được gắn nhãn và chuyển đổi chúng thành dữ liệu mà mạng thần kinh có khả năng sử dụng, về cơ bản tạo dữ liệu đào tạo được gắn nhãn của riêng chúng. Mục tiêu của bộ mã hóa tự động là chuyển đổi dữ liệu đầu vào và xây dựng lại dữ liệu đó chính xác nhất có thể, do đó, mạng khuyến khích xác định tính năng nào là quan trọng nhất và trích xuất chúng.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.