Connect with us

Máy Học Máy Là Gì?

AI 101

Máy Học Máy Là Gì?

mm

Máy học máy là một trong những lĩnh vực công nghệ phát triển nhanh nhất, nhưng mặc dù từ “máy học máy” được sử dụng thường xuyên, nó có thể khó hiểu chính xác máy học máy là gì.

Máy học máy không chỉ đề cập đến một thứ, nó là một thuật ngữ chung có thể được áp dụng cho nhiều khái niệm và kỹ thuật khác nhau. Hiểu máy học máy có nghĩa là phải quen thuộc với các hình thức phân tích mô hình, biến và thuật toán khác nhau. Hãy cùng xem xét kỹ lưỡng về máy học máy để hiểu rõ hơn về những gì nó bao gồm.

Machine Learning Là Gì?

Trong khi thuật ngữ máy học máy có thể được áp dụng cho nhiều thứ khác nhau, nói chung, thuật ngữ này đề cập đến việc cho phép một máy tính thực hiện các nhiệm vụ mà không cần nhận các hướng dẫn cụ thể hàng dòng. Một chuyên gia máy học máy không cần viết ra tất cả các bước cần thiết để giải quyết vấn đề vì máy tính có khả năng “học” bằng cách phân tích các mẫu trong dữ liệu và khái quát hóa các mẫu này sang dữ liệu mới.

Các hệ thống máy học máy có ba phần cơ bản:

  • Đầu vào
  • Thuật toán
  • Đầu ra

Đầu vào là dữ liệu được đưa vào hệ thống máy học máy, và dữ liệu đầu vào có thể được chia thành nhãn và tính năng. Tính năng là các biến số liên quan, các biến số sẽ được phân tích để học các mẫu và rút ra kết luận. Trong khi đó, nhãn là các lớp/mô tả được gán cho các thể hiện cá nhân của dữ liệu.

Tính năng và nhãn có thể được sử dụng trong hai loại vấn đề máy học máy khác nhau: học có giám sát và học không giám sát.

Học Không Giám Sát Vs. Học Có Giám Sát

Trong học có giám sát, dữ liệu đầu vào được đi kèm với một sự thật cơ bản. Các vấn đề học có giám sát có các giá trị đầu ra chính xác là một phần của tập dữ liệu, vì vậy các lớp dự kiến là đã biết từ trước. Điều này cho phép nhà khoa học dữ liệu kiểm tra hiệu suất của thuật toán bằng cách kiểm tra dữ liệu trên một tập dữ liệu thử nghiệm và xem tỷ lệ phần trăm các mục được phân loại chính xác.

Ngược lại, học không giám sát không có nhãn sự thật cơ bản. Một thuật toán máy học máy được đào tạo để thực hiện các nhiệm vụ học không giám sát phải có khả năng suy luận các mẫu liên quan trong dữ liệu cho chính nó.

Các thuật toán học có giám sát thường được sử dụng cho các vấn đề phân loại, nơi có một tập dữ liệu lớn chứa các thể hiện phải được sắp xếp vào một trong nhiều lớp khác nhau. Một loại học có giám sát khác là nhiệm vụ hồi quy, nơi giá trị đầu ra của thuật toán là liên tục chứ không phải là danh mục.

Trong khi đó, các thuật toán học không giám sát được sử dụng cho các nhiệm vụ như ước lượng mật độ, phân cụm và học biểu diễn. Ba nhiệm vụ này cần mô hình máy học máy phải suy luận cấu trúc của dữ liệu, không có lớp được định nghĩa trước cho mô hình.

Hãy cùng xem xét một số thuật toán phổ biến nhất được sử dụng trong cả học không giám sát và học có giám sát.

Loại Học Có Giám Sát

Các thuật toán học có giám sát phổ biến bao gồm:

  • Naive Bayes
  • Machine Vector
  • Hồi Quy Logistic
  • Rừng Ngẫu Nhiên
  • Mạng Nơ-Ron Nhân Tạo

Machine Vector là các thuật toán chia tập dữ liệu thành các lớp khác nhau. Các điểm dữ liệu được nhóm thành các cụm bằng cách vẽ các đường thẳng phân chia các lớp từ nhau. Các điểm tìm thấy trên một bên của đường thẳng sẽ thuộc về một lớp, trong khi các điểm trên bên kia của đường thẳng là một lớp khác. Machine Vector nhằm tối đa hóa khoảng cách giữa đường thẳng và các điểm tìm thấy trên cả hai bên của đường thẳng, và khoảng cách càng lớn thì phân loại器 càng tự tin rằng điểm thuộc về một lớp và không thuộc về lớp khác.

Hồi Quy Logistic là một thuật toán được sử dụng trong các nhiệm vụ phân loại nhị phân khi các điểm dữ liệu cần được phân loại thành một trong hai lớp. Hồi Quy Logistic hoạt động bằng cách gán nhãn cho điểm dữ liệu là 1 hoặc 0. Nếu giá trị nhận thức của điểm dữ liệu là 0,49 hoặc thấp hơn, nó được phân loại là 0, trong khi nếu nó là 0,5 hoặc cao hơn thì nó được phân loại là 1.

Thuật Toán Cây Quyết Định hoạt động bằng cách chia tập dữ liệu thành các mảnh nhỏ hơn và nhỏ hơn. Tiêu chí chính xác được sử dụng để chia dữ liệu là do kỹ sư máy học máy quyết định, nhưng mục tiêu cuối cùng là chia dữ liệu thành các điểm dữ liệu riêng lẻ, sau đó sẽ được phân loại bằng một khóa.

Một thuật toán Rừng Ngẫu Nhiên cơ bản là nhiều phân loại cây quyết định đơn lẻ được liên kết với nhau thành một phân loại器 mạnh hơn.

Phân loại器 Naive Bayes tính toán xác suất mà một điểm dữ liệu nhất định đã xảy ra dựa trên xác suất của một sự kiện trước đó xảy ra. Nó dựa trên Định lý Bayes và nó đặt các điểm dữ liệu vào các lớp dựa trên xác suất tính toán của chúng. Khi thực hiện một phân loại器 Naive Bayes, nó được giả định rằng tất cả các dự đoán có ảnh hưởng như nhau đến kết quả lớp.

Một Mạng Nơ-Ron Nhân Tạo, hoặc đa lớp cảm nhận, là các thuật toán máy học máy được lấy cảm hứng từ cấu trúc và chức năng của não bộ con người. Mạng nơ-ron nhân tạo có được tên của chúng từ thực tế là chúng được tạo thành từ nhiều nút/nơ-ron được liên kết với nhau. Mỗi nơ-ron thao túng dữ liệu với một hàm toán học. Trong mạng nơ-ron nhân tạo, có các lớp đầu vào, lớp ẩn và lớp đầu ra.

Lớp ẩn của mạng nơ-ron là nơi dữ liệu thực sự được giải thích và phân tích để tìm ra các mẫu. Nói cách khác, đó là nơi thuật toán học. nhiều nơ-ron được liên kết với nhau tạo thành các mạng phức tạp hơn có khả năng học các mẫu phức tạp hơn.

Loại Học Không Giám Sát

Các thuật toán học không giám sát bao gồm:

  • Phân Cụm K-means
  • Autoencoder
  • Phân Tích Thành Phần Chính

Phân cụm K-means là một kỹ thuật phân loại không giám sát, và nó hoạt động bằng cách tách các điểm dữ liệu thành các cụm hoặc nhóm dựa trên các tính năng của chúng. Phân cụm K-means phân tích các tính năng tìm thấy trong các điểm dữ liệu và phân biệt các mẫu trong chúng làm cho các điểm dữ liệu tìm thấy trong một lớp cụm giống nhau hơn so với các điểm dữ liệu tìm thấy trong các cụm khác. Điều này được thực hiện bằng cách đặt các tâm cụm có thể vào một đồ thị của dữ liệu và重新 sắp xếp vị trí của tâm cho đến khi tìm thấy một vị trí tối thiểu hóa khoảng cách giữa tâm và các điểm thuộc về lớp tâm đó. Nhà nghiên cứu có thể chỉ định số lượng cụm mong muốn.

Phân Tích Thành Phần Chính là một kỹ thuật giảm số lượng lớn tính năng/biến số xuống một không gian tính năng nhỏ hơn/số lượng tính năng ít hơn. Các “thành phần chính” của dữ liệu được chọn để bảo tồn, trong khi các tính năng khác được nén xuống một biểu diễn nhỏ hơn. Mối quan hệ giữa các phần dữ liệu gốc được bảo tồn, nhưng vì sự phức tạp của dữ liệu được đơn giản hóa, dữ liệu dễ dàng lượng hóa và mô tả hơn.

Autoencoder là các phiên bản của mạng nơ-ron có thể được áp dụng cho các nhiệm vụ học không giám sát. Autoencoder có khả năng lấy dữ liệu không có nhãn, dạng tự do và chuyển đổi chúng thành dữ liệu mà mạng nơ-ron có thể sử dụng, cơ bản là tạo ra dữ liệu đào tạo có nhãn của riêng chúng. Mục tiêu của autoencoder là chuyển đổi dữ liệu đầu vào và xây dựng lại nó một cách chính xác nhất có thể, vì vậy nó nằm trong lợi ích của mạng để xác định哪 các tính năng là quan trọng nhất và trích xuất chúng.

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.