sơ khai Ma trận nhầm lẫn là gì? - Đoàn kết.AI
Kết nối với chúng tôi
Lớp học AI:

AI 101

Ma trận nhầm lẫn là gì?

mm
cập nhật on

Một trong những công cụ phân tích mạnh mẽ nhất trong học máy và khoa học dữ liệu ở ma trận nhầm lẫn. Ma trận nhầm lẫn có khả năng cung cấp cho các nhà nghiên cứu thông tin chi tiết về cách thức hoạt động của bộ phân loại học máy đối với các lớp mục tiêu trong tập dữ liệu. Ma trận nhầm lẫn sẽ hiển thị các ví dụ hiển thị đã được phân loại đúng so với các ví dụ bị phân loại sai. Chúng ta hãy xem xét sâu hơn cách cấu trúc ma trận nhầm lẫn và cách giải thích nó.

Ma trận nhầm lẫn là gì?

Hãy bắt đầu bằng cách đưa ra một định nghĩa đơn giản về ma trận nhầm lẫn. Ma trận nhầm lẫn là một công cụ phân tích dự đoán. Cụ thể, đó là một bảng hiển thị và so sánh các giá trị thực tế với các giá trị dự đoán của mô hình. Trong bối cảnh học máy, ma trận nhầm lẫn được sử dụng làm thước đo để phân tích cách trình phân loại học máy thực hiện trên tập dữ liệu. Ma trận nhầm lẫn tạo ra hình ảnh trực quan về các số liệu như độ chính xác, độ chính xác, độ đặc hiệu và khả năng thu hồi.

Lý do mà ma trận nhầm lẫn đặc biệt hữu ích là, không giống như các loại thước đo phân loại khác, chẳng hạn như độ chính xác đơn giản, ma trận nhầm lẫn tạo ra một bức tranh hoàn chỉnh hơn về cách một mô hình thực hiện. Chỉ sử dụng một số liệu như độ chính xác có thể dẫn đến tình huống trong đó mô hình xác định sai hoàn toàn và nhất quán một lớp, nhưng nó không được chú ý vì hiệu suất trung bình là tốt. Trong khi đó, ma trận nhầm lẫn đưa ra một so sánh các giá trị khác nhau như Phủ định sai, Phủ định thật, Tích cực giả và Tích cực thực sự.

Hãy xác định các số liệu khác nhau mà ma trận nhầm lẫn đại diện.

Nhớ lại trong một ma trận nhầm lẫn

Nhớ lại là số ví dụ tích cực thực sự chia cho số ví dụ âm tính giả và tổng số ví dụ tích cực. Nói cách khác, khả năng nhớ lại đại diện cho tỷ lệ các ví dụ tích cực thực sự mà một mô hình máy học đã phân loại. Thu hồi được đưa ra dưới dạng tỷ lệ phần trăm các ví dụ tích cực mà mô hình có thể phân loại trong số tất cả các ví dụ tích cực có trong tập dữ liệu. Giá trị này cũng có thể được gọi là "tỷ lệ trúng" và một giá trị liên quan là "nhạy cảm”, mô tả khả năng thu hồi hoặc tỷ lệ dự đoán tích cực thực sự.

Độ chính xác trong một ma trận nhầm lẫn

Giống như thu hồi, độ chính xác là một giá trị theo dõi hiệu suất của mô hình theo phân loại ví dụ tích cực. Tuy nhiên, không giống như thu hồi, độ chính xác liên quan đến việc có bao nhiêu ví dụ mà mô hình được gắn nhãn tích cực thực sự tích cực. Để tính toán điều này, số lượng ví dụ dương tính thực sự được chia cho số lượng ví dụ dương tính giả cộng với số lượng dương tính thực sự.

Để tạo sự khác biệt giữa thu hồi và độ chính xác rõ ràng hơn, độ chính xác nhằm mục đích tìm ra tỷ lệ phần trăm của tất cả các ví dụ được gắn nhãn tích cực thực sự tích cực, trong khi khả năng thu hồi theo dõi tỷ lệ phần trăm của tất cả các ví dụ tích cực thực sự mà mô hình có thể nhận ra.

Tính đặc hiệu trong một ma trận nhầm lẫn

Mặc dù khả năng thu hồi và độ chính xác là các giá trị theo dõi các ví dụ tích cực và tỷ lệ tích cực thực sự, tính cụ thể định lượng tỷ lệ âm tính thực sự hoặc số lượng ví dụ mà mô hình xác định là âm tính thực sự âm tính. Điều này được tính bằng cách lấy số mẫu được phân loại là âm tính chia cho số mẫu dương tính giả kết hợp với mẫu âm tính thực.

Tạo cảm giác về ma trận nhầm lẫn

Ảnh: Jackverr qua Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Ví dụ về một ma trận nhầm lẫn

Sau khi xác định các thuật ngữ cần thiết như độ chính xác, độ thu hồi, độ nhạy và độ đặc hiệu, chúng ta có thể kiểm tra cách các giá trị khác nhau này được biểu thị trong một ma trận nhầm lẫn. Một ma trận nhầm lẫn được tạo ra trong các trường hợp phân loại, áp dụng khi có hai hoặc nhiều lớp. Ma trận nhầm lẫn được tạo ra có thể cao và rộng nếu cần, chứa bất kỳ số lớp mong muốn nào, nhưng để đơn giản, chúng ta sẽ kiểm tra ma trận nhầm lẫn 2 x 2 cho nhiệm vụ phân loại nhị phân.

Ví dụ: giả sử rằng một bộ phân loại đang được sử dụng để xác định xem bệnh nhân có mắc bệnh hay không. Các tính năng sẽ được đưa vào bộ phân loại và bộ phân loại sẽ trả về một trong hai cách phân loại khác nhau – bệnh nhân không mắc bệnh hoặc họ mắc bệnh.

Hãy bắt đầu với phía bên trái của ma trận. Phía bên trái của ma trận nhầm lẫn đại diện cho các dự đoán mà bộ phân loại thực hiện cho các lớp riêng lẻ. Nhiệm vụ phân loại nhị phân sẽ có hai hàng ở đây. Về phần trên cùng của ma trận, nó theo dõi các giá trị thực, nhãn lớp thực tế của các thể hiện dữ liệu.

Việc diễn giải một ma trận nhầm lẫn có thể được thực hiện bằng cách kiểm tra xem các hàng và cột giao nhau ở đâu. Kiểm tra dự đoán của mô hình so với nhãn thực của mô hình. Trong trường hợp này, các giá trị True positives, số dự đoán đúng, nằm ở góc trên bên trái. Các kết quả dương tính giả được tìm thấy ở góc trên bên phải, trong đó các ví dụ thực sự là âm tính nhưng bộ phân loại đã gắn thẻ nó là dương tính.

Góc dưới bên trái của lưới hiển thị các trường hợp mà bộ phân loại đã gắn thẻ là tiêu cực nhưng thực sự là tích cực. Cuối cùng, góc dưới bên phải của ma trận nhầm lẫn là nơi tìm thấy các giá trị True Negative hoặc nơi có các ví dụ thực sự sai.

Khi tập dữ liệu chứa nhiều hơn hai lớp, ma trận sẽ phát triển theo nhiều lớp đó. Ví dụ, nếu có ba lớp, ma trận sẽ là ma trận 3 x 3. Bất kể kích thước của ma trận nhầm lẫn, phương pháp diễn giải chúng hoàn toàn giống nhau. Phía bên trái chứa các giá trị được dự đoán và các nhãn lớp thực chạy trên đầu trang. Các trường hợp mà trình phân loại đã dự đoán chính xác chạy theo đường chéo từ trên cùng bên trái sang dưới cùng bên phải. Bằng cách nhìn vào ma trận, bạn có thể phân biệt bốn chỉ số dự đoán đã thảo luận ở trên.

Chẳng hạn, bạn có thể tính toán khả năng thu hồi bằng cách lấy các giá trị dương thực và âm sai, cộng chúng lại với nhau và chia chúng cho số lượng các ví dụ dương thực. Trong khi đó, độ chính xác có thể được tính bằng cách kết hợp các kết quả dương tính giả với kết quả dương tính thực, sau đó chia giá trị cho tổng số kết quả dương tính thực.

Mặc dù người ta có thể dành thời gian tính toán thủ công các số liệu như độ chính xác, khả năng thu hồi và độ đặc hiệu, nhưng các số liệu này được sử dụng phổ biến đến mức hầu hết các thư viện máy học đều có phương pháp hiển thị chúng. Ví dụ: Scikit-learning cho Python có chức năng tạo ma trận nhầm lẫn.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.