potongan Apa itu Matriks Kebingungan? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Matriks Kebingungan?

mm
Updated on

Salah satu alat analisis paling canggih dalam pembelajaran mesin dan ilmu data matriks kebingungan. Matriks konfusi mampu memberikan informasi mendetail kepada peneliti tentang kinerja pengklasifikasi pembelajaran mesin sehubungan dengan kelas target dalam kumpulan data. Matriks konfusi akan menunjukkan contoh tampilan yang telah diklasifikasikan dengan benar terhadap contoh yang salah klasifikasi. Mari kita lihat lebih dalam bagaimana matriks konfusi disusun dan bagaimana matriks tersebut dapat diinterpretasikan.

Apa itu Matriks Kebingungan?

Mari kita mulai dengan memberikan definisi sederhana tentang matriks kebingungan. Matriks kebingungan adalah alat analitik prediktif. Secara khusus, ini adalah tabel yang menampilkan dan membandingkan nilai aktual dengan nilai prediksi model. Dalam konteks pembelajaran mesin, matriks kebingungan digunakan sebagai metrik untuk menganalisis bagaimana pengklasifikasi pembelajaran mesin dilakukan pada kumpulan data. Matriks kebingungan menghasilkan visualisasi metrik seperti presisi, akurasi, spesifisitas, dan daya ingat.

Alasan mengapa matriks konfusi sangat berguna adalah, tidak seperti jenis metrik klasifikasi lainnya seperti akurasi sederhana, matriks konfusi menghasilkan gambaran yang lebih lengkap tentang kinerja model. Hanya dengan menggunakan akurasi seperti metrik dapat menyebabkan situasi di mana model benar-benar dan konsisten salah mengidentifikasi satu kelas, tetapi tidak diperhatikan karena rata-rata kinerjanya bagus. Sementara itu, matriks kebingungan memberikan perbandingan nilai yang berbeda seperti Negatif Palsu, Negatif Sejati, Positif Palsu, dan Positif Sejati.

Mari kita tentukan metrik berbeda yang diwakili oleh matriks kebingungan.

Ingat dalam Matriks Kebingungan

Ingat adalah jumlah contoh yang benar-benar positif dibagi dengan jumlah contoh negatif palsu dan contoh positif total. Dengan kata lain, ingatan mewakili proporsi contoh positif sejati yang telah diklasifikasikan oleh model pembelajaran mesin. Recall diberikan sebagai persentase contoh positif yang dapat diklasifikasi oleh model dari semua contoh positif yang terkandung dalam kumpulan data. Nilai ini juga dapat disebut sebagai "hit rate", dan nilai terkait adalah "kepekaan”, yang menggambarkan kemungkinan ingatan, atau tingkat prediksi positif asli.

Ketelitian dalam Matriks Kebingungan

Seperti ingatan, presisi adalah nilai yang melacak kinerja model dalam hal klasifikasi contoh positif. Namun, tidak seperti penarikan kembali, presisi berkaitan dengan berapa banyak contoh model yang diberi label positif yang benar-benar positif. Untuk menghitung ini, jumlah contoh positif sejati dibagi dengan jumlah contoh positif palsu ditambah positif benar.

Untuk membuat perbedaan antara daya ingat dan presisi lebih jelas, presisi bertujuan untuk mengetahui persentase dari semua contoh berlabel positif yang benar-benar positif, sementara mengingat melacak persentase dari semua contoh positif benar yang dapat dikenali oleh model.

Kekhususan dalam Matriks Kebingungan

Sementara ingatan dan presisi adalah nilai yang melacak contoh positif dan tingkat positif yang sebenarnya, kekhususan menghitung tingkat negatif sebenarnya atau jumlah contoh yang didefinisikan model sebagai negatif yang benar-benar negatif. Ini dihitung dengan mengambil jumlah contoh yang diklasifikasikan sebagai negatif dan membaginya dengan jumlah contoh positif palsu yang digabungkan dengan contoh negatif sebenarnya.

Memahami Matriks Kebingungan

Foto: Jackverr via Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Contoh Matriks Kebingungan

Setelah mendefinisikan istilah-istilah yang diperlukan seperti presisi, daya ingat, sensitivitas, dan spesifisitas, kita dapat memeriksa bagaimana nilai-nilai yang berbeda ini direpresentasikan dalam matriks kebingungan. Sebuah matriks kebingungan dihasilkan dalam kasus klasifikasi, berlaku ketika ada dua kelas atau lebih. Matriks konfusi yang dihasilkan dapat setinggi dan selebar yang diperlukan, menampung sejumlah kelas yang diinginkan, tetapi untuk tujuan penyederhanaan, kita akan memeriksa matriks konfusi 2 x 2 untuk tugas klasifikasi biner.

Sebagai contoh, asumsikan bahwa classifier sedang digunakan untuk menentukan apakah pasien memiliki penyakit atau tidak. Fitur-fitur tersebut akan dimasukkan ke dalam pengklasifikasi, dan pengklasifikasi akan mengembalikan salah satu dari dua klasifikasi yang berbeda – apakah pasien tidak memiliki penyakit atau memiliki penyakit.

Mari kita mulai dengan sisi kiri matriks. Sisi kiri dari matriks kebingungan mewakili prediksi yang dibuat oleh pengklasifikasi untuk masing-masing kelas. Tugas klasifikasi biner akan memiliki dua baris di sini. Mengenai bagian atas matriks, ini melacak nilai sebenarnya, label kelas sebenarnya, dari instance data.

Menginterpretasikan matriks kebingungan dapat dilakukan dengan memeriksa di mana baris dan kolom berpotongan. Periksa prediksi model terhadap label sebenarnya dari model tersebut. Dalam hal ini, nilai True Positives, jumlah prediksi positif yang benar, terletak di pojok kiri atas. Positif palsu ditemukan di sudut kanan atas, di mana contoh sebenarnya negatif tetapi pengklasifikasi menandainya sebagai positif.

Sudut kiri bawah kisi menampilkan contoh yang ditandai oleh pengklasifikasi sebagai negatif tetapi benar-benar positif. Terakhir, sudut kanan bawah matriks kebingungan adalah tempat nilai Negatif Sejati ditemukan, atau tempat contoh yang benar-benar salah.

Ketika dataset berisi lebih dari dua kelas, matriks tumbuh dengan banyak kelas. Misalnya, jika ada tiga kelas, maka matriksnya adalah matriks 3 x 3. Terlepas dari ukuran matriks kebingungan, metode untuk menafsirkannya persis sama. Sisi kiri berisi nilai yang diprediksi dan label kelas sebenarnya berada di bagian atas. Instance yang telah diprediksi dengan benar oleh classifier berjalan secara diagonal dari kiri atas ke kanan bawah. Dengan melihat matriks, Anda dapat membedakan empat metrik prediktif yang dibahas di atas.

Misalnya, Anda dapat menghitung daya ingat dengan mengambil positif yang benar dan negatif yang salah, menjumlahkannya, dan membaginya dengan jumlah contoh positif yang benar. Sementara itu, presisi dapat dihitung dengan menggabungkan false positive dengan true positive, kemudian membagi nilainya menjadi jumlah total true positive.

Meskipun seseorang dapat menghabiskan waktu menghitung metrik secara manual seperti presisi, daya ingat, dan spesifisitas, metrik ini sangat umum digunakan sehingga sebagian besar pustaka pembelajaran mesin memiliki metode untuk menampilkannya. Misalnya, Scikit-learn untuk Python memiliki fungsi menghasilkan matriks kebingungan.

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.