saplama Karışıklık Matrisi nedir? - Unite.AI
Bizimle iletişime geçin

AI 101

Karışıklık Matrisi nedir?

mm
Güncellenmiş on

Makine öğrenimi ve veri bilimindeki en güçlü analitik araçlardan biri karışıklık matrisi. Karışıklık matrisi, araştırmacılara bir makine öğrenimi sınıflandırıcısının veri kümesindeki hedef sınıflara göre nasıl performans gösterdiği hakkında ayrıntılı bilgi verme kapasitesine sahiptir. Bir karışıklık matrisi, yanlış sınıflandırılmış örneklere göre uygun şekilde sınıflandırılmış görüntü örneklerini gösterecektir. Bir karışıklık matrisinin nasıl yapılandırıldığına ve nasıl yorumlanabileceğine daha derinlemesine bakalım.

Karışıklık Matrisi nedir?

Karışıklık matrisinin basit bir tanımını vererek başlayalım. Karışıklık matrisi, tahmine dayalı bir analitik aracıdır. Spesifik olarak, gerçek değerleri görüntüleyen ve modelin tahmin edilen değerleri ile karşılaştıran bir tablodur. Makine öğrenimi bağlamında, bir makine öğrenimi sınıflandırıcısının bir veri kümesi üzerinde nasıl performans gösterdiğini analiz etmek için bir ölçüm olarak bir karışıklık matrisi kullanılır. Bir karışıklık matrisi, kesinlik, doğruluk, özgüllük ve hatırlama gibi metriklerin görselleştirilmesini sağlar.

Karışıklık matrisinin özellikle kullanışlı olmasının nedeni, basit doğruluk gibi diğer sınıflandırma ölçütlerinin aksine, karışıklık matrisinin bir modelin nasıl çalıştığına dair daha eksiksiz bir resim oluşturmasıdır. Yalnızca bir metrik benzeri doğruluk kullanmak, modelin bir sınıfı tamamen ve tutarlı bir şekilde yanlış tanımladığı bir duruma yol açabilir, ancak ortalama performans iyi olduğu için fark edilmeyebilir. Bu arada, karışıklık matrisi farklı değerlerin karşılaştırmasını verir Yanlış Negatifler, Gerçek Negatifler, Yanlış Pozitifler ve Gerçek Pozitifler gibi.

Bir karışıklık matrisinin temsil ettiği farklı ölçümleri tanımlayalım.

Karışıklık Matrisinde Hatırlama

Hatırlama, gerçekten olumlu örneklerin sayısının, yanlış-negatif örneklerin ve toplam olumlu örneklerin sayısına bölümüdür. Başka bir deyişle, hatırlama, bir makine öğrenimi modelinin sınıflandırdığı gerçek pozitif örneklerin oranını temsil eder. Geri çağırma, modelin veri kümesinde yer alan tüm olumlu örneklerden sınıflandırabildiği olumlu örneklerin yüzdesi olarak verilir. Bu değer aynı zamanda "isabet oranı" olarak da adlandırılabilir ve ilgili bir değer "duyarlılık”, hatırlama olasılığını veya gerçek olumlu tahminlerin oranını açıklar.

Hassas bir Karışıklık Matrisinde

Hatırlama gibi kesinlik de pozitif örnek sınıflandırması açısından bir modelin performansını izleyen bir değerdir. Yine de hatırlamanın aksine kesinlik, modelin pozitif olarak etiketlediği örneklerin kaçının gerçekten pozitif olduğuyla ilgilidir. Bunu hesaplamak için, gerçek pozitif örneklerin sayısı, yanlış pozitif örneklerin sayısına ve gerçek pozitiflere bölünür.

Aradaki ayrımı yapmak için hatırlama ve hassaslık daha net, kesinlik, pozitif olarak etiketlenen ve gerçekten pozitif olan tüm örneklerin yüzdesini bulmayı hedeflerken, hatırlama, modelin tanıyabileceği tüm gerçek pozitif örneklerin yüzdesini takip eder.

Özgünlük bir Karışıklık Matrisinde

Hatırlama ve kesinlik, olumlu örnekleri ve gerçek pozitif oranı izleyen değerler iken, özgüllük gerçek negatif oranını veya modelin negatif olarak tanımladığı ve gerçekten negatif olan örneklerin sayısını ölçer. Bu, negatif olarak sınıflandırılan örnek sayısının alınması ve bunların doğru negatif örneklerle birleştirilmiş yanlış-pozitif örneklerin sayısına bölünmesiyle hesaplanır.

Karışıklık Matrisini Anlamlandırmak

Fotoğraf: Wikimedia Commons aracılığıyla Jackverr, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Karışıklık Matrisi Örneği

Kesinlik, hatırlama, duyarlılık ve özgüllük gibi gerekli terimleri tanımladıktan sonra, bu farklı değerlerin bir karışıklık matrisinde nasıl temsil edildiğini inceleyebiliriz. İki veya daha fazla sınıf olduğunda geçerli olan sınıflandırma durumlarında bir karışıklık matrisi oluşturulur. Oluşturulan karışıklık matrisi gerektiği kadar uzun ve geniş olabilir, istenen herhangi bir sayıda sınıfı barındırabilir, ancak basitlik amacıyla, bir ikili sınıflandırma görevi için 2 x 2'lik bir karışıklık matrisini inceleyeceğiz.

Örnek olarak, bir hastanın bir hastalığı olup olmadığını belirlemek için bir sınıflandırıcının kullanıldığını varsayalım. Özellikler sınıflandırıcıya beslenir ve sınıflandırıcı iki farklı sınıflandırmadan birini döndürür - ya hasta hasta değildir ya da hastadır.

Matrisin sol tarafıyla başlayalım. Karışıklık matrisinin sol tarafı, sınıflandırıcının bireysel sınıflar için yaptığı tahminleri temsil eder. Bir ikili sınıflandırma görevinin burada iki satırı olacaktır. Matrisin üst kısmı ile ilgili olarak, veri örneklerinin gerçek değerlerini, gerçek sınıf etiketlerini izler.

Bir karışıklık matrisinin yorumlanması, satırların ve sütunların nerede kesiştiği incelenerek yapılabilir. Modelin tahminlerini, modelin gerçek etiketleriyle karşılaştırın. Bu durumda, doğru pozitif tahminlerin sayısı olan Gerçek Pozitif değerleri sol üst köşede bulunur. Yanlış pozitifler, örneklerin aslında negatif olduğu ancak sınıflandırıcının bunu pozitif olarak etiketlediği sağ üst köşede bulunur.

Kılavuzun sol alt köşesi, sınıflandırıcının negatif olarak etiketlediği ancak gerçekten pozitif olduğu örnekleri gösterir. Son olarak, karışıklık matrisinin sağ alt köşesi, Gerçek Negatif değerlerin bulunduğu veya gerçekten yanlış örneklerin bulunduğu yerdir.

Veri kümesi ikiden fazla sınıf içerdiğinde, matris o kadar çok sınıfla büyür. Örneğin, üç sınıf varsa, matris 3 x 3'lük bir matris olacaktır. Karışıklık matrisinin boyutu ne olursa olsun, onları yorumlama yöntemi tamamen aynıdır. Sol taraf, tahmin edilen değerleri ve üstte uzanan gerçek sınıf etiketlerini içerir. Sınıflandırıcının doğru bir şekilde tahmin ettiği örnekler, sol üstten sağ alta çapraz olarak çalışır. Matrise bakarak, yukarıda tartışılan dört tahmini ölçümü ayırt edebilirsiniz.

Örneğin, doğru pozitifleri ve yanlış negatifleri alıp toplayıp doğru pozitif örneklerin sayısına bölerek hatırlamayı hesaplayabilirsiniz. Bu arada kesinlik, yanlış pozitifleri gerçek pozitiflerle birleştirerek ve ardından değeri toplam gerçek pozitif sayısına bölerek hesaplanabilir.

Hassasiyet, hatırlama ve özgüllük gibi metrikleri manuel olarak hesaplamak için zaman harcanabilirken, bu metrikler o kadar yaygın olarak kullanılır ki, çoğu makine öğrenimi kitaplığının bunları görüntüleme yöntemleri vardır. Örneğin, Python için Scikit-learn'ün bir karışıklık matrisi oluşturan bir işlevi vardır.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.