Yapay Zekâ 101
Bir Karmaşıklık Matrisi Nedir?

Makine öğrenimi ve veri biliminde en güçlü analitik araçlardan biri karmaşıklık matrisidir. Karmaşıklık matrisi, bir makine öğrenimi sınıflandırıcının hedef sınıflara ilişkin olarak veri setinde nasıl performans gösterdiğini araştırmacılara ayrıntılı bilgi verebilecek kapasitede sahiptir. Bir karmaşıklık matrisi, doğru şekilde sınıflandırılmış örnekleri yanlış sınıflandırılmış örneklerle karşılaştıracaktır. Şimdi, bir karmaşıklık matrisinin nasıl yapılandırıldığını ve nasıl yorumlanabileceğini daha derinlemesine inceleyelim.
Bir Karmaşıklık Matrisi Nedir?
Başlamak için, bir karmaşıklık matrisinin basit bir tanımını verelim. Bir karmaşıklık matrisi, bir tahmin analitiği aracıdır. Özellikle, gerçek değerleri modelin tahmin edilen değerleriyle karşılaştıran bir tablodur. Makine öğrenimi bağlamında, bir karmaşıklık matrisi, bir makine öğrenimi sınıflandırıcının bir veri setinde nasıl performans gösterdiğini analiz etmek için kullanılan bir metriktir. Bir karmaşıklık matrisi, doğruluk, duyarlılık, özgüllük ve geri çağırma gibi metriklerin görselleştirilmesini oluşturur.
Karmaşıklık matrisinin özellikle yararlı olmasının nedeni, diğer türdeki sınıflandırma metriklerine (örneğin, basit doğruluk) kıyasla daha eksiksiz bir resim sunmasıdır. Sadece bir doğruluk metriği kullanmak, modelin bir sınıfı tamamen ve tutarlı bir şekilde yanlış tanımladığı ancak ortalama performansının iyi olduğu için bunu fark edilmemesine neden olabilir. Bu arada, karmaşıklık matrisi Yanlış Negatifler, Doğru Negatifler, Yanlış Pozitifler ve Doğru Pozitifler gibi farklı değerlerin karşılaştırmasını sağlar.

Şimdi, bir karmaşıklık matrisinin temsil ettiği farklı metrikileri tanımlayalım.
Karmaşıklık Matrisindeki Geri Çağırma
Geri çağırma, gerçekten pozitif örneklerin sayısı, yanlış negatif örneklerin sayısı ve toplam pozitif örneklerin sayısına bölünür. Diğer bir deyişle, geri çağırma, bir makine öğrenimi modelinin sınıflandırabildiği真正 pozitif örneklerin oranını temsil eder. Geri çağırma, modelin pozitif olarak sınıflandırabildiği örneklerin yüzdesi olarak verilir ve bu değer bazen “isabet oranı” olarak da adlandırılır ve “duyarlılık” olarak da bilinen ilgili bir değer, geri çağırma olasılığını veya gerçek pozitif tahminlerin oranını tanımlar.
Karmaşıklık Matrisindeki Doğruluk
Geri çağırma gibi, doğruluk da modelin pozitif örnek sınıflandırma performansını izleyen bir değerdir. Ancak, geri çağırma aksine, doğruluk, modelin pozitif olarak etiketlediği örneklerin gerçekten pozitif olup olmadığını dikkate alır. Bunu hesaplamak için,真正 pozitif örneklerin sayısı, yanlış pozitif örneklerin sayısı artı真正 pozitifler tarafından bölünür.
Doğruluk ve geri çağırma arasındaki farkı netleştirmek için, doğruluk, tüm örneklerin pozitif olarak etiketlenmesinin yüzdesini hesaplamaya çalışırken, geri çağırma, tüm真正 pozitif örneklerin model tarafından tanınan yüzdesini izler.
Karmaşıklık Matrisindeki Özgüllük
Geri çağırma ve doğruluk, pozitif örnekleri ve真正 pozitif oranını izlerken, özgüllük,真正 negatif oranı veya modelin negatif olarak tanımladığı örneklerin gerçekten negatif olma sayısını ölçer. Bu, negatif olarak sınıflandırılan örneklerin sayısının, yanlış pozitif örneklerin sayısı ile真正 negatif örneklerin sayısına bölünmesi ile hesaplanır.
Karmaşıklık Matrisini Anlamak

Photo: Jackverr via Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0
Karmaşıklık Matrisi Örneği
Doğruluk, geri çağırma, duyarlılık ve özgüllük gibi gerekli terimlerin tanımlarını verdikten sonra, bu farklı değerlerin bir karmaşıklık matrisi içinde nasıl temsil edildiğini inceleyebiliriz. Bir karmaşıklık matrisi, sınıflandırma durumlarında oluşturulur ve iki veya daha fazla sınıfta uygulanabilir. Oluşturulan karmaşıklık matrisi, istenen sayıda sınıfı tutabilen ve gerektiği kadar yüksek ve geniş olabilen bir yapıya sahiptir, ancak basitlik adına, bir ikili sınıflandırma görevi için 2×2’lik bir karmaşıklık matrisini inceleyeceğiz.
Örneğin, bir sınıflandırıcı, bir hastanın bir hastalığa sahip olup olmadığını belirlemek için kullanılıyor olsun. Özellikler sınıflandırıcıya verilir ve sınıflandırıcı, iki farklı sınıflandırmadan birini döndürür – hasta hastalığa sahip değildir veya sahiptir.
Matrisin sol tarafına bakalım. Karmaşıklık matrisinin sol tarafı, sınıflandırıcının bireysel sınıflar için yaptığı tahminleri temsil eder. İkili bir sınıflandırma görevi burada iki satıra sahip olacaktır. Matrisin üst kısmına gelince, bu, veri örneklerinin gerçek değerlerini, gerçek sınıf etiketlerini izler.
Bir karmaşıklık matrisini yorumlamak, satırların ve sütunların kesişme noktalarını incelemeyi içerir. Modelin tahminlerini modelin gerçek etiketleriyle karşılaştırın. Bu durumda,真正 Pozitif değerler, doğru pozitif tahminlerin sayısı, üst sol köşede bulunur. Yanlış pozitifler, üst sağ köşede, örneklerin aslında negatif olduğu ancak sınıflandırıcının bunları pozitif olarak etiketlediği yerde bulunurlar.
Gridin alt sol köşesi, sınıflandırıcının negatif olarak etiketlediği ancak aslında pozitif olan örnekleri gösterir. Son olarak, karmaşıklık matrisinin alt sağ köşesi,真正 Negatif değerlerin bulunduğu yerdir, yani gerçekten yanlış örneklerin bulunduğu yer.
Veri setinde iki sınıfın üzerinde sınıf varsa, matris o kadar sınıfla büyür. Örneğin, üç sınıf varsa, matris 3×3’lük bir matris olur. Karmaşıklık matrisinin boyutu ne olursa olsun, bunları yorumlama yöntemi tam olarak aynıdır. Sol tarafta tahmin edilen değerler ve üstte gerçek sınıf etiketleri bulunur. Sınıflandırıcının doğru şekilde tahmin ettiği örnekler, üst sol köşeden alt sağ köşeye diagonally ilerler. Matrise bakarak yukarıda tartışılan dört tahmin metriğini ayırt edebilirsiniz.
Örneğin,真正 pozitifleri ve yanlış negatifleri birleştirerek ve bunları真正 pozitif örneklerin sayısına bölerek geri çağırma hesaplayabilirsiniz. Bu arada, yanlış pozitifleri真正 pozitiflerle birleştirerek ve bu değeri真正 pozitiflerin toplam sayısına bölerek doğruluk hesaplanabilir.
Doğruluk, geri çağırma ve özgüllük gibi metrikileri manuel olarak hesaplamak yerine, bu metrikiler o kadar yaygın kullanılmaktadır ki, çoğu makine öğrenimi kütüphanesi bunları görüntüleme yöntemlerine sahiptir. Örneğin, Python için Scikit-learn, bir karmaşıklık matrisi oluşturan bir fonksiyona sahiptir.












