부본 혼란 행렬이란 무엇입니까? - Unite.AI
Rescale 미팅 예약

AI 101

혼란 행렬이란 무엇입니까?

mm
업데이트 on

기계 학습 및 데이터 과학 분야에서 가장 강력한 분석 도구 중 하나입니다. 혼동 행렬. 혼동 행렬은 연구자에게 데이터 세트의 대상 클래스와 관련하여 기계 학습 분류기가 어떻게 수행되었는지에 대한 자세한 정보를 제공할 수 있습니다. 혼동 행렬은 잘못 분류된 예에 대해 적절하게 분류된 표시 예를 보여줍니다. 혼동행렬이 어떻게 구성되어 있고 어떻게 해석될 수 있는지 자세히 살펴보겠습니다.

혼동 행렬이란 무엇입니까?

혼동 행렬에 대한 간단한 정의부터 시작하겠습니다. 혼동 매트릭스는 예측 분석 도구입니다. 구체적으로 실제 값과 모델의 예측 값을 표시하고 비교하는 테이블입니다. 머신 러닝의 맥락에서 혼동 매트릭스는 머신 러닝 분류기가 데이터 세트에서 수행되는 방식을 분석하는 메트릭으로 활용됩니다. 혼동 행렬은 정밀도, 정확도, 특이성 및 재현율과 같은 메트릭의 시각화를 생성합니다.

혼동 행렬이 특히 유용한 이유는 단순 정확도와 같은 다른 유형의 분류 메트릭과 달리 혼동 행렬이 모델의 성능에 대해 보다 완전한 그림을 생성하기 때문입니다. 정확도와 같은 메트릭만 사용하면 모델이 한 클래스를 완전하고 지속적으로 잘못 식별하는 상황이 발생할 수 있지만 평균 성능이 좋기 때문에 눈에 띄지 않습니다. 한편, 혼란 매트릭스 서로 다른 값을 비교합니다. False Negatives, True Negatives, False Positives 및 True Positive와 같은.

혼동 행렬이 나타내는 다양한 측정항목을 정의해 보겠습니다.

혼란 매트릭스에서 회상

재현율은 진정으로 긍정적인 예의 수를 위음성 예의 수와 총 양성 예의 수로 나눈 값입니다. 즉, 재현율은 기계 학습 모델이 분류한 진정한 긍정 사례의 비율을 나타냅니다. 재현율은 모델이 데이터 세트에 포함된 모든 긍정적인 예 중에서 분류할 수 있었던 긍정적인 예의 백분율로 제공됩니다. 이 값은 "적중률"이라고도 할 수 있으며 관련 값은 "감광도”, 이는 회상 가능성 또는 진정한 긍정적 예측의 비율을 설명합니다.

Precision 혼란 매트릭스에서

재현율과 마찬가지로 정밀도는 긍정적인 예 분류 측면에서 모델의 성능을 추적하는 값입니다. 하지만 재현율과 달리 정밀도는 긍정적이라고 표시된 모델이 진정으로 긍정적인 예의 수와 관련이 있습니다. 이를 계산하기 위해 참양성 예의 수를 거짓양성 예의 수에 참양성을 더한 수로 나눕니다.

구별하기 위해 리콜 및 정확도 향상, 정밀도는 양성으로 레이블이 지정된 모든 예 중 실제로 긍정적인 비율을 파악하는 것을 목표로 하는 반면 재현율은 모델이 인식할 수 있는 모든 참양성 예의 비율을 추적합니다.

특성 혼란 매트릭스에서

재현율과 정밀도는 양성 사례와 참양성률을 추적하는 값이지만, 특성 참음성 비율 또는 모델이 음수로 정의한 예의 수를 정량화합니다. 이는 음성으로 분류된 예의 수를 참음성 예와 결합된 위양성 예의 수로 나누어 계산합니다.

혼란 행렬 이해하기

사진: Wikimedia Commons를 통한 Jackverr, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

혼란 행렬의 예

정밀도, 재현율, 민감도 및 특이도와 같은 필수 용어를 정의한 후 이러한 다양한 값이 혼동 행렬 내에서 어떻게 표현되는지 검사할 수 있습니다. 분류의 경우 혼동행렬이 생성되며, 2개 이상의 분류가 있을 때 적용 가능하다. 생성되는 혼동 행렬은 필요한 만큼 크고 넓을 수 있으며 원하는 수의 클래스를 포함할 수 있지만 단순화를 위해 이진 분류 작업을 위한 2 x XNUMX 혼동 행렬을 살펴보겠습니다.

예를 들어 환자에게 질병이 있는지 여부를 결정하기 위해 분류기를 사용한다고 가정합니다. 기능은 분류자에 입력되고 분류자는 두 가지 분류 중 하나를 반환합니다. 환자에게 질병이 없거나 질병이 있습니다.

행렬의 왼쪽부터 시작해 봅시다. 혼동 행렬의 왼쪽은 분류자가 개별 클래스에 대해 만든 예측을 나타냅니다. 이진 분류 작업에는 여기에 두 개의 행이 있습니다. 행렬의 상단 부분과 관련하여 데이터 인스턴스의 실제 클래스 레이블인 실제 값을 추적합니다.

행과 열이 교차하는 위치를 검사하여 혼란 행렬을 해석할 수 있습니다. 모델의 실제 레이블과 비교하여 모델의 예측을 확인하십시오. 이 경우 올바른 긍정 예측의 수인 True Positives 값은 왼쪽 상단 모서리에 있습니다. 위양성은 오른쪽 상단 모서리에서 찾을 수 있습니다. 예는 실제로는 음성이지만 분류자는 양성으로 태그를 지정했습니다.

그리드의 왼쪽 아래 모서리에는 분류자가 음성으로 태그를 지정했지만 실제로는 양성인 인스턴스가 표시됩니다. 마지막으로, 혼동 행렬의 오른쪽 아래 모서리는 True Negative 값이 발견되는 곳 또는 진정으로 잘못된 예가 있는 곳입니다.

데이터 세트에 세 개 이상의 클래스가 포함된 경우 매트릭스는 해당 클래스만큼 커집니다. 예를 들어 세 개의 클래스가 있는 경우 행렬은 3 x 3 행렬이 됩니다. 혼동행렬의 크기에 관계없이 이를 해석하는 방법은 완전히 동일합니다. 왼쪽에는 예측된 값이 포함되고 실제 클래스 레이블은 상단에 표시됩니다. 분류기가 올바르게 예측한 인스턴스는 왼쪽 상단에서 오른쪽 하단으로 대각선으로 실행됩니다. 매트릭스를 보면 위에서 설명한 네 가지 예측 메트릭을 식별할 수 있습니다.

예를 들어 참 긍정과 거짓 부정을 취하여 함께 더하고 참 긍정 사례의 수로 나누어 재현율을 계산할 수 있습니다. 한편, 정밀도는 위양성과 참양성을 합한 다음 그 값을 전체 참양성 수로 나누어 계산할 수 있습니다.

정밀도, 재현율 및 특이성과 같은 메트릭을 수동으로 계산하는 데 시간을 할애할 수 있지만 이러한 메트릭은 너무 일반적으로 사용되므로 대부분의 기계 학습 라이브러리에는 이를 표시하는 방법이 있습니다. 예를 들어 Python용 Scikit-learn에는 혼동 행렬을 생성하는 함수가 있습니다.

전문 분야의 블로거 및 프로그래머 기계 학습 깊은 학습 주제. 다니엘은 다른 사람들이 사회적 이익을 위해 AI의 힘을 사용하도록 돕기를 희망합니다.