заглушки Что такое матрица путаницы? - Unite.ИИ
Свяжитесь с нами:
Мастер-класс по ИИ:

AI 101

Что такое матрица путаницы?

mm
обновленный on

Один из самых мощных аналитических инструментов в области машинного обучения и науки о данных в матрица путаницы. Матрица путаницы способна предоставить исследователям подробную информацию о том, как работает классификатор машинного обучения по отношению к целевым классам в наборе данных. Матрица путаницы покажет примеры отображения, которые были правильно классифицированы по сравнению с неправильно классифицированными примерами. Давайте более подробно рассмотрим, как структурирована матрица путаницы и как ее можно интерпретировать.

Что такое матрица путаницы?

Начнем с простого определения матрицы путаницы. Матрица путаницы — это инструмент предиктивной аналитики. В частности, это таблица, которая отображает и сравнивает фактические значения с прогнозируемыми значениями модели. В контексте машинного обучения матрица путаницы используется в качестве метрики для анализа того, как классификатор машинного обучения работает с набором данных. Матрица путаницы создает визуализацию таких показателей, как точность, правильность, специфичность и полнота.

Причина, по которой матрица путаницы особенно полезна, заключается в том, что, в отличие от других типов метрик классификации, таких как простая точность, матрица путаницы создает более полную картину того, как работает модель. Только использование такой метрики, как точность, может привести к ситуации, когда модель полностью и постоянно ошибочно идентифицирует один класс, но это остается незамеченным, потому что в среднем производительность хорошая. При этом матрица путаницы дает сравнение различных значений как ложноотрицательные, истинно негативные, ложноположительные и истинно положительные.

Давайте определим различные показатели, которые представляет матрица путаницы.

Напомним в матрице путаницы

Припоминание — это количество действительно положительных примеров, деленное на количество ложноотрицательных примеров и общее количество положительных примеров. Другими словами, отзыв представляет собой долю действительно положительных примеров, классифицированных моделью машинного обучения. Отзыв дается как процент положительных примеров, которые модель смогла классифицировать, из всех положительных примеров, содержащихся в наборе данных. Это значение также может называться «частотой попаданий», а связанное с ним значение — «чувствительность», который описывает вероятность отзыва или скорость действительно положительных прогнозов.

Точность в матрице путаницы

Как и отзыв, точность — это значение, которое отслеживает производительность модели с точки зрения классификации положительных примеров. Однако, в отличие от отзыва, точность связана с тем, сколько примеров, отмеченных моделью как положительные, были действительно положительными. Чтобы рассчитать это, количество истинно положительных примеров делится на количество ложноположительных примеров плюс истинно положительные.

Чтобы провести различие между отзыв и точность яснее, точность направлена ​​на определение процентной доли всех примеров, помеченных как положительные, которые были действительно положительными, в то время как отзыв отслеживает процент всех истинно положительных примеров, которые модель смогла распознать.

специфичность в матрице путаницы

В то время как полнота и точность — это значения, которые отслеживают положительные примеры и истинный положительный показатель, специфичность количественно определяет истинный отрицательный показатель или количество примеров, определенных моделью как отрицательные, которые были действительно отрицательными. Это рассчитывается путем деления количества примеров, классифицированных как отрицательные, на количество ложноположительных примеров в сочетании с истинно отрицательными примерами.

Разбираемся в матрице путаницы

Фото: Джекверр через Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Пример матрицы путаницы

После определения необходимых терминов, таких как точность, полнота, чувствительность и специфичность, мы можем изучить, как эти разные значения представлены в матрице путаницы. Матрица путаницы создается в случаях классификации, применимой при наличии двух или более классов. Сгенерированная матрица путаницы может быть настолько высокой и широкой, насколько это необходимо, и содержать любое желаемое количество классов, но для простоты мы рассмотрим матрицу путаницы 2 x 2 для задачи бинарной классификации.

В качестве примера предположим, что классификатор используется для определения наличия у пациента заболевания. Признаки будут переданы в классификатор, и классификатор вернет одну из двух разных классификаций — либо у пациента нет заболевания, либо у него оно есть.

Начнем с левой части матрицы. Левая часть матрицы путаницы представляет прогнозы, сделанные классификатором для отдельных классов. Задача бинарной классификации будет иметь здесь две строки. Что касается верхней части матрицы, она отслеживает истинные значения, фактические метки классов экземпляров данных.

Интерпретировать матрицу путаницы можно, изучив, где пересекаются строки и столбцы. Проверьте предсказания модели против истинных меток модели. В этом случае значения True Positives, количество правильных положительных прогнозов, расположены в верхнем левом углу. Ложные срабатывания находятся в правом верхнем углу, где примеры на самом деле отрицательные, но классификатор пометил их как положительные.

В левом нижнем углу сетки отображаются экземпляры, которые классификатор пометил как отрицательные, но которые были действительно положительными. Наконец, нижний правый угол матрицы путаницы — это место, где находятся истинно отрицательные значения или действительно ложные примеры.

Когда набор данных содержит более двух классов, матрица увеличивается на это количество классов. Например, если есть три класса, матрица будет матрицей 3 x 3. Независимо от размера матрицы путаницы метод их интерпретации абсолютно одинаков. Левая сторона содержит прогнозируемые значения, а фактические метки классов проходят сверху. Экземпляры, которые классификатор правильно предсказал, проходят по диагонали от верхнего левого угла к нижнему правому. Глядя на матрицу, вы можете различить четыре прогностических показателя, о которых говорилось выше.

Например, вы можете рассчитать отзыв, взяв истинно положительные и ложноотрицательные результаты, сложив их вместе и разделив на количество истинно положительных примеров. Между тем точность можно рассчитать, объединив ложные срабатывания с истинными срабатываниями, а затем разделив значение на общее количество истинных срабатываний.

Хотя можно потратить время на ручное вычисление таких показателей, как точность, полнота и специфичность, эти показатели настолько широко используются, что в большинстве библиотек машинного обучения есть методы их отображения. Например, в Scikit-learn для Python есть функция, генерирующая матрицу путаницы.

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.