стуб Шта је матрица конфузије? - Уните.АИ
Повежите се са нама
АИ Мастерцласс:

АИ 101

Шта је матрица конфузије?

mm
Ажурирано on

Један од најмоћнијих аналитичких алата у машинском учењу и науци о подацима у матрица конфузије. Матрица конфузије је у стању да пружи истраживачима детаљне информације о томе како је класификатор машинског учења радио у односу на циљне класе у скупу података. Матрица конфузије ће показати примере приказа који су правилно класификовани у односу на погрешно класификоване примере. Хајде да дубље погледамо како је матрица конфузије структурирана и како се може тумачити.

Шта је матрица конфузије?

Почнимо тако што ћемо дати једноставну дефиницију матрице конфузије. Матрица конфузије је алатка за предиктивну анализу. Конкретно, то је табела која приказује и упоређује стварне вредности са предвиђеним вредностима модела. У контексту машинског учења, матрица конфузије се користи као метрика за анализу како се класификатор машинског учења понаша на скупу података. Матрица конфузије генерише визуелизацију метрика као што су прецизност, тачност, специфичност и памћење.

Разлог због којег је матрица конфузије посебно корисна је тај што, за разлику од других типова класификационих метрика, као што је једноставна тачност, матрица конфузије генерише потпунију слику о томе како се модел понашао. Само коришћење метрике попут тачности може довести до ситуације у којој модел потпуно и доследно погрешно идентификује једну класу, али то остаје непримећено јер су перформансе у просеку добре. У међувремену, матрица забуне даје поређење различитих вредности као што су лажно негативни, истинити негативни, лажно позитивни и истинити позитивни.

Хајде да дефинишемо различите метрике које представља матрица конфузије.

Присјетите се у матрици забуне

Подсећање је број истински позитивних примера подељен бројем лажно негативних примера и укупним позитивним примерима. Другим речима, подсећање је репрезентативно за пропорцију истинитих позитивних примера које је класификовао модел машинског учења. Подсећање је дато као проценат позитивних примера које је модел успео да класификује од свих позитивних примера садржаних у скупу података. Ова вредност се такође може назвати „стопа погодака“, а сродна вредност је „осетљивост“, који описује вероватноћу опозива, или стопу истинских позитивних предвиђања.

Прецизност у матрици конфузије

Као и подсећање, прецизност је вредност која прати перформансе модела у смислу класификације позитивних примера. Међутим, за разлику од подсећања, прецизност се односи на то колико је примера који је модел означен као позитивни било заиста позитивних. Да би се ово израчунало, број истинито позитивних примера се дели са бројем лажно позитивних примера плус истинито позитивних примера.

Да направимо разлику између опозив и прецизност јаснији, прецизност има за циљ да утврди проценат свих примера означених као позитивни који су заиста позитивни, док подсећање прати проценат свих истински позитивних примера које би модел могао да препозна.

Специфичност у матрици конфузије

Док су присећање и прецизност вредности које прате позитивне примере и праву позитивну стопу, специфичност квантификује праву негативну стопу или број примера које је модел дефинисао као негативне који су заиста негативни. Ово се израчунава тако што се узме број примера класификованих као негативни и подели се са бројем лажно позитивних примера комбинованих са правим негативним примерима.

Осмишљавање матрице конфузије

Фотографија: Јацкверр преко Викимедиа Цоммонс, (хттпс://цоммонс.викимедиа.орг/вики/Филе:ЦонфусионМатрик.пнг), ЦЦ БИ СА 3.0

Пример матрице конфузије

Након дефинисања неопходних појмова као што су прецизност, памћење, осетљивост и специфичност, можемо испитати како су ове различите вредности представљене унутар матрице конфузије. Матрица конфузије се генерише у случајевима класификације, применљива када постоје две или више класа. Матрица конфузије која се генерише може бити онолико висока и широка колико је потребно, са било којим жељеним бројем класа, али у сврху једноставности, испитаћемо матрицу конфузије 2 к 2 за задатак бинарне класификације.

Као пример, претпоставимо да се класификатор користи за одређивање да ли пацијент има болест или не. Карактеристике ће бити унесене у класификатор, а класификатор ће вратити једну од две различите класификације – или пацијент нема болест или има.

Почнимо са леве стране матрице. Лева страна матрице конфузије представља предвиђања која је класификатор направио за појединачне класе. Задатак бинарне класификације ће овде имати два реда. Што се тиче горњег дела матрице, он прати праве вредности, стварне ознаке класа, инстанци података.

Тумачење матрице конфузије може се обавити испитивањем где се секу редови и колоне. Проверите предвиђања модела у односу на тачне ознаке модела. У овом случају, вредности Труе Поситиве, број тачних позитивних предвиђања, налазе се у горњем левом углу. Лажно позитивни резултати се налазе у горњем десном углу, где су примери заправо негативни, али их је класификатор означио као позитиван.

Доњи леви угао мреже приказује случајеве које је класификатор означио као негативне, али су заиста позитивне. Коначно, доњи десни угао матрице конфузије је место где се налазе истините негативне вредности или где се налазе заиста лажни примери.

Када скуп података садржи више од две класе, матрица расте за толико класа. На пример, ако постоје три класе, матрица ће бити матрица 3 к 3. Без обзира на величину матрице конфузије, метод за њихово тумачење је потпуно исти. Лева страна садржи предвиђене вредности и стварне ознаке класа које се налазе на врху. Случајеви које је класификатор тачно предвидео крећу се дијагонално од горњег левог до доњег десног. Гледајући матрицу, можете уочити четири предиктивне метрике о којима је било речи.

На пример, можете израчунати сећање тако што ћете узети праве позитивне и лажно негативне, сабрати их и поделити са бројем истинито позитивних примера. У међувремену, прецизност се може израчунати комбиновањем лажних позитивних са правим позитивним, а затим дељењем вредности на укупан број истинитих позитивних резултата.

Иако неко може потрошити време на ручно израчунавање метрика као што су прецизност, памћење и специфичност, ове метрике се толико често користе да већина библиотека за машинско учење има методе за њихово приказивање. На пример, Сцикит-леарн за Питхон има функцију која генерише матрицу конфузије.

Блогер и програмер са специјалностима у Машинско учење Дееп Леарнинг теме. Данијел се нада да ће помоћи другима да искористе моћ вештачке интелигенције за друштвено добро.