ciot Ce este o matrice de confuzie? - Unite.AI
Conectează-te cu noi
Masterclass AI:

AI 101

Ce este o matrice de confuzie?

mm
Actualizat on

Unul dintre cele mai puternice instrumente analitice din învățarea automată și știința datelor în matricea de confuzie. Matricea de confuzie este capabilă să ofere cercetătorilor informații detaliate despre modul în care a funcționat un clasificator de învățare automată în raport cu clasele țintă din setul de date. O matrice de confuzie va demonstra exemple de afișare care au fost clasificate corespunzător față de exemplele clasificate greșit. Să aruncăm o privire mai profundă asupra modului în care este structurată o matrice de confuzie și cum poate fi interpretată.

Ce este o matrice de confuzie?

Să începem prin a oferi o definiție simplă a unei matrice de confuzie. O matrice de confuzie este un instrument de analiză predictivă. Mai exact, este un tabel care afișează și compară valorile reale cu valorile prezise ale modelului. În contextul învățării automate, o matrice de confuzie este utilizată ca măsurătoare pentru a analiza modul în care un clasificator de învățare automată a funcționat pe un set de date. O matrice de confuzie generează o vizualizare a unor valori precum precizia, acuratețea, specificitatea și reamintirea.

Motivul pentru care matricea de confuzie este deosebit de utilă este că, spre deosebire de alte tipuri de metrici de clasificare, cum ar fi acuratețea simplă, matricea de confuzie generează o imagine mai completă a modului în care a funcționat un model. Numai utilizarea unei metrici precum acuratețea poate duce la o situație în care modelul identifică greșit complet și constant o clasă, dar trece neobservat, deoarece performanța medie este bună. Între timp, matricea de confuzie oferă o comparație a diferitelor valori precum false negative, adevărate negative, false pozitive și adevărate pozitive.

Să definim diferitele valori pe care le reprezintă o matrice de confuzie.

Amintiți într-o matrice de confuzie

Reamintirea este numărul de exemple cu adevărat pozitive împărțit la numărul de exemple fals-negative și la numărul total de exemple pozitive. Cu alte cuvinte, amintirea este reprezentativă pentru proporția de exemple pozitive adevărate pe care le-a clasificat un model de învățare automată. Reamintirea este dată ca procent de exemple pozitive pe care modelul a putut să le clasifice din toate exemplele pozitive conținute în setul de date. Această valoare poate fi denumită și „rata de accesare”, iar o valoare aferentă este „sensibilitate”, care descrie probabilitatea de reamintire sau rata previziunilor pozitive reale.

Precizie într-o matrice de confuzie

Ca și amintirea, precizia este o valoare care urmărește performanța unui model în ceea ce privește clasificarea unui exemplu pozitiv. Spre deosebire de reamintire, totuși, precizia se referă la cât de multe dintre exemplele modelului etichetat pozitiv au fost cu adevărat pozitive. Pentru a calcula acest lucru, numărul de exemple pozitive adevărate este împărțit la numărul de exemple pozitive fals plus pozitive adevărate.

Pentru a face distincția între reamintire și precizie mai clară, Precision are scopul de a afla procentul dintre toate exemplele etichetate pozitive care au fost cu adevărat pozitive, în timp ce reamintirea urmărește procentul dintre toate exemplele adevărate pozitive pe care modelul le-a putut recunoaște.

specificitate într-o matrice de confuzie

În timp ce amintirea și precizia sunt valori care urmăresc exemplele pozitive și rata adevărată pozitivă, specificitate cuantifică rata negativă adevărată sau numărul de exemple definite de model ca fiind negative și care au fost cu adevărat negative. Aceasta se calculează luând numărul de exemple clasificate drept negative și împărțindu-le la numărul de exemple fals pozitive combinate cu exemplele negative adevărate.

Înțelegerea matricei de confuzie

Foto: Jackverr prin Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Exemplu de matrice de confuzie

După definirea termenilor necesari precum precizie, reamintire, sensibilitate și specificitate, putem examina modul în care aceste valori diferite sunt reprezentate într-o matrice de confuzie. În cazurile de clasificare se generează o matrice de confuzie, aplicabilă atunci când există două sau mai multe clase. Matricea de confuzie care este generată poate fi atât de înaltă și largă cât este necesar, deținând orice număr dorit de clase, dar din motive de simplitate, vom examina o matrice de confuzie 2 x 2 pentru o sarcină de clasificare binară.

De exemplu, să presupunem că un clasificator este utilizat pentru a determina dacă un pacient are sau nu o boală. Caracteristicile vor fi introduse în clasificator, iar clasificatorul va returna una dintre cele două clasificări diferite - fie pacientul nu are boala, fie o are.

Să începem cu partea stângă a matricei. Partea stângă a matricei de confuzie reprezintă predicțiile pe care le-a făcut clasificatorul pentru clasele individuale. O sarcină de clasificare binară va avea două rânduri aici. În ceea ce privește porțiunea de sus a matricei, urmărește valorile adevărate, etichetele clasei reale, ale instanțelor de date.

Interpretarea unei matrice de confuzie se poate face prin examinarea unde se intersectează rândurile și coloanele. Verificați predicțiile modelului față de etichetele adevărate ale modelului. În acest caz, valorile True Positives, numărul de predicții pozitive corecte, sunt situate în colțul din stânga sus. Falsele pozitive se găsesc în colțul din dreapta sus, unde exemplele sunt de fapt negative, dar clasificatorul l-a etichetat ca pozitiv.

Colțul din stânga jos al grilei afișează cazurile pe care clasificatorul le-a etichetat ca negative, dar care au fost cu adevărat pozitive. În cele din urmă, colțul din dreapta jos al matricei de confuzie este locul în care se găsesc valorile adevărate negative sau unde sunt exemplele cu adevărat false.

Când setul de date conține mai mult de două clase, matricea crește cu atâtea clase. De exemplu, dacă există trei clase, matricea va fi o matrice 3 x 3. Indiferent de dimensiunea matricei de confuzie, metoda de interpretare a acestora este exact aceeași. Partea din stânga conține valorile prezise și etichetele reale ale clasei sunt difuzate în partea de sus. Instanțele pe care clasificatorul le-a prezis corect se desfășoară în diagonală de la stânga sus la dreapta jos. Privind matricea, puteți discerne cele patru metrici predictive discutate mai sus.

De exemplu, puteți calcula reamintirea luând elementele pozitive adevărate și negative false, adunându-le și împărțind-le la numărul de exemple pozitive adevărate. Între timp, precizia poate fi calculată prin combinarea falselor pozitive cu adevăratele pozitive, apoi împărțind valoarea în numărul total de adevărate pozitive.

Deși s-ar putea petrece timp calculând manual valori precum precizia, reamintirea și specificitatea, aceste valori sunt atât de frecvent utilizate încât majoritatea bibliotecilor de învățare automată au metode de afișare a acestora. De exemplu, Scikit-learn pentru Python are o funcție care generează o matrice de confuzie.

Blogger și programator cu specialități în Invatare mecanica și Invatare profunda subiecte. Daniel speră să-i ajute pe alții să folosească puterea AI pentru binele social.