taló Què és una matriu de confusió? - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Què és una matriu de confusió?

mm
actualitzat on

Una de les eines analítiques més potents en aprenentatge automàtic i ciència de dades la matriu de confusió. La matriu de confusió és capaç de proporcionar als investigadors informació detallada sobre com ha actuat un classificador d'aprenentatge automàtic respecte a les classes objectiu del conjunt de dades. Una matriu de confusió mostrarà exemples de visualització que s'han classificat correctament contra exemples classificats incorrectament. Fem una ullada més a fons a com s'estructura una matriu de confusió i com es pot interpretar.

Què és una matriu de confusió?

Comencem donant una definició senzilla d'una matriu de confusió. Una matriu de confusió és una eina d'anàlisi predictiva. Concretament, és una taula que mostra i compara els valors reals amb els valors predits del model. En el context de l'aprenentatge automàtic, s'utilitza una matriu de confusió com a mètrica per analitzar com funciona un classificador d'aprenentatge automàtic en un conjunt de dades. Una matriu de confusió genera una visualització de mètriques com ara precisió, exactitud, especificitat i record.

La raó per la qual la matriu de confusió és especialment útil és que, a diferència d'altres tipus de mètriques de classificació, com ara la precisió simple, la matriu de confusió genera una imatge més completa de com funciona un model. Només l'ús d'una mètrica com la precisió pot conduir a una situació en què el model identifiqui erròniament una classe de manera completa i coherent, però passa desapercebut perquè el rendiment mitjà és bo. Mentrestant, la matriu de confusió ofereix una comparació de diferents valors com els falsos negatius, els veritables negatius, els falsos positius i els veritables positius.

Definim les diferents mètriques que representa una matriu de confusió.

Recordar en una matriu de confusió

El record és el nombre d'exemples genuïnament positius dividit pel nombre d'exemples falsos negatius i el total d'exemples positius. En altres paraules, el record és representatiu de la proporció d'exemples positius veritables que ha classificat un model d'aprenentatge automàtic. El record es dóna com el percentatge d'exemples positius que el model va poder classificar de tots els exemples positius continguts al conjunt de dades. Aquest valor també es pot denominar "percentatge d'èxits" i un valor relacionat és "sensibilitat”, que descriu la probabilitat de recordar, o la taxa de prediccions positives genuïnes.

Precisió en una matriu de confusió

Igual que el record, la precisió és un valor que fa un seguiment del rendiment d'un model en termes de classificació d'exemples positius. A diferència del record, però, la precisió es refereix a quants dels exemples que el model va etiquetar positius eren realment positius. Per calcular-ho, el nombre d'exemples positius veritables es divideix pel nombre d'exemples positius falsos més els positius veritables.

Per fer la distinció entre record i precisió més clara, Precision té com a objectiu esbrinar el percentatge de tots els exemples etiquetats com positius que eren realment positius, mentre que el record fa un seguiment del percentatge de tots els exemples positius veritables que el model podria reconèixer.

Especificitat en una matriu de confusió

Tot i que la memòria i la precisió són valors que fan un seguiment dels exemples positius i de la taxa positiva real, especificitat quantifica la taxa veritable negativa o el nombre d'exemples que el model va definir com a negatius que eren realment negatius. Això es calcula prenent el nombre d'exemples classificats com a negatius i dividint-los pel nombre d'exemples falsos positius combinats amb els veritables exemples negatius.

Donant sentit a la matriu de confusió

Foto: Jackverr via Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Exemple de matriu de confusió

Després de definir termes necessaris com la precisió, el record, la sensibilitat i l'especificitat, podem examinar com es representen aquests diferents valors dins d'una matriu de confusió. En els casos de classificació es genera una matriu de confusió, aplicable quan hi ha dues o més classes. La matriu de confusió que es genera pot ser tan alta i ampla com sigui necessari, amb el nombre desitjat de classes, però per a finalitats de simplicitat, examinarem una matriu de confusió 2 x 2 per a una tasca de classificació binària.

Com a exemple, suposem que s'utilitza un classificador per determinar si un pacient té o no una malaltia. Les característiques s'introduiran al classificador i el classificador retornarà una de les dues classificacions diferents: el pacient no té la malaltia o sí.

Comencem pel costat esquerre de la matriu. El costat esquerre de la matriu de confusió representa les prediccions que el classificador va fer per a les classes individuals. Una tasca de classificació binària tindrà aquí dues files. Pel que fa a la part superior de la matriu, fa un seguiment dels valors reals, les etiquetes de classe reals, de les instàncies de dades.

La interpretació d'una matriu de confusió es pot fer examinant on es creuen les files i les columnes. Comproveu les prediccions del model amb les etiquetes reals del model. En aquest cas, els valors Veritables positius, el nombre de prediccions positives correctes, es troben a la cantonada superior esquerra. Els falsos positius es troben a la cantonada superior dreta, on els exemples són realment negatius, però el classificador els va etiquetar com a positius.

L'extrem inferior esquerre de la quadrícula mostra les instàncies que el classificador ha etiquetat com a negatives però que eren realment positives. Finalment, l'extrem inferior dret de la matriu de confusió és on es troben els valors negatius vertaders, o on es troben els exemples genuïnament falsos.

Quan el conjunt de dades conté més de dues classes, la matriu creix en tantes classes. Per exemple, si hi ha tres classes, la matriu serà una matriu de 3 x 3. Independentment de la mida de la matriu de confusió, el mètode per interpretar-les és exactament el mateix. El costat esquerre conté els valors previstos i les etiquetes de classe reals que es troben a la part superior. Els casos que el classificador ha predit correctament s'executen en diagonal des de la part superior esquerra fins a la part inferior dreta. En mirar la matriu, podeu discernir les quatre mètriques predictives comentades anteriorment.

Per exemple, podeu calcular la memòria agafant els veritables positius i els falsos negatius, sumant-los i dividint-los pel nombre d'exemples veritables positius. Mentrestant, la precisió es pot calcular combinant els falsos positius amb els vertaders positius i després dividint el valor en el nombre total de veritables positius.

Tot i que es podria passar temps calculant manualment mètriques com ara la precisió, la memòria i l'especificitat, aquestes mètriques s'utilitzen tan habitualment que la majoria de biblioteques d'aprenentatge automàtic tenen mètodes per mostrar-les. Per exemple, Scikit-learn per a Python té una funció que genera una matriu de confusió.

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.