škrbina Kaj je matrica zmede? - Združi se.AI
Povežite se z nami

AI 101

Kaj je matrica zmede?

mm
Posodobljeno on

Eno najmočnejših analitičnih orodij v strojnem učenju in podatkovni znanosti v matriko zmede. Matrika zmede je sposobna dati raziskovalcem podrobne informacije o tem, kako se je klasifikator strojnega učenja obnesel glede na ciljne razrede v naboru podatkov. Matrika zmede bo prikazala primere prikaza, ki so bili pravilno razvrščeni, v primerjavi z napačno razvrščenimi primeri. Oglejmo si globlje, kako je strukturirana matrika zmede in kako jo je mogoče razlagati.

Kaj je matrica zmede?

Začnimo s preprosto definicijo matrike zmede. Matrika zmede je orodje za napovedno analitiko. Natančneje, to je tabela, ki prikazuje in primerja dejanske vrednosti s predvidenimi vrednostmi modela. V okviru strojnega učenja se matrika zmede uporablja kot metrika za analizo delovanja klasifikatorja strojnega učenja na naboru podatkov. Matrika zmede ustvari vizualizacijo meritev, kot so natančnost, točnost, specifičnost in priklic.

Razlog, da je matrika zmede še posebej uporabna, je v tem, da za razliko od drugih vrst klasifikacijskih metrik, kot je preprosta natančnost, matrika zmede ustvari popolnejšo sliko o delovanju modela. Samo uporaba metrike, kot je natančnost, lahko privede do situacije, ko model popolnoma in dosledno napačno identificira en razred, vendar ostane neopažen, ker je povprečna zmogljivost dobra. Medtem pa matrica zmede daje primerjavo različnih vrednosti kot so lažno negativni, pravi negativni, lažno pozitivni in resnično pozitivni.

Opredelimo različne metrike, ki jih predstavlja matrika zmede.

Odpoklic v matriki zmede

Odpoklic je število resnično pozitivnih primerov, deljeno s številom lažno negativnih primerov in skupnim številom pozitivnih primerov. Z drugimi besedami, priklic je reprezentativen za delež resničnih pozitivnih primerov, ki jih je klasificiral model strojnega učenja. Odpoklic je podan kot odstotek pozitivnih primerov, ki jih je model uspel razvrstiti od vseh pozitivnih primerov v naboru podatkov. Ta vrednost se lahko imenuje tudi "stopnja zadetkov", sorodna vrednost pa je "občutljivost«, ki opisuje verjetnost odpoklica ali stopnjo resničnih pozitivnih napovedi.

Precision v matriki zmede

Tako kot odpoklic je tudi natančnost vrednost, ki sledi uspešnosti modela v smislu klasifikacije pozitivnih primerov. Za razliko od odpoklica pa se natančnost nanaša na to, koliko primerov, ki jih je model označil za pozitivne, je bilo resnično pozitivnih. Da bi to izračunali, se število resnično pozitivnih primerov deli s številom lažno pozitivnih primerov plus resnično pozitivnih.

Da bi razlikovali med odpoklic in natančnost jasnejši, cilj natančnosti je ugotoviti odstotek vseh primerov, označenih kot pozitivni, ki so bili resnično pozitivni, medtem ko priklic spremlja odstotek vseh resnično pozitivnih primerov, ki jih je model lahko prepoznal.

Specifičnost v matriki zmede

Medtem ko sta priklic in natančnost vrednosti, ki sledita pozitivnim primerom in resnični pozitivni stopnji, specifičnosti kvantificira resnično negativno stopnjo ali število primerov, ki jih je model opredelil kot negativne in so bili resnično negativni. To se izračuna tako, da se število primerov, razvrščenih kot negativni, deli s številom lažno pozitivnih primerov v kombinaciji s pravimi negativnimi primeri.

Osmišljanje matrice zmede

Fotografija: Jackverr prek Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Primer matrike zmede

Po opredelitvi potrebnih izrazov, kot so natančnost, priklic, občutljivost in specifičnost, lahko preučimo, kako so te različne vrednosti predstavljene v matriki zmede. Matrika zmede se ustvari v primerih razvrščanja, ki se uporablja, kadar obstajata dva ali več razredov. Ustvarjena matrika zmede je lahko poljubno visoka in široka ter vsebuje poljubno število razredov, vendar bomo zaradi poenostavitve preučili matriko zmede 2 x 2 za nalogo binarne klasifikacije.

Kot primer predpostavimo, da se klasifikator uporablja za ugotavljanje, ali ima bolnik bolezen ali ne. Značilnosti bodo vnesene v klasifikator in klasifikator bo vrnil eno od dveh različnih klasifikacij – bodisi bolnik nima bolezni ali pa jo ima.

Začnimo z levo stranjo matrike. Leva stran matrike zmede predstavlja napovedi, ki jih je klasifikator naredil za posamezne razrede. Naloga binarne klasifikacije bo imela tukaj dve vrstici. Kar zadeva zgornji del matrike, sledi resničnim vrednostim, dejanskim oznakam razreda, primerkov podatkov.

Interpretacijo matrike zmede lahko izvedemo tako, da preučimo, kje se vrstice in stolpci sekajo. Preverite napovedi modela glede na resnične oznake modela. V tem primeru se vrednosti True Positives, število pravilnih pozitivnih napovedi, nahajajo v zgornjem levem kotu. Lažne pozitivne rezultate najdemo v zgornjem desnem kotu, kjer so primeri dejansko negativni, vendar jih je klasifikator označil kot pozitivne.

V spodnjem levem kotu mreže so prikazani primeri, ki jih je klasifikator označil kot negativne, vendar so bili resnično pozitivni. Končno, v spodnjem desnem kotu matrike zmede so najdene True Negative vrednosti ali kjer so resnično lažni primeri.

Ko nabor podatkov vsebuje več kot dva razreda, se matrika poveča za toliko razredov. Na primer, če obstajajo trije razredi, bo matrika 3 x 3 matrika. Ne glede na velikost matrike zmede je metoda za njihovo interpretacijo popolnoma enaka. Leva stran vsebuje predvidene vrednosti in dejanske oznake razreda, ki potekajo na vrhu. Primeri, ki jih je klasifikator pravilno predvidel, potekajo diagonalno od zgornjega levega do spodnjega desnega. Če pogledate matriko, lahko razločite štiri napovedne metrike, o katerih smo govorili zgoraj.

Na primer, odpoklic lahko izračunate tako, da vzamete resnično pozitivne in lažno negativne rezultate, jih seštejete in delite s številom resnično pozitivnih primerov. Medtem lahko natančnost izračunate tako, da lažno pozitivne rezultate združite z resničnimi pozitivnimi, nato pa vrednost delite na skupno število resničnih pozitivnih rezultatov.

Medtem ko bi lahko porabili čas za ročno izračunavanje metrik, kot so natančnost, priklic in specifičnost, so te metrike tako pogosto uporabljene, da ima večina knjižnic strojnega učenja metode za njihov prikaz. Na primer, Scikit-learn za Python ima funkcijo, ki ustvari matriko zmede.

Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.