stub Kas yra painiavos matrica? - Vienykitės.AI
Susisiekti su mumis
AI meistriškumo klasė:

AI 101 m

Kas yra painiavos matrica?

mm
Atnaujinta on

Viena iš galingiausių mašininio mokymosi ir duomenų mokslo analitinių įrankių painiavos matrica. Sumaišties matrica gali suteikti tyrėjams išsamios informacijos apie tai, kaip mašininio mokymosi klasifikatorius veikė, atsižvelgiant į tikslines duomenų rinkinio klases. Sumaišties matrica parodys pavyzdžius, kurie buvo tinkamai klasifikuoti, palyginti su netinkamai klasifikuotais pavyzdžiais. Pažvelkime į tai, kaip supainiojimo matrica yra struktūrizuota ir kaip ją galima interpretuoti.

Kas yra painiavos matrica?

Pradėkime nuo paprasto painiavos matricos apibrėžimo. Sumaišties matrica yra nuspėjamoji analizės priemonė. Tiksliau, tai yra lentelė, kurioje rodomos ir lyginamos tikrosios vertės su modelio numatytomis vertėmis. Mašininio mokymosi kontekste painiavos matrica naudojama kaip metrika analizuojant, kaip mašininio mokymosi klasifikatorius veikia duomenų rinkinyje. Sumaišties matrica sukuria metrikos, pvz., tikslumo, tikslumo, specifiškumo ir prisiminimo, vizualizaciją.

Priežastis, kodėl painiavos matrica yra ypač naudinga, yra ta, kad, skirtingai nuo kitų tipų klasifikavimo metrikų, tokių kaip paprastas tikslumas, painiavos matrica sukuria išsamesnį modelio veikimo vaizdą. Tik naudojant tokią metriką kaip tikslumas, gali susidaryti situacija, kai modelis visiškai ir nuosekliai klaidingai identifikuoja vieną klasę, tačiau tai nepastebima, nes vidutinis našumas yra geras. Tuo tarpu painiavos matrica pateikia skirtingų verčių palyginimą kaip klaidingi neigiamai, tikri neigiami, klaidingi teigiami ir tikri teigiami teiginiai.

Apibrėžkime skirtingą metriką, kurią vaizduoja painiavos matrica.

Prisiminkite painiavos matricoje

Prisiminimas yra tikrai teigiamų pavyzdžių skaičius, padalytas iš klaidingai neigiamų pavyzdžių skaičiaus ir viso teigiamų pavyzdžių. Kitaip tariant, prisiminimas atspindi tikrų teigiamų pavyzdžių, kuriuos klasifikavo mašininio mokymosi modelis, dalį. Prisiminimas pateikiamas kaip teigiamų pavyzdžių procentas, kurį modelis galėjo klasifikuoti iš visų teigiamų pavyzdžių, esančių duomenų rinkinyje. Ši vertė taip pat gali būti vadinama „atvykimo rodikliu“, o susijusi vertė yra „jautrumas“, kuris apibūdina atšaukimo tikimybę arba tikrų teigiamų prognozių greitį.

Tikslumas painiavos matricoje

Kaip ir prisiminimas, tikslumas yra vertė, kuri seka modelio našumą teigiamo pavyzdžio klasifikavimo požiūriu. Tačiau, skirtingai nei prisiminimas, tikslumas yra susijęs su tuo, kiek pavyzdžių, pažymėtų teigiamais, buvo tikrai teigiami. Norint tai apskaičiuoti, tikrų teigiamų pavyzdžių skaičius padalytas iš klaidingai teigiamų pavyzdžių skaičiaus ir tikri teigiami.

Norėdami atskirti aiškesnis prisiminimas ir tikslumas, tikslumu siekiama išsiaiškinti procentą visų teigiamų pavyzdžių, kurie buvo tikrai teigiami, o prisiminimas seka visų tikrų teigiamų pavyzdžių, kuriuos modelis galėtų atpažinti, procentą.

Ypatybė painiavos matricoje

Nors prisiminimas ir tikslumas yra vertybės, kurios seka teigiamus pavyzdžius ir tikrą teigiamą rodiklį, specifiškumas kiekybiškai įvertina tikrąjį neigiamą rodiklį arba pavyzdžių, kuriuos modelis apibrėžė kaip neigiamą ir kurie buvo tikrai neigiami, skaičių. Tai apskaičiuojama imant pavyzdžių, klasifikuojamų kaip neigiamas, skaičių ir padalijus juos iš klaidingai teigiamų pavyzdžių skaičiaus kartu su tikrais neigiamais pavyzdžiais.

Sumaišties matricos prasmė

Nuotrauka: Jackverr per Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Sumaišties matricos pavyzdys

Apibrėžę būtinus terminus, tokius kaip tikslumas, prisiminimas, jautrumas ir specifiškumas, galime ištirti, kaip šios skirtingos reikšmės pateikiamos painiavos matricoje. Klasifikavimo atvejais sukuriama painiavos matrica, taikoma, kai yra dvi ar daugiau klasių. Sukurta painiavos matrica gali būti tokia aukšta ir plati, kiek reikia, talpinant bet kokį norimą klasių skaičių, tačiau paprastumo sumetimais išnagrinėsime 2 x 2 painiavos matricą dvejetainei klasifikavimo užduočiai.

Pavyzdžiui, tarkime, kad klasifikatorius naudojamas nustatyti, ar pacientas serga, ar ne. Požymiai bus įvesti į klasifikatorių, o klasifikatorius grąžins vieną iš dviejų skirtingų klasifikacijų – arba pacientas neserga liga, arba serga.

Pradėkime nuo kairiosios matricos pusės. Kairioji painiavos matricos pusė rodo prognozes, kurias klasifikatorius padarė atskiroms klasėms. Dvejetainės klasifikacijos užduotis čia turės dvi eilutes. Kalbant apie viršutinę matricos dalį, ji seka tikrąsias duomenų egzempliorių reikšmes, tikrąsias klasių etiketes.

Supainiojimo matricą galima interpretuoti išnagrinėjus, kur susikerta eilutės ir stulpeliai. Patikrinkite modelio prognozes pagal tikrąsias modelio etiketes. Šiuo atveju tikrosios teigiamos reikšmės, teisingų teigiamų prognozių skaičius, yra viršutiniame kairiajame kampe. Klaidingi teigiami rezultatai yra viršutiniame dešiniajame kampe, kur pavyzdžiai iš tikrųjų yra neigiami, tačiau klasifikatorius pažymėjo jį kaip teigiamą.

Apatiniame kairiajame tinklelio kampe rodomi atvejai, kuriuos klasifikatorius pažymėjo kaip neigiamą, bet buvo tikrai teigiami. Galiausiai, apatiniame dešiniajame painiavos matricos kampe yra tikrosios neigiamos reikšmės arba tikrai klaidingi pavyzdžiai.

Kai duomenų rinkinyje yra daugiau nei dvi klasės, matrica išauga tiek klasių. Pavyzdžiui, jei yra trys klasės, matrica bus 3 x 3 matrica. Nepriklausomai nuo painiavos matricos dydžio, jų interpretavimo metodas yra visiškai toks pat. Kairėje pusėje yra numatytos reikšmės ir tikrosios klasių etiketės, esančios viršuje. Atvejai, kuriuos klasifikatorius teisingai numatė, eina įstrižai iš viršutinės kairės į apačią į dešinę. Žvelgdami į matricą galite atskirti keturias pirmiau aptartas nuspėjamąsias metrikas.

Pavyzdžiui, galite apskaičiuoti atšaukimą paimdami tikrus teigiamus ir klaidingus neigiamus dalykus, sudėjus juos ir padalydami iš tikrų teigiamų pavyzdžių skaičiaus. Tuo tarpu tikslumą galima apskaičiuoti sujungiant klaidingus teigiamus rezultatus su tikrais teigiamais, tada padalijus vertę į bendrą tikrų teigiamų rezultatų skaičių.

Nors galima praleisti laiką rankiniu būdu skaičiuojant tokias metrikas kaip tikslumas, atšaukimas ir specifiškumas, ši metrika naudojama taip dažnai, kad dauguma mašininio mokymosi bibliotekų turi metodus, kaip juos rodyti. Pavyzdžiui, Scikit-learn for Python turi funkciją, kuri sukuria painiavos matricą.

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.