stub Prižiūrimas ir neprižiūrimas mokymasis – Unite.AI
Susisiekti su mumis
AI meistriškumo klasė:

AI 101 m

Mokymasis prižiūrimas prieš neprižiūrimą

mm
Atnaujinta on

Mašininio mokymosi metu daugumą užduočių galima lengvai suskirstyti į vieną iš dviejų skirtingų klasių: prižiūrimas mokymosi problemas arba neprižiūrimas mokymosi problemas. Prižiūrimo mokymosi metu prie duomenų pridedamos etiketės arba klasės, o neprižiūrimo mokymosi atveju duomenys yra neženklinami. Pažvelkime į tai, kodėl šis skirtumas yra svarbus, ir pažvelkime į kai kuriuos su kiekvienu mokymosi tipu susijusius algoritmus.

Mokymasis prižiūrimas prieš neprižiūrimą

Dauguma mašininio mokymosi užduočių yra susijusios su prižiūrimas mokymasis. Prižiūrimuose mokymosi algoritmuose atskiriems egzemplioriams / duomenų taškams duomenų rinkinyje yra priskirta klasė arba etiketė. Tai reiškia, kad mašininio mokymosi modelis gali išmokti atskirti, kurios funkcijos yra susijusios su tam tikra klase, ir kad mašininio mokymosi inžinierius gali patikrinti modelio veikimą, matydamas, kiek atvejų buvo tinkamai klasifikuota. Klasifikavimo algoritmai gali būti naudojami norint atskirti daug sudėtingų modelių, jei duomenys yra pažymėti tinkamomis klasėmis. Pavyzdžiui, mašininio mokymosi algoritmas gali išmokti atskirti skirtingus gyvūnus vienas nuo kito pagal tokias savybes kaip „ūsai“, „uodega“, „nagai“ ir kt.

Priešingai nei prižiūrimas mokymasis, neprižiūrimas mokymasis apima modelio, galinčio išgauti šablonus iš nepažymėtų duomenų, kūrimą. Kitaip tariant, kompiuteris analizuoja įvesties ypatybes ir pats nustato, kokios yra svarbiausios savybės ir modeliai. Neprižiūrimas mokymasis bando rasti būdingus panašumus tarp skirtingų atvejų. Jei prižiūrimo mokymosi algoritmo tikslas yra patalpinti duomenų taškus į žinomas klases, neprižiūrimi mokymosi algoritmai ištirs objektų egzempliorių ypatybes ir suskirstys jas į grupes pagal šias savybes, iš esmės sukurdami savo klases.

Prižiūrimų mokymosi algoritmų pavyzdžiai yra tiesinė regresija, logistinė regresija, K-artimiausi kaimynai, sprendimų medžiai ir paramos vektorinės mašinos.

Tuo tarpu kai kurie neprižiūrimų mokymosi algoritmų pavyzdžiai yra pagrindinių komponentų analizė ir K-Means klasterizavimas.

Prižiūrimas mokymosi algoritmas

tiesinės regresijos yra algoritmas, kuris paima dvi savybes ir nubrėžia ryšį tarp jų. Tiesinė regresija naudojama skaitinėms reikšmėms numatyti kitų skaitinių kintamųjų atžvilgiu. Tiesinė regresija turi lygtį Y = a +bX, kur b yra linijos nuolydis, o a yra vieta, kur y kerta X ašį.

Logistinė regresija yra dvejetainis klasifikavimo algoritmas. Algoritmas tiria ryšį tarp skaitinių požymių ir nustato tikimybę, kad egzempliorius gali būti klasifikuojamas į vieną iš dviejų skirtingų klasių. Tikimybių reikšmės „suspaudžiamos“ link 0 arba 1. Kitaip tariant, didelė tikimybė priartės prie 0.99, o silpna – prie 0.

K-Artimiausi kaimynai priskiria klasę naujiems duomenų taškams pagal tam tikro pasirinkto kaimynų skaičiaus mokymo rinkinyje priskirtas klases. Kaimynų skaičius, kurį atsižvelgiama į algoritmą, yra svarbus, o per mažai arba per daug kaimynų gali neteisingai klasifikuoti taškus.

Sprendimų medžiai yra klasifikavimo ir regresijos algoritmo tipas. Sprendimų medis veikia padalijant duomenų rinkinį į vis mažesnes dalis, kol poaibių nebegalima skaidyti, o rezultatas yra medis su mazgais ir lapais. Mazgai yra vieta, kur sprendimai dėl duomenų taškų priimami naudojant skirtingus filtravimo kriterijus, o lapai yra atvejai, kuriems priskirta tam tikra etiketė (duomenų taškas, kuris buvo klasifikuotas). Sprendimų medžio algoritmai gali apdoroti tiek skaitmeninius, tiek kategorinius duomenis. Medyje suskaidomi tam tikri kintamieji/ypatybės.

Palaikykite vektorines mašinas yra klasifikavimo algoritmas, kuris veikia nubrėždamas hiperplokštumas arba atskyrimo linijas tarp duomenų taškų. Duomenų taškai yra suskirstyti į klases pagal tai, kurioje hiperplokštumos pusėje jie yra. Per vieną plokštumą galima nubrėžti kelias hiperplokštumas, suskirstant duomenų rinkinį į kelias klases. Klasifikatorius stengsis maksimaliai padidinti atstumą tarp nardymo hiperplokštumos ir taškų abiejose plokštumos pusėse, ir kuo didesnis atstumas tarp linijos ir taškų, tuo labiau pasitiki klasifikatorius.

Neprižiūrimi mokymosi algoritmai

Pagrindinių komponentų analizė yra matmenų mažinimo metodas, o tai reiškia, kad duomenų matmenys arba sudėtingumas pateikiami paprastesniu būdu. Pagrindinių komponentų analizės algoritmas randa naujus stačiakampių duomenų matmenis. Nors duomenų matmenys mažėja, duomenų skirtumai turėtų būti kuo didesni. Praktiškai tai reiškia, kad ji paima duomenų rinkinio funkcijas ir išskaido jas į mažiau funkcijų, kurios atspindi daugumą duomenų.

„K“ reiškia grupavimą yra algoritmas, kuris automatiškai sugrupuoja duomenų taškus į grupes pagal panašias savybes. Duomenų rinkinio modeliai yra analizuojami ir duomenų taškai suskirstomi į grupes pagal šiuos modelius. Iš esmės K-means sukuria savo klases iš nepažymėtų duomenų. K-Means algoritmas veikia priskirdamas centrus klasteriams arba centroidams ir perkeldamas centroidus tol, kol randama optimali centroidų padėtis. Optimali padėtis bus tokia, kurioje atstumas tarp centroidų iki aplinkinių duomenų taškų klasėje yra minimalus. „K“ K-means klasterizacijoje nurodo, kiek centroidų buvo pasirinkta.

Santrauka

Norėdami baigti, greitai peržvelkime pagrindinius skirtumus prižiūrimas ir neprižiūrimas mokymasis.

Kaip jau aptarėme, prižiūrimose mokymosi užduotyse įvesties duomenys yra pažymėti etiketėmis ir žinomas klasių skaičius. Tuo tarpu įvesties duomenys nepažymėti, o klasių skaičius nėra žinomas neprižiūrimo mokymosi atvejais. Neprižiūrimas mokymasis yra skaičiavimo požiūriu mažiau sudėtingas, o prižiūrimas mokymasis yra skaičiavimo požiūriu sudėtingesnis. Nors prižiūrimo mokymosi rezultatai paprastai būna labai tikslūs, neprižiūrimi mokymosi rezultatai yra mažiau tikslūs / vidutiniškai tikslūs.