AI 101

Generatívne vs. diskriminačné modely strojového učenia

Aktualizované on Januára 2, 2021

Niektoré modely strojového učenia patria buď do kategórie „generatívnych“ alebo „diskriminačných“ modelov. Čo však je rozdiel medzi tieto dve kategórie modelov? Čo znamená, že model je diskriminačný alebo generatívny?

Krátka odpoveď je, že generatívne modely sú tie, ktoré zahŕňajú distribúciu súboru údajov a vracajú pravdepodobnosť pre daný príklad. Generatívne modely sa často používajú na predpovedanie toho, čo sa stane ďalej v sekvencii. Medzitým sa na klasifikáciu alebo regresiu používajú diskriminačné modely a vracajú predpoveď na základe podmieneného pravdepodobnosť. Pozrime sa podrobnejšie na rozdiely medzi generatívnymi a diskriminačnými modelmi, aby sme skutočne pochopili, čo oddeľuje dva typy modelov a kedy by sa mal každý typ použiť.

Generatívne verzus diskriminačné modely

Existuje množstvo spôsobov, ako kategorizovať model strojového učenia. Model možno klasifikovať ako patriaci do rôznych kategórií, ako sú: generatívne modely, diskriminačné modely, parametrické modely, neparametrické modely, stromové modely, nestromové modely.

Tento článok sa zameria na rozdiely medzi generatívnymi modelmi a diskriminačnými modelmi. Začneme definovaním generatívnych aj diskriminačných modelov a potom preskúmame niekoľko príkladov každého typu modelu.

Generatívne modely

Generatívne modely sú tie, ktoré sa sústreďujú na distribúciu tried v rámci súboru údajov. Algoritmy strojového učenia zvyčajne modelujú distribúciu dátových bodov. Generatívne modely sa spoliehajú na hľadanie spoločnej pravdepodobnosti. Vytváranie bodov, kde daný vstupný prvok a požadovaný výstup/označenie existujú súčasne.

Generatívne modely sa zvyčajne používajú na odhad pravdepodobnosti a pravdepodobnosti, modelovanie údajových bodov a rozlišovanie medzi triedami na základe týchto pravdepodobností. Pretože sa model učí rozdelenie pravdepodobnosti pre množinu údajov, môže na toto rozdelenie pravdepodobnosti odkazovať a generovať nové inštancie údajov. Generatívne modely sa často spoliehajú na Bayesova veta nájsť spoločnú pravdepodobnosť, nájsť p(x,y). V podstate generatívne modely modelujú spôsob generovania údajov a odpovedzte na nasledujúcu otázku:

"Aká je pravdepodobnosť, že táto trieda alebo iná trieda vygenerovala tento dátový bod/inštanciu?"

Príklady modelov generatívneho strojového učenia zahŕňajú lineárnu diskriminačnú analýzu (LDA), skryté Markovove modely a Bayesovské siete ako Naive Bayes.

Diskriminačné modely

Zatiaľ čo generatívne modely sa učia o distribúcii súboru údajov, diskriminačné modely dozvedieť sa o hranici medzi triedami v rámci množiny údajov. Pri diskriminačných modeloch je cieľom identifikovať sa hranica rozhodnutia medzi triedami aplikujte spoľahlivé označenia tried na dátové inštancie. Diskriminačné modely oddeľujú triedy v súbore údajov pomocou podmienenej pravdepodobnosti, pričom nerobia žiadne predpoklady o jednotlivých bodoch údajov.

Diskriminačné modely majú za cieľ odpovedať na nasledujúcu otázku:

"Na ktorej strane hranice rozhodnutia sa nachádza tento prípad?"

Príklady diskriminačných modelov v strojovom učení zahŕňajú podporné vektorové stroje, logistickú regresiu, rozhodovacie stromy a náhodné lesy.

Rozdiely medzi generatívnymi a diskriminačnými

Tu je rýchly prehľad hlavných rozdielov medzi generatívnymi a diskriminačnými modelmi.

Generatívne modely:

Cieľom generatívnych modelov je zachytiť skutočnú distribúciu tried v súbore údajov.
Generatívne modely predpovedajú spoločné rozdelenie pravdepodobnosti – p(x,y) – s využitím Bayesovej vety.
Generatívne modely sú v porovnaní s diskriminačnými modelmi výpočtovo drahé.
Generatívne modely sú užitočné pre úlohy strojového učenia bez dozoru.
Generatívne modely sú ovplyvnené prítomnosťou odľahlých hodnôt viac ako diskriminačné modely.

Diskriminačné modely:

Diskriminačné modely modelujú hranicu rozhodovania pre triedy množín údajov.
Diskriminačné modely sa učia podmienenú pravdepodobnosť – p(y|x).
Diskriminačné modely sú v porovnaní s generatívnymi modelmi výpočtovo lacné.
Diskriminačné modely sú užitočné pri úlohách strojového učenia pod dohľadom.
Diskriminačné modely majú tú výhodu, že sú na rozdiel od generatívnych modelov odolnejšie voči extrémnym hodnotám.
Diskriminačné modely sú odolnejšie voči extrémnym hodnotám v porovnaní s generatívnymi modelmi.

Teraz stručne preskúmame niekoľko rôznych príkladov generatívnych a diskriminačných modelov strojového učenia.

Príklady generatívnych modelov

Lineárna diskriminačná analýza (LDA)

Modely LDA pomocou odhadu rozptylu a priemeru údajov pre každú triedu v súbore údajov. Po vypočítaní priemeru a rozptylov pre každú triedu je možné urobiť predpovede odhadom pravdepodobnosti, že daný súbor vstupov patrí do danej triedy.

Skryté modely Markov

Markovove reťaze možno si predstaviť ako grafy s pravdepodobnosťami, ktoré naznačujú, aká je pravdepodobnosť, že sa presunieme z jedného bodu v reťazci, „stavu“, do iného stavu. Markovove reťazce sa používajú na určenie pravdepodobnosti prechodu zo stavu j do stavu i, ktorý možno označiť ako p(i,j). Toto je len vyššie uvedená spoločná pravdepodobnosť. Skrytý Markovov model je miesto, kde sa používa neviditeľná, nepozorovateľná Markovova reťaz. Dátové vstupy sú dané modelu a pravdepodobnosti pre aktuálny stav a stav bezprostredne predchádzajúci sa používajú na výpočet najpravdepodobnejšieho výsledku.

Bayesovské siete

Bayesovské siete sú typom pravdepodobnostného grafického modelu. Predstavujú podmienené závislosti medzi premennými, ako ich znázorňuje riadený acyklický graf. V Bayesovej sieti predstavuje každý okraj grafu podmienenú závislosť a každý uzol zodpovedá jedinej premennej. Podmienená nezávislosť pre jedinečné vzťahy v grafe sa môže použiť na určenie spoločného rozdelenia premenných a výpočet spoločnej pravdepodobnosti. Inými slovami, Bayesovská sieť zachytáva podmnožinu nezávislých vzťahov v špecifickom spoločnom rozdelení pravdepodobnosti.

Po vytvorení a správnom definovaní Bayesovskej siete so známymi náhodnými premennými, podmienenými vzťahmi a rozdeleniami pravdepodobnosti ju možno použiť na odhad pravdepodobnosti udalostí alebo výsledkov.

Jedným z najčastejšie používaných typov Bayesovských sietí je model Naive Bayes. Naivný Bayesov model rieši problém výpočtu pravdepodobnosti pre súbory údajov s mnohými parametrami/premennými tak, že všetky funkcie považuje za navzájom nezávislé.

Príklady diskriminačných modelov

Podpora vektorové stroje

Podpora vektorových strojov fungujú nakreslením rozhodovacej hranice medzi dátovými bodmi, hľadaním rozhodovacej hranice, ktorá najlepšie oddeľuje rôzne triedy v súbore údajov. Algoritmus SVM kreslí buď čiary alebo nadroviny, ktoré oddeľujú body, pre 2-rozmerné priestory a 3D priestory. SVM sa snaží nájsť čiaru/nadrovinu, ktorá najlepšie oddeľuje triedy, tým, že sa snaží maximalizovať okraj alebo vzdialenosť medzi čiarou/nadrovinou na najbližšie body. Modely SVM možno použiť aj na množiny údajov, ktoré nie sú lineárne oddeliteľné pomocou „triku s jadrom“ na identifikáciu nelineárnych hraníc rozhodovania.

Logistická regresia

Logistická regresia je algoritmus, ktorý používa logitovú (log-odds) funkciu na určenie pravdepodobnosti vstupu v jednom z dvoch stavov. Sigmoidná funkcia sa používa na „stlačenie“ pravdepodobnosti smerom k 0 alebo 1, pravda alebo nepravda. Pravdepodobnosti väčšie ako 0.50 sa považujú za triedu 1, zatiaľ čo pravdepodobnosti 0.49 alebo nižšie sa považujú za 0. Z tohto dôvodu sa v problémoch binárnej klasifikácie zvyčajne používa logistická regresia. Logistická regresia sa však môže aplikovať na problémy viacerých tried použitím prístupu jedna vs. všetky, vytvorením binárneho klasifikačného modelu pre každú triedu a určením pravdepodobnosti, že príkladom je cieľová trieda alebo iná trieda v súbore údajov.

Rozhodovací strom

A rozhodovací strom funkcie modelu rozdelením množiny údajov na menšie a menšie časti, a keď už podmnožiny nemožno ďalej deliť, výsledkom je strom s uzlami a listami. Uzly v rozhodovacom strome sú miesta, kde sa rozhodnutia o údajových bodoch robia pomocou rôznych kritérií filtrovania. Listy v rozhodovacom strome sú dátové body, ktoré boli klasifikované. Algoritmy rozhodovacieho stromu dokážu spracovať numerické aj kategorické údaje a rozdelenia v strome sú založené na špecifických premenných/funkciách.

Náhodné lesy

A náhodný model lesa je v podstate len zbierka rozhodovacích stromov, kde sa predpovede jednotlivých stromov spriemerujú, aby sa dospelo ku konečnému rozhodnutiu. Náhodný lesný algoritmus vyberá pozorovania a vlastnosti náhodne a na základe týchto výberov vytvára jednotlivé stromy.

Tento tutoriálový článok bude skúmať, ako vytvoriť krabicový graf v Matplotlib. Krabicové grafy sa používajú na vizualizáciu súhrnnej štatistiky množiny údajov, pričom zobrazujú atribúty distribúcie, ako je rozsah a distribúcia údajov.