AI 101

Čo je Bayesova veta?

Aktualizované on Augusta 23, 2020

Ak ste sa učili o dátovej vede alebo strojovom učení, je veľká šanca, že ste to už počuli termín „Bayesova veta“ predtým alebo „Bayesov klasifikátor“. Tieto pojmy môžu byť trochu mätúce, najmä ak nie ste zvyknutí uvažovať o pravdepodobnosti z pohľadu tradičnej, frekventovanej štatistiky. Tento článok sa pokúsi vysvetliť princípy Bayesovej vety a ako sa používa v strojovom učení.

Čo je Bayesova veta?

Bayesova veta je metóda výpočet podmienenej pravdepodobnosti. Tradičnou metódou výpočtu podmienenej pravdepodobnosti (pravdepodobnosti, že nastane jedna udalosť pri výskyte inej udalosti) je použitie vzorca podmienenej pravdepodobnosti, vypočítanie spoločnej pravdepodobnosti udalosti jedna a udalosti dva, ktoré sa vyskytnú v rovnakom čase, a potom jej rozdelenie. pravdepodobnosťou udalosti dva. Podmienená pravdepodobnosť sa však dá vypočítať aj trochu iným spôsobom pomocou Bayesovej vety.

Pri výpočte podmienenej pravdepodobnosti pomocou Bayesovej vety použite nasledujúce kroky:

Určte pravdepodobnosť, že podmienka B bude pravdivá, za predpokladu, že podmienka A je pravdivá.
Určte pravdepodobnosť, že udalosť A bude pravdivá.
Vynásobte dve pravdepodobnosti spolu.
Vydeľte pravdepodobnosťou udalosti B.

To znamená, že vzorec pre Bayesovu vetu by sa dal vyjadriť takto:

P(A|B) = P(B|A)*P(A) / P(B)

Výpočet podmienenej pravdepodobnosti, ako je tento, je obzvlášť užitočný, keď sa dá ľahko vypočítať reverzná podmienená pravdepodobnosť, alebo keď by bol výpočet spoločnej pravdepodobnosti príliš náročný.

Príklad Bayesovej vety

To môže byť jednoduchšie interpretovať, ak strávime nejaký čas pozeraním sa na příklad ako by ste použili Bayesovu úvahu a Bayesovu vetu. Predpokladajme, že ste hrali jednoduchú hru, v ktorej vám viacero účastníkov rozpráva príbeh a vy musíte určiť, ktorý z nich vám klame. Doplňme rovnicu pre Bayesovu vetu premennými v tomto hypotetickom scenári.

Snažíme sa predpovedať, či každý jednotlivec v hre klame alebo hovorí pravdu, takže ak sú okrem vás traja hráči, kategorické premenné možno vyjadriť ako A1, A2 a A3. Dôkazom ich klamstiev/pravdy je ich správanie. Podobne ako pri hraní pokru by ste hľadali určité „hovory“, že niekto klame, a použili by ste ich ako informácie na informovanie svojho odhadu. Alebo ak by ste ich mohli spochybniť, bol by to dôkaz, že ich príbeh nezodpovedá skutočnosti. Dôkaz, že osoba klame, môžeme reprezentovať ako B.

Aby bolo jasné, naším cieľom je predpovedať pravdepodobnosť (A klame/hovorí pravdu|vzhľadom na dôkazy o ich správaní). Aby sme to urobili, chceli by sme zistiť pravdepodobnosť B daného A alebo pravdepodobnosť, že k ich správaniu dôjde, ak osoba skutočne klame alebo hovorí pravdu. Pokúšate sa určiť, za akých podmienok by správanie, ktoré vidíte, dávalo najväčší zmysel. Ak ste svedkami troch správaní, vypočítali by ste každé správanie. Napríklad P(B1, B2, B3 * A). Potom by ste to urobili pre každý výskyt A/pre každú osobu v hre okrem vás. Toto je časť vyššie uvedenej rovnice:

P(B1, B2, B3,|A) * P|A

Nakoniec to len vydelíme pravdepodobnosťou B.

Ak by sme dostali nejaký dôkaz o skutočných pravdepodobnostiach v tejto rovnici, znova by sme vytvorili náš pravdepodobnostný model, berúc do úvahy nové dôkazy. Toto sa nazýva aktualizácia vašich predchádzajúcich, keď aktualizujete svoje predpoklady o predchádzajúcej pravdepodobnosti výskytu pozorovaných udalostí.

Aplikácie strojového učenia pre Bayesovu vetu

Najbežnejšie použitie Bayesovho teorému, pokiaľ ide o strojové učenie, je vo forme Naive Bayesovho algoritmu.

Naive Bayes sa používa na klasifikáciu binárnych aj viactriednych súborov údajov, názov Naive Bayes dostal preto, že hodnoty priradené dôkazom/atribútom svedkov – Bs v P(B1, B2, B3 * A) – sa považujú za nezávislé. jeden od druhého. Predpokladá sa, že tieto atribúty sa navzájom neovplyvňujú, aby sa zjednodušil model a umožnili výpočty, namiesto toho, aby sme sa pokúšali o komplexnú úlohu výpočtu vzťahov medzi každým z atribútov. Napriek tomuto zjednodušenému modelu má Naive Bayes tendenciu fungovať celkom dobre ako klasifikačný algoritmus, aj keď tento predpoklad pravdepodobne nie je pravdivý (čo je väčšinou).

K dispozícii sú tiež bežne používané varianty klasifikátora Naive Bayes, ako sú Multinomial Naive Bayes, Bernoulli Naive Bayes a Gaussian Naive Bayes.

Multinomický naivný Bayes Algoritmy sa často používajú na klasifikáciu dokumentov, pretože sú účinné pri interpretácii frekvencie slov v dokumente.

Bernoulli Naivný Bayes funguje podobne ako Multinomial Naive Bayes, ale predpovede poskytované algoritmom sú boolovské. To znamená, že pri predpovedaní triedy budú hodnoty binárne, nie alebo áno. V oblasti klasifikácie textu by algoritmus Bernoulli Naive Bayes priradil parametre áno alebo nie na základe toho, či sa v textovom dokumente nachádza slovo alebo nie.

Ak hodnota prediktorov/funkcií nie je diskrétna, ale je spojitá, Gaussovský naivný Bayes môže byť použité. Predpokladá sa, že hodnoty spojitých prvkov boli vybraté z gaussovskej distribúcie.