AI 101

Mikä on Bayesin lause?

Päivitetty on Elokuu 23, 2020

Jos olet oppinut datatieteestä tai koneoppimisesta, olet todennäköisesti kuullut siitä termi "Bayes-lause" tai "Bayes-luokittaja". Nämä käsitteet voivat olla hieman hämmentäviä, varsinkin jos et ole tottunut ajattelemaan todennäköisyyksiä perinteisestä, toistuvasta tilastollisesta näkökulmasta. Tässä artikkelissa yritetään selittää Bayes-lauseen taustalla olevat periaatteet ja kuinka sitä käytetään koneoppimisessa.

Mikä on Bayesin lause?

Bayesin lause on menetelmä ehdollisen todennäköisyyden laskeminen. Perinteinen tapa laskea ehdollinen todennäköisyys (todennäköisyys, että yksi tapahtuma tapahtuu, kun eri tapahtuma sattuu) on käyttää ehdollisen todennäköisyyden kaavaa, jossa lasketaan tapahtuman yksi ja kakkonen tapahtuvan samaan aikaan yhteinen todennäköisyys ja jaetaan se sitten tapahtuman kaksi toteutumisen todennäköisyydellä. Ehdollinen todennäköisyys voidaan kuitenkin laskea myös hieman eri tavalla käyttämällä Bayesin lausetta.

Kun lasket ehdollista todennäköisyyttä Bayesin lauseella, käytät seuraavia vaiheita:

Määritä todennäköisyys sille, että ehto B on tosi, olettaen, että ehto A on tosi.
Määritä tapahtuman A todennäköisyys.
Kerro nämä kaksi todennäköisyyttä yhteen.
Jaa tapahtuman B todennäköisyydellä.

Tämä tarkoittaa, että Bayesin lauseen kaava voitaisiin ilmaista seuraavasti:

P(A|B) = P(B|A)*P(A) / P(B)

Ehdollisen todennäköisyyden laskeminen tällä tavalla on erityisen hyödyllistä silloin, kun käänteinen ehdollinen todennäköisyys on helppo laskea tai kun yhteistodennäköisyyden laskeminen olisi liian haastavaa.

Esimerkki Bayesin lauseesta

Tämä saattaa olla helpompi tulkita, jos vietämme jonkin aikaa katsomalla esimerkki kuinka soveltaisit Bayesin päättelyä ja Bayesin lausetta. Oletetaan, että pelasit yksinkertaista peliä, jossa useat osallistujat kertovat sinulle tarinan ja sinun on määritettävä, kumpi osallistujista valehtelee sinulle. Täytetään Bayesin lauseen yhtälö tämän hypoteettisen skenaarion muuttujilla.

Yritämme ennustaa, valehteleeko jokainen pelissä oleva henkilö vai puhuuko totta, joten jos sinun lisäksi on kolme pelaajaa, kategoriset muuttujat voidaan ilmaista muodossa A1, A2 ja A3. Todiste heidän valheistaan/totuudesta on heidän käyttäytymisensä. Kuten pelatessasi pokeria, etsit tiettyjä "kertomuksia" siitä, että henkilö valehtelee, ja käytät niitä tietona arvauksen tekemiseen. Tai jos saisit kyseenalaistaa heitä, se olisi todiste siitä, että heidän tarinansa ei täsmää. Voimme esittää todisteita siitä, että henkilö valehtelee B:nä.

Selvyyden vuoksi pyrimme ennustamaan todennäköisyyden (A valehtelee/puhuu totuuden|antaen todisteita heidän käyttäytymisestään). Tätä varten haluaisimme selvittää B:n todennäköisyyden A:lla tai todennäköisyydellä, että heidän käyttäytymisensä tapahtuisi, jos henkilö aidosti valehtelee tai puhuu totuutta. Yrität määrittää, missä olosuhteissa näkemäsi käytös olisi järkevintä. Jos todistat kolmea käyttäytymistä, sinun tulee tehdä laskelma kullekin käytökselle. Esimerkiksi P(B1, B2, B3 * A). Tämän jälkeen tekisit tämän jokaiselle A:n esiintymiselle / jokaiselle pelin henkilölle itseäsi lukuun ottamatta. Tämä on osa yllä olevaa yhtälöä:

P(B1, B2, B3,|A) * P|A

Lopuksi jaamme sen vain B:n todennäköisyydellä.

Jos saisimme todisteita tämän yhtälön todellisista todennäköisyyksistä, loisimme todennäköisyysmallimme uudelleen ottamalla huomioon uudet todisteet. Tätä kutsutaan ennakkotietojen päivittämiseksi, kun päivität oletuksiasi havaittujen tapahtumien aikaisemmasta todennäköisyydestä.

Koneoppimissovellukset Bayesin lauseelle

Yleisin Bayes-lauseen käyttö koneoppimisessa on Naive Bayes -algoritmin muodossa.

Naive Bayesiä käytetään sekä binääri- että moniluokkaisten tietojoukkojen luokitteluun. Naive Bayes saa nimensä, koska todistajantodistuksille/attribuuteille osoitettujen arvojen – B:t P(B1, B2, B3 * A) – oletetaan olevan riippumattomia. toisistaan. Oletetaan, että nämä attribuutit eivät vaikuta toisiinsa mallin yksinkertaistamiseksi ja laskelmien tekemiseksi sen sijaan, että yritettäisiin laskea kunkin attribuutin välisiä suhteita. Tästä yksinkertaistetusta mallista huolimatta Naive Bayesilla on taipumus toimia melko hyvin luokitusalgoritmina, vaikka tämä oletus ei todennäköisesti pidä paikkaansa (mikä on suurimman osan ajasta).

On myös yleisesti käytetyt muunnelmat Naive Bayes -luokittaja, kuten Multinomial Naive Bayes, Bernoulli Naive Bayes ja Gaussian Naive Bayes.

Monikokoiset naiivit Bayes Asiakirjojen luokittelemiseen käytetään usein algoritmeja, koska ne tulkitsevat tehokkaasti sanojen tiheyttä asiakirjassa.

Bernoulli Naive Bayes toimii samalla tavalla kuin Multinomial Naive Bayes, mutta algoritmin esittämät ennusteet ovat loogisia. Tämä tarkoittaa, että luokkaa ennustettaessa arvot ovat binääriarvoja, ei tai kyllä. Tekstin luokittelun alalla Bernoulli Naive Bayes -algoritmi antaisi parametreille kyllä tai ei sen perusteella, löytyykö sana tekstidokumentista vai ei.

Jos ennustajien/ominaisuuksien arvo ei ole diskreetti vaan jatkuva, Gaussin naiivi Bayes voidaan käyttää. Oletetaan, että jatkuvien piirteiden arvot on otettu Gaussin jakaumasta.

Seuraavaksi

Mitä syvävahvistusoppiminen on?

Älä missaa

Mitä ovat RNN:t ja LSTM:t syväoppimisessa?

Daniel Nelson

Bloggaaja ja ohjelmoija erikoisaloilla Koneen oppiminen ja Deep Learning aiheita. Daniel toivoo voivansa auttaa muita käyttämään tekoälyn voimaa yhteiskunnalliseen hyvään.