AI 101 г

Какво е теорема на Байс?

Обновено on Август 23, 2020

Ако сте учили за наука за данни или машинно обучение, има голям шанс да сте чували термин "теорема на Байс" преди или „класификатор на Байс“. Тези понятия могат да бъдат донякъде объркващи, особено ако не сте свикнали да мислите за вероятността от гледна точка на традиционната, често срещана статистика. Тази статия ще се опита да обясни принципите зад теоремата на Байс и как се използва в машинното обучение.

Какво е теорема на Байс?

Теоремата на Байс е метод на изчисляване на условна вероятност. Традиционният метод за изчисляване на условната вероятност (вероятността да се случи едно събитие при настъпване на друго събитие) е да се използва формулата за условна вероятност, като се изчислява общата вероятност за събитие едно и събитие две, които се случват по едно и също време, и след това се разделя от вероятността за настъпване на събитие две. Условната вероятност обаче може да се изчисли и по малко по-различен начин с помощта на теоремата на Байс.

Когато изчислявате условната вероятност с теоремата на Байс, използвате следните стъпки:

Определете вероятността условие B да е вярно, като приемете, че условие A е вярно.
Определете вероятността събитие А да е вярно.
Умножете двете вероятности заедно.
Разделете на вероятността събитие B да се случи.

Това означава, че формулата за теоремата на Байс може да се изрази по следния начин:

P(A|B) = P(B|A)*P(A) / P(B)

Изчисляването на условната вероятност като това е особено полезно, когато обратната условна вероятност може лесно да се изчисли или когато изчисляването на общата вероятност би било твърде предизвикателно.

Пример за теорема на Байс

Това може да бъде по-лесно за тълкуване, ако прекараме известно време в разглеждане на пример как бихте приложили байесовото разсъждение и теоремата на Бейс. Да приемем, че играете проста игра, в която множество участници ви разказват история и трябва да определите кой от участниците ви лъже. Нека попълним уравнението за теоремата на Байс с променливите в този хипотетичен сценарий.

Опитваме се да предвидим дали всеки индивид в играта лъже или казва истината, така че ако има трима играчи освен вас, категоричните променливи могат да бъдат изразени като A1, A2 и A3. Доказателството за техните лъжи/истина е тяхното поведение. Както когато играете покер, ще търсите определени „сигнали“, че човек лъже и ще ги използвате като части от информация, за да информирате вашето предположение. Или ако ви беше позволено да ги разпитвате, това би било някакво доказателство, че тяхната история не се допълва. Можем да представим доказателството, че човек лъже като Б.

За да бъдем ясни, ние се стремим да предвидим Вероятност (А лъже/казва истината|като се имат предвид доказателствата за тяхното поведение). За да направим това, бихме искали да разберем вероятността B да даде A, или вероятността тяхното поведение да се случи, като се има предвид, че човекът наистина лъже или казва истината. Опитвате се да определите при какви условия поведението, което виждате, би имало най-голям смисъл. Ако има три поведения, на които сте свидетели, бихте направили изчислението за всяко поведение. Например P(B1, B2, B3 * A). След това бихте направили това за всяко появяване на A/за всеки човек в играта, освен вас. Това е тази част от уравнението по-горе:

P(B1, B2, B3,|A) * P|A

И накрая, просто разделяме това на вероятността за B.

Ако получим някакво доказателство за действителните вероятности в това уравнение, бихме пресъздали нашия вероятностен модел, като вземем предвид новите доказателства. Това се нарича актуализиране на вашите предишни данни, тъй като актуализирате своите предположения относно предходната вероятност за възникване на наблюдаваните събития.

Приложения за машинно обучение за теоремата на Байс

Най-честата употреба на теоремата на Bayes, когато става дума за машинно обучение, е под формата на алгоритъма на Naive Bayes.

Naive Bayes се използва за класифициране както на двоични, така и на многокласови набори от данни, Naive Bayes получава името си, защото стойностите, присвоени на доказателствата/атрибутите на свидетелите – Bs в P(B1, B2, B3 * A) – се приемат за независими един на друг. Предполага се, че тези атрибути не си влияят един на друг, за да се опрости моделът и да се направят изчисленията възможни, вместо да се опитва сложната задача за изчисляване на връзките между всеки от атрибутите. Въпреки този опростен модел, Naive Bayes има тенденция да се представя доста добре като алгоритъм за класификация, дори когато това предположение вероятно не е вярно (което е през повечето време).

Също така има често използвани варианти на класификатора на Наивен Бейс като Мултиномиален Наивен Бейс, Наивен Бейс на Бернули и Наивен Байс на Гаус.

Многочленен наивен Бейс алгоритмите често се използват за класифициране на документи, тъй като са ефективни при интерпретирането на честотата на думите в документа.

Наивен Байес на Бернули работи подобно на Multinomial Naive Bayes, но прогнозите, изобразени от алгоритъма, са булеви. Това означава, че при прогнозиране на клас стойностите ще бъдат двоични, не или да. В областта на класификацията на текст алгоритъмът на Bernoulli Naive Bayes би присвоил на параметрите да или не въз основа на това дали в текстовия документ е намерена дума или не.

Ако стойността на предикторите/характеристиките не е дискретна, а вместо това е непрекъсната, Гаус наивен Байес може да се използва. Предполага се, че стойностите на непрекъснатите характеристики са взети от гаусово разпределение.

Свързани теми:Алгоритми теорема на Бейс Machine Learning наивни бейове

Следва

Какво е Deep Reinforcement Learning?

Не пропускайте

Какво представляват RNN и LSTM в Deep Learning?

Даниел Нелсън

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.