AI 101

Что такое Теорема Байеса?

обновленный on 23 августа 2020

Если вы изучали науку о данных или машинное обучение, велика вероятность, что вы слышали термин «Теорема Байеса» раньше или «классификатор Байеса». Эти концепции могут несколько сбивать с толку, особенно если вы не привыкли думать о вероятности с традиционной точки зрения частотной статистики. В этой статье мы попытаемся объяснить принципы, лежащие в основе теоремы Байеса, и то, как она используется в машинном обучении.

Что такое Теорема Байеса?

Теорема Байеса – это метод расчет условной вероятности. Традиционный метод расчета условной вероятности (вероятность того, что одно событие произойдет при возникновении другого события) заключается в использовании формулы условной вероятности, вычислении совместной вероятности события XNUMX и события XNUMX, происходящих одновременно, а затем ее делении. вероятностью наступления события два. Однако условную вероятность также можно рассчитать немного другим способом, используя теорему Байеса.

При вычислении условной вероятности с помощью теоремы Байеса вы используете следующие шаги:

Определить вероятность того, что условие B будет истинным, если предположить, что условие A истинно.
Определить вероятность того, что событие А будет истинным.
Перемножьте две вероятности вместе.
Разделить на вероятность наступления события В.

Это означает, что формулу теоремы Байеса можно записать так:

Р(А|В) = Р(В|А)*Р(А) / Р(В)

Вычисление условной вероятности таким образом особенно полезно, когда можно легко вычислить обратную условную вероятность или когда вычисление совместной вероятности было бы слишком сложным.

Пример теоремы Байеса

Это может быть легче интерпретировать, если мы потратим некоторое время на изучение пример того, как вы будете применять байесовские рассуждения и теорему Байеса. Предположим, вы играете в простую игру, в которой несколько участников рассказывают вам историю, и вы должны определить, кто из участников вам лжет. Давайте заполним уравнение для теоремы Байеса переменными в этом гипотетическом сценарии.

Мы пытаемся предсказать, лжет ли каждый игрок в игре или говорит правду, поэтому, если помимо вас есть три игрока, категориальные переменные могут быть выражены как A1, A2 и A3. Доказательством их лжи/правды является их поведение. Как и при игре в покер, вы будете искать определенные «подсказки» о том, что человек лжет, и использовать их как биты информации, чтобы обосновать свое предположение. Или, если бы вам разрешили их допросить, это было бы доказательством того, что их история не сходится. Доказательства того, что человек лжет, мы можем представить как Б.

Чтобы было ясно, мы стремимся предсказать вероятность (А лжет / говорит правду | учитывая доказательства их поведения). Чтобы сделать это, мы хотели бы вычислить вероятность B при наличии A или вероятность того, что их поведение будет иметь место при условии, что человек искренне солгал или сказал правду. Вы пытаетесь определить, при каких условиях поведение, которое вы наблюдаете, будет иметь наибольший смысл. Если есть три типа поведения, за которыми вы наблюдаете, вы должны выполнить расчет для каждого из них. Например, P(B1, B2, B3 * A). Затем вы должны сделать это для каждого случая A/ для каждого человека в игре, кроме себя. Это часть уравнения выше:

Р(В1, В2, В3,|А) * Р|А

Наконец, мы просто делим это на вероятность B.

Если бы мы получили какие-либо данные о фактических вероятностях в этом уравнении, мы бы воссоздали нашу вероятностную модель, принимая во внимание новые данные. Это называется обновлением ваших априорных данных, поскольку вы обновляете свои предположения о априорной вероятности наблюдаемых событий.

Приложения машинного обучения для теоремы Байеса

Наиболее распространенное использование теоремы Байеса, когда речь идет о машинном обучении, — это алгоритм наивного Байеса.

Наивный байесовский метод используется для классификации как бинарных, так и многоклассовых наборов данных. Наивный байесовский метод получил свое название, потому что значения, присвоенные свидетельствам/атрибутам свидетелей — Bs в P(B1, B2, B3 * A) — считаются независимыми друг друга. Предполагается, что эти атрибуты не влияют друг на друга, чтобы упростить модель и сделать возможными вычисления, вместо того, чтобы пытаться выполнить сложную задачу вычисления взаимосвязей между каждым из атрибутов. Несмотря на эту упрощенную модель, наивный байесовский алгоритм довольно хорошо работает в качестве алгоритма классификации, даже если это предположение, вероятно, неверно (что бывает в большинстве случаев).

Есть также часто используемые варианты наивного байесовского классификатора, такого как полиномиальный наивный байесовский, бернуллиевский наивный байесовский и гауссовский наивный байесовский.

Полиномиальный Наивный Байес алгоритмы часто используются для классификации документов, поскольку они эффективны при интерпретации частоты слов в документе.

Бернулли Наивный Байес работает аналогично полиномиальному наивному байесовскому алгоритму, но прогнозы, выдаваемые алгоритмом, являются булевыми. Это означает, что при прогнозировании класса значения будут бинарными, нет или да. В области классификации текста наивный байесовский алгоритм Бернулли присваивал бы параметрам значение «да» или «нет» в зависимости от того, найдено ли слово в текстовом документе.

Если значение предикторов/функций не дискретно, а непрерывно, Гауссовский наивный байесовский может быть использован. Предполагается, что значения непрерывных признаков были выбраны из распределения Гаусса.

Что такое глубокое обучение с подкреплением?

Не пропустите

Что такое RNN и LSTM в глубоком обучении?

Дэниэл Нельсон

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.