AI 101

什么是贝叶斯定理？

更新 on 2020 年 8 月 23 日

如果您一直在学习数据科学或机器学习，那么您很可能听说过术语“贝叶斯定理” 之前，或“贝叶斯分类器”。这些概念可能有些令人困惑，特别是如果您不习惯从传统的频率统计角度思考概率。本文将尝试解释贝叶斯定理背后的原理以及它如何在机器学习中使用。

什么是贝叶斯定理？

贝叶斯定理是一种方法计算条件概率。计算条件概率（在发生不同事件时，一个事件发生的概率）的传统方法是使用条件概率公式，计算事件一和事件二同时发生的联合概率，然后将其除以事件二发生的概率。然而，条件概率也可以使用贝叶斯定理以稍微不同的方式计算。

使用贝叶斯定理计算条件概率时，可使用以下步骤：

假设条件 A 为真，确定条件 B 为真的概率。
确定事件 A 为真的概率。
将两个概率相乘。
除以事件 B 发生的概率。

这意味着贝叶斯定理的公式可以表示如下：

P(A|B) = P(B|A)*P(A) / P(B)

当反向条件概率可以很容易计算时，或者当计算联合概率太具有挑战性时，像这样计算条件概率特别有用。

贝叶斯定理示例

如果我们花一些时间看一下，这可能会更容易解释例子如何应用贝叶斯推理和贝叶斯定理。假设您正在玩一个简单的游戏，其中多个参与者向您讲述一个故事，您必须确定哪一个参与者在对您撒谎。让我们用这个假设场景中的变量填充贝叶斯定理的方程。

我们试图预测游戏中的每个人是在说谎还是说真话，因此如果除了您之外还有三个玩家，则分类变量可以表示为 A1、A2 和 A3。他们的谎言/真相的证据就是他们的行为。就像玩扑克时一样，您会寻找某人在撒谎的某些“迹象”，并将这些信息用作您的猜测。或者，如果你被允许向他们提问，那么这将证明他们的故事不成立。我们可以将一个人撒谎的证据表示为B。

需要明确的是，我们的目标是预测概率（A 正在撒谎/说真话|给出他们行为的证据）。为此，我们需要计算给定 A 的情况下 B 的概率，或者考虑到该人真正说谎或说真话，他们的行为发生的概率。您正在尝试确定在什么条件下您所看到的行为最有意义。如果您目睹了三种行为，您将为每种行为进行计算。例如，P(B1, B2, B3 * A)。然后，您可以对游戏中除您自己之外的每个出现 A/ 的人执行此操作。这就是上面等式的这一部分：

P(B1, B2, B3,|A) * P|A

最后，我们将其除以 B 的概率。

如果我们收到有关该方程中实际概率的任何证据，我们将重新创建我们的概率模型，同时考虑新的证据。这称为更新先验，因为您更新了关于观察到的事件发生的先验概率的假设。

贝叶斯定理的机器学习应用

在机器学习方面，贝叶斯定理最常见的用法是朴素贝叶斯算法。

朴素贝叶斯用于二元和多类数据集的分类，朴素贝叶斯之所以得名，是因为分配给证人证据/属性的值 – P(B1, B2, B3 * A) 中的 B – 被假定为独立的彼此的。假设这些属性不会相互影响，以便简化模型并使计算成为可能，而不是尝试计算每个属性之间关系的复杂任务。尽管有这个简化的模型，朴素贝叶斯作为分类算法往往表现得相当好，即使这个假设可能不正确（大多数情况下）。

也有常用变体朴素贝叶斯分类器，例如多项式朴素贝叶斯、伯努利朴素贝叶斯和高斯朴素贝叶斯。

多项式朴素贝叶斯算法通常用于对文档进行分类，因为它可以有效地解释文档中单词的频率。

伯努利朴素贝叶斯操作与多项式朴素贝叶斯类似，但算法呈现的预测是布尔值。这意味着在预测类别时，值将是二元的，即“否”或“是”。在文本分类领域，伯努利朴素贝叶斯算法将根据是否在文本文档中找到单词来为参数分配“是”或“否”。

如果预测变量/特征的值不是离散的而是连续的，高斯朴素贝叶斯可以使用。假设连续特征的值是从高斯分布中采样的。