AI 101

生成式机器学习模型与判别式机器学习模型

更新 on 2021 年 1 月 2 日

一些机器学习模型属于“生成”或“判别”模型类别。然而什么是之间的差异这两类型号？模型具有判别性或生成性意味着什么？

简短的答案是，生成模型是包括数据集的分布，为给定示例返回概率。生成模型通常用于预测序列中接下来发生的事情。同时，判别模型用于分类或回归，它们返回预测基于条件可能性。让我们更详细地探讨生成模型和判别模型之间的差异，以便我们能够真正理解这两种模型的区别以及每种类型应该何时使用。

生成模型与判别模型

有多种方法可以对机器学习模型进行分类。模型可以分为不同的类别，例如：生成模型、判别模型、参数模型、非参数模型、基于树的模型、非基于树的模型。

本文将重点讨论生成模型和判别模型之间的差异。我们将从定义生成模型和判别模型开始，然后我们将探讨每种模型类型的一些示例。

生成模型

生成模型是那些以数据集中的类分布为中心的数据。机器学习算法通常对数据点的分布进行建模。生成模型依赖于寻找联合概率。创建给定输入特征和所需输出/标签同时存在的点。

生成模型通常用于估计概率和可能性、对数据点进行建模并根据这些概率区分类别。由于模型学习数据集的概率分布，因此它可以参考该概率分布来生成新的数据实例。生成模型通常依赖于贝叶斯定理求联合概率，求 p(x,y)。本质上，生成模型模拟数据的生成方式，回答以下问题：

“这个类或另一个类生成这个数据点/实例的可能性有多大？”

生成机器学习模型的示例包括线性判别分析 (LDA)、隐马尔可夫模型和朴素贝叶斯等贝叶斯网络。

判别模型

当生成模型了解数据集的分布时，判别模型了解数据集中的类之间的边界。使用判别模型，目标是确定决策边界在类之间，将可靠的类标签应用于数据实例。判别模型通过使用条件概率分开数据集中的类，而不是对单个数据点做任何假设。

判别模型旨在回答以下问题：

“这个实例位于决策边界的哪一侧？”

机器学习中判别模型的示例包括支持向量机、逻辑回归、决策树和随机森林。

生成性和判别性之间的差异

以下是生成模型和判别模型之间主要差异的快速概述。

生成模型：

生成模型旨在捕获数据集中类的实际分布。
生成模型利用贝叶斯定理预测联合概率分布 - p(x,y)。
与判别模型相比，生成模型的计算成本较高。
生成模型对于无监督机器学习任务非常有用。
生成模型比判别模型更容易受到异常值的影响。

判别模型：

判别模型对数据集类的决策边界进行建模。
判别模型学习条件概率 - p(y|x)。
与生成模型相比，判别模型的计算成本较低。
判别模型对于监督机器学习任务很有用。
与生成模型不同，判别模型的优点是对异常值更加稳健。
与生成模型相比，判别模型对离群值更为强大。

现在，我们将简要探讨生成式和判别式机器学习模型的一些不同示例。

生成模型的例子

线性判别分析（LDA）

LDA模型通过估计数据集中每个类的数据的方差和平均值来计算函数。计算出每个类别的均值和方差后，可以通过估计给定输入集属于给定类别的概率来进行预测。

隐马尔可夫模型

马尔可夫链可以被认为是带有概率的图，这些概率表明我们从链中的一个点（一个“状态”）移动到另一个状态的可能性有多大。马尔可夫链用于确定从状态 j 移动到状态 i 的概率，可以表示为 p(i,j)。这就是上面提到的联合概率。隐马尔可夫模型是使用不可见、不可观察的马尔可夫链的地方。数据输入被提供给模型，当前状态和紧邻其之前的状态的概率用于计算最可能的结果。

贝叶斯网络

贝叶斯网络是一种概率图形模型。它们表示变量之间的条件依赖关系，如有向无环图所示。在贝叶斯网络中，图的每条边代表一个条件依赖，每个节点对应一个唯一的变量。图中唯一关系的条件独立性可用于确定变量的联合分布并计算联合概率。换句话说，贝叶斯网络捕获特定联合概率分布中独立关系的子集。

一旦创建并正确定义了贝叶斯网络，并已知随机变量、条件关系和概率分布，就可以使用它来估计事件或结果的概率。

最常用的贝叶斯网络类型之一是朴素贝叶斯模型。朴素贝叶斯模型通过将所有特征视为彼此独立来应对计算具有许多参数/变量的数据集概率的挑战。

判别模型的例子

支持向量机

支持向量机通过在数据点之间绘制决策边界来进行操作，找到最能区分数据集中不同类的决策边界。 SVM 算法分别为 2 维空间和 3D 空间绘制分隔点的直线或超平面。 SVM 通过尝试最大化边距（即线/超平面到最近点之间的距离）来努力找到最能区分类别的线/超平面。 SVM 模型还可以通过使用“核技巧”来识别非线性决策边界，从而用于不可线性分离的数据集。

Logistic回归

逻辑回归是一种使用 logit (log-odds) 函数来确定输入处于两种状态之一的概率的算法。 sigmoid 函数用于将概率“压缩”到 0 或 1、真或假。大于 0.50 的概率被假定为 1 类，而 0.49 或更低的概率被假定为 0。因此，逻辑回归通常用于二元分类问题。然而，逻辑回归可以通过使用一对一的方法应用于多类问题，为每个类创建二元分类模型并确定示例是目标类或数据集中的另一个类的概率。

决策树

A 决策树通过将数据集分割成越来越小的部分来实现模型功能，一旦子集无法进一步分割，结果就是具有节点和叶子的树。决策树中的节点是使用不同过滤标准做出有关数据点的决策的地方。决策树中的叶子是已分类的数据点。决策树算法可以处理数值数据和分类数据，并且树中的分割基于特定的变量/特征。

随机森林

A 随机森林模型基本上只是决策树的集合，其中对各个树的预测进行平均以得出最终决策。随机森林算法随机选择观测值和特征，并根据这些选择构建个体树。

本教程文章将探讨如何在 Matplotlib 中创建箱线图。箱线图用于可视化数据集的汇总统计数据，显示分布属性，例如数据的范围和分布。