存根 监督学习与无监督学习 - Unite.AI
关注我们.

AI 101

监督学习与无监督学习

mm
更新 on

在机器学习中,大多数任务可以轻松地分为两个不同的类别之一:监督学习问题或无监督学习问题。在监督学习中,数据附加有标签或类别,而在无监督学习的情况下,数据是未标记的。让我们仔细看看为什么这种区别很重要,并看看与每种学习类型相关的一些算法。

监督学习与无监督学习

大多数机器学习任务都属于 监督学习。 在监督学习算法中,数据集中的各个实例/数据点都分配有一个类或标签。 这意味着机器学习模型可以学习区分哪些特征与给定类别相关,并且机器学习工程师可以通过查看有多少实例被正确分类来检查模型的性能。 只要数据被标记为正确的类别,分类算法就可以用来辨别许多复杂的模式。 例如,机器学习算法可以根据“胡须”、“尾巴”、“爪子”等特征学习区分不同的动物。

与监督学习相比,无监督学习涉及创建一个能够从未标记数据中提取模式的模型。 换句话说,计算机分析输入特征并自行确定最重要的特征和模式是什么。 无监督学习试图找到不同实例之间固有的相似性。 如果监督学习算法旨在将数据点放入已知的类中,则无监督学习算法将检查对象实例的共同特征,并根据这些特征将它们放入组中,本质上是创建自己的类。

监督学习算法的示例包括线性回归、逻辑回归、K 最近邻、决策树和支持向量机。

同时,无监督学习算法的一些例子包括主成分分析和 K 均值聚类。

监督学习算法

线性回归 是一种采用两个特征并绘制它们之间关系的算法。 线性回归用于预测与其他数值变量相关的数值。 线性回归的方程为 Y = a +bX,其中 b 是直线的斜率,a 是 y 与 X 轴相交的位置。

Logistic回归 是一种二元分类算法。 该算法检查数值特征之间的关系,并找出实例可以分为两个不同类别之一的概率。 概率值被“压缩”到 0 或 1。换句话说,强概率将接近 0.99,而弱概率将接近 0。

K最近邻居 根据训练集中一些选定数量的邻居的分配类别,将类别分配给新数据点。 算法考虑的邻居数量很重要,邻居太少或太多都可能对点进行错误分类。

决策树 是一种分类和回归算法。决策树的运行方式是将数据集分割成越来越小的部分,直到子集无法进一步分割为止,结果是一棵具有节点和叶子的树。节点是使用不同过滤标准做出有关数据点的决策的地方,而叶子是已分配一些标签的实例(已分类的数据点)。决策树算法能够处理数值数据和分类数据。在树中根据特定变量/特征进行分割。

支持向量机 是一种分类算法,通过在数据点之间绘制超平面或分隔线来进行操作。 数据点根据它们位于超平面的哪一侧来分为几类。 可以在一个平面上绘制多个超平面,将数据集分为多个类。 分类器会尝试最大化俯冲超平面与平面两侧点之间的距离,并且线与点之间的距离越大,分类器就越有信心。

无监督学习算法

主成分分析 是一种用于降维的技术,意味着数据的维度或复杂性以更简单的方式表示。 主成分分析算法为正交数据找到新的维度。 在降低数据维度的同时,应尽可能保留数据之间的方差。 实际上,这意味着它获取数据集中的特征并将它们提炼成代表大部分数据的更少特征。

K均值聚类 是一种根据相似特征自动将数据点分组为簇的算法。 分析数据集中的模式,并根据这些模式将数据点分成组。 本质上,K-means 根据未标记的数据创建自己的类。 K-Means 算法的运行方式是:将中心分配给簇或质心,然后移动质心,直到找到质心的最佳位置。 最佳位置是类内质心与周围数据点之间的距离最小的位置。 K-means聚类中的“K”是指选择了多少个质心。

总结

最后,让我们快速回顾一下之间的主要区别 监督学习和非监督学习。

正如我们之前讨论的,在监督学习任务中,输入数据被标记并且类别的数量是已知的。 同时,输入数据未标记,并且在无监督学习情况下类别的数量未知。 无监督学习的计算复杂度往往较低,而监督学习的计算复杂度往往较高。 虽然监督学习结果往往非常准确,但无监督学习结果往往不太准确/中等准确。