AI 入门 101

监督学习 vs 无监督学习

mm

在机器学习中,大多数任务可以容易地分为两类:监督学习问题或无监督学习问题。在监督学习中,数据具有标签或类别,而在无监督学习中,数据是无标签的。让我们仔细看看为什么这种区别很重要,并看看每种学习类型相关的算法。

监督学习 vs 无监督学习

大多数机器学习任务属于监督学习领域。监督学习算法中,数据集中的个别实例/数据点具有分配的类或标签。这意味着机器学习模型可以学习区分哪些特征与给定类相关,并且机器学习工程师可以通过查看模型正确分类的实例数量来检查模型的性能。分类算法可以用于区分许多复杂的模式,只要数据具有正确的类标签。例如,机器学习算法可以学习根据特征如“胡须”、“尾巴”、“爪子”等来区分不同的动物。

相比监督学习,无监督学习涉及创建一个可以从无标签数据中提取模式的模型。换句话说,计算机分析输入特征并自行确定最重要的特征和模式。无监督学习试图找到不同实例之间的内在相似性。如果监督学习算法旨在将数据点放入已知类中,无监督学习算法将检查对象实例的特征并根据这些特征将它们分为组,基本上创建自己的类。

监督学习算法的例子包括线性回归、逻辑回归、K最近邻、决策树和支持向量机。

同时,无监督学习算法的例子包括主成分分析和K均值聚类。

监督学习算法

线性回归是一种算法,它取两个特征并绘制出它们之间的关系。线性回归用于预测与其他数字变量相关的数字值。线性回归的方程为Y = a + bX,其中b是线的斜率,a是y轴截距。

逻辑回归是一种二元分类算法。该算法检查数字特征与将实例分类为两类之间的关系,并找到实例属于其中一类的概率。概率值被“挤压”到0或1之间。换句话说,强概率会接近0.99,而弱概率会接近0。

K最近邻根据训练集中某些邻居的分配类为新数据点分配类。算法考虑的邻居数量很重要,太少或太多的邻居会误分类点。

决策树是一种分类和回归算法。决策树通过将数据集划分为越来越小的部分,直到子集不能再划分为止,结果是一个具有节点和叶子的树。节点是根据不同的过滤标准对数据点做出决策的地方,而叶子是被分配某个标签(即被分类)的数据点。决策树算法可以处理数字和分类数据。树中的分裂是基于特定变量/特征进行的。

支持向量机是一种分类算法,它通过在数据点之间绘制超平面(或分离线)来工作。数据点根据它们位于超平面的哪一侧而被分为类。可以在平面上绘制多个超平面,将数据集划分为多个类。分类器将尝试最大化超平面与两侧点之间的距离,距离越大,分类器越自信。

无监督学习算法

主成分分析是一种用于降维的技术,即数据的复杂性以更简单的形式表示。主成分分析算法找到数据的新的维度,这些维度是正交的。虽然数据的维度被降低,但数据之间的方差应该尽可能地保留。这在实践中意味着它取数据集中的特征并将它们提炼为代表大部分数据的较少特征。

K均值聚类是一种算法,它根据相似的特征自动将数据点分为簇。数据集中的模式被分析,并根据这些模式将数据点分为组。基本上,K均值创建了自己的类别。K均值算法通过为簇分配中心(或质心)并移动质心直到找到质心的最佳位置来工作。最佳位置将是质心到周围数据点的距离最小化的位置。K均值聚类中的“K”指的是选择的质心数量。

总结

最后,让我们快速回顾一下监督学习和无监督学习之间的关键差异。监督学习和无监督学习

如前所述,监督学习任务中输入数据是标记的,类的数量是已知的。相比之下,无监督学习中输入数据是无标记的,类的数量是未知的。无监督学习往往计算复杂度较低,而监督学习往往计算复杂度较高。虽然监督学习结果往往非常准确,但无监督学习结果往往准确度较低/中等准确度。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。