AI 入门 101
什么是机器学习?

机器学习是增长最快的技术领域之一,但尽管“机器学习”这个词被频繁提及,它仍然很难被精确理解。 机器学习 不仅仅指一种东西,它是一个可以应用于许多不同概念和技术的总称。了解机器学习意味着要熟悉不同的模型分析、变量和算法形式。让我们仔细看看机器学习,以更好地理解它所涵盖的内容。
什么是机器学习?
虽然“机器学习”这个词可以应用于很多不同的事情,但一般来说,这个词指的是使计算机能够在没有明确的逐行指令的情况下执行任务。机器学习专家不需要写出解决问题所需的所有步骤,因为计算机可以通过分析数据中的模式并将这些模式推广到新数据来“学习”。
机器学习系统有三个基本部分:
- 输入
- 算法
- 输出
输入是输入到机器学习系统中的数据,输入数据可以分为标签和特征。特征是相关变量,将分析这些变量以学习模式和得出结论。同时,标签是给定个别数据实例的类/描述。
特征和标签可以用于两种类型的机器学习问题:监督学习和无监督学习。
无监督学习与监督学习
在 监督学习 中,输入数据伴随着基准事实。监督学习问题具有正确的输出值作为数据集的一部分,因此预期的类别可以提前知道。这使得数据科学家可以通过测试数据集并查看正确分类的项目百分比来检查算法的性能。
相反,无监督学习 问题没有附加基准事实标签。训练用于执行无监督学习任务的机器学习算法必须能够自己推断数据中的相关模式。
监督学习算法通常用于分类问题,其中有一个大型数据集,需要将实例分类到多个类别之一。监督学习的另一种类型是回归任务,其中算法输出的值是连续的,而不是分类的。
同时,无监督学习算法用于密度估计、聚类和表示学习等任务。这些任务需要机器学习模型推断数据的结构,没有预定义的类别给予模型。
让我们简要看看无监督学习和监督学习中使用的一些最常见的算法。
监督学习类型
常见的监督学习算法包括:
- 朴素贝叶斯
- 支持向量机
- 逻辑回归
- 随机森林
- 人工神经网络
支持向量机 是一种将数据集划分为不同类别的算法。数据点通过绘制将类别分开的线来分组。位于一侧的点属于一个类别,而另一侧的点属于另一个类别。支持向量机旨在最大化线与两侧的点之间的距离,距离越大,分类器越相信该点属于一个类别而不是另一个类别。
逻辑回归 是一种用于二元分类任务的算法,当数据点需要被分类为两个类别之一时。逻辑回归通过标记数据点为 1 或 0 来工作。如果数据点的感知值为 0.49 或以下,则被分类为 0,如果为 0.5 或以上,则被分类为 1。
决策树算法 通过将数据集划分为越来越小的片段来工作。用于划分数据的确切标准由机器学习工程师决定,但目标是最终将数据划分为单个数据点,然后使用关键字对其进行分类。
随机森林算法本质上是将多个单独的决策树分类器链接在一起,形成一个更强大的分类器。
朴素贝叶斯分类器根据先前事件发生的概率计算给定数据点发生的概率。它基于贝叶斯定理,并根据计算出的概率将数据点放入类别中。在实现朴素贝叶斯分类器时,假设所有预测变量对类别结果具有相同的影响。
人工神经网络 或多层感知器是一种受人类大脑结构和功能启发的机器学习算法。人工神经网络之所以得名,是因为它们由许多相互连接的节点/神经元组成。每个神经元都使用数学函数操纵数据。在人工神经网络中,有输入层、隐藏层和输出层。
神经网络的隐藏层是数据实际被解释和分析以寻找模式的地方。换句话说,这是算法学习的地方。连接的神经元越多,网络就越复杂,能够学习越复杂的模式。
无监督学习类型
无监督学习算法包括:
- K-means 聚类
- 自编码器
- 主成分分析
K-means 聚类是一种无监督的分类技术,它通过将数据点分为基于其特征的聚类或组来工作。K-means 聚类分析数据点中的特征,并在数据点中发现模式,使得属于给定类别的数据点比属于其他类别的数据点更相似。这是通过在数据图中放置聚类的可能中心或质心,并重新分配质心的位置,直到找到一个位置,该位置最小化质心和属于该质心类别的点之间的距离。研究人员可以指定所需的聚类数。
主成分分析 是一种将大量特征/变量减少到较小的特征空间/较少特征的技术。数据点的“主成分”被选中保留,而其他特征被压缩到较小的表示中。数据点之间的关系得到保留,但由于数据点的复杂性较低,因此数据更容易量化和描述。
自编码器是可以应用于无监督学习任务的神经网络版本。自编码器能够接受无标签、自由形式的数据并将其转换为神经网络可以使用的数据,基本上创建了自己的标记训练数据。自编码器的目标是将输入数据转换并尽可能准确地重建,因此网络的目标是确定哪些特征最重要并提取它们。












