AI 入门 101
什么是机器学习?

机器学习是发展最迅速的技术领域之一,但尽管“机器学习”一词被频繁提及,要准确理解机器学习究竟是什么却可能有些困难。 机器学习并非指单一事物,它是一个涵盖性术语,可应用于许多不同的概念和技术。理解机器学习意味着要熟悉不同形式的模型分析、变量和算法。让我们仔细审视机器学习,以更好地理解其涵盖的内容。
什么是机器学习?
虽然机器学习这个术语可以应用于许多不同的事物,但一般而言,它指的是使计算机能够执行任务,而无需接收明确的行级指令。机器学习专家无需写出解决问题的所有必要步骤,因为计算机能够通过分析数据中的模式并把这些模式推广到新数据中来“学习”。 机器学习系统有三个基本部分:
- 输入
- 算法
- 输出
输入是馈送到机器学习系统中的数据,输入数据可以分为标签和特征。特征是相关变量,即将被分析以学习模式和得出结论的变量。同时,标签是赋予数据各个实例的类别/描述。 特征和标签可用于两种不同类型的机器学习问题:监督学习和无监督学习。
无监督学习与监督学习
在监督学习中,输入数据伴随着真实标签。监督学习问题的数据集中包含正确的输出值,因此预期的类别是预先已知的。这使得数据科学家可以通过在测试数据集上测试数据并查看正确分类项目的百分比来检查算法的性能。 相比之下,无监督学习问题没有附加真实标签。训练用于执行无监督学习任务的机器学习算法必须能够自行推断数据中的相关模式。 监督学习算法通常用于分类问题,即拥有一个包含许多实例的大型数据集,这些实例必须被归类到许多不同类别中的一个。另一种类型的监督学习是回归任务,其中算法输出的值是连续性的,而非分类性的。 同时,无监督学习算法用于密度估计、聚类和表示学习等任务。这三种任务需要机器学习模型推断数据的结构,没有预定义的类别提供给模型。 让我们简要看一下监督学习和无监督学习中最常用的一些算法。
监督学习的类型
常见的监督学习算法包括:
- 朴素贝叶斯
- 支持向量机
- 逻辑回归
- 随机森林
- 人工神经网络
支持向量机是将数据集划分为不同类别的算法。通过绘制分隔各类别的线条将数据点分组为簇。线条一侧的点属于一个类别,而线条另一侧的点则属于另一个类别。支持向量机的目标是最大化线条与线条两侧点之间的距离,距离越大,分类器就越确信该点属于一个类别而非另一个类别。 逻辑回归是一种用于二元分类任务的算法,当数据点需要被分类为属于两个类别之一时使用。逻辑回归的工作原理是将数据点标记为1或0。如果数据点的感知值为0.49或以下,则归类为0;如果为0.5或以上,则归类为1。 决策树算法通过将数据集划分为越来越小的片段来运作。划分数据的确切标准由机器学习工程师决定,但目标最终是将数据划分为单个数据点,然后使用一个键进行分类。 随机森林算法本质上是许多单个决策树分类器链接在一起形成的更强大的分类器。 朴素贝叶斯分类器根据先验事件发生的概率来计算给定数据点发生的概率。它基于贝叶斯定理,并根据计算出的概率将数据点放入类别中。在实现朴素贝叶斯分类器时,假设所有预测变量对类别结果具有相同的影响。 人工神经网络,或多层感知器,是受人类大脑结构和功能启发的机器学习算法。人工神经网络得名于它们由许多链接在一起的节点/神经元组成。每个神经元都使用数学函数处理数据。在人工神经网络中,有输入层、隐藏层和输出层。 神经网络的隐藏层是实际解释和分析数据模式的地方。换句话说,这是算法学习的地方。更多的神经元连接在一起形成更复杂的网络,能够学习更复杂的模式。
无监督学习的类型
无监督学习算法包括:
- K均值聚类
- 自编码器
- 主成分分析
K均值聚类是一种无监督分类技术,它通过根据特征将数据点分离成簇或组来工作。K均值聚类分析数据点中的特征,并区分其中的模式,使得给定类簇中的数据点彼此之间的相似度高于它们与其他簇中数据点的相似度。这是通过在数据图中放置可能的簇中心(即质心),并重新分配质心的位置,直到找到一个能最小化质心与该质心所属类别点之间距离的位置来实现的。研究人员可以指定所需的簇数量。 主成分分析是一种将大量特征/变量减少到更小的特征空间/更少特征的技术。数据点的“主成分”被选择保留,而其他特征则被压缩成更小的表示形式。原始数据点之间的关系得以保留,但由于数据点的复杂性更简单,数据更容易量化和描述。 自编码器是可用于无监督学习任务的神经网络版本。自编码器能够获取未标记的自由形式数据,并将其转换为神经网络能够使用的数据,基本上创建自己的标记训练数据。自编码器的目标是转换输入数据并尽可能准确地重建它,因此网络有动力确定哪些特征最重要并将其提取出来。












