AI 入门 101

什么是机器学习?

mm

机器学习是增长最快的技术领域之一,但尽管“机器学习”这个词被频繁提及,它仍然很难被精确理解。
机器学习 不仅指一种东西,它是一个可以应用于许多不同概念和技术的总称。了解机器学习意味着要熟悉不同的模型分析、变量和算法形式。让我们仔细看看机器学习,以更好地理解它所涵盖的内容。

什么是机器学习?

虽然“机器学习”这个词可以应用于很多不同的事情,但一般来说,这个词指的是使计算机能够在没有明确的逐行指令的情况下执行任务。机器学习专家不需要写出解决问题所需的所有步骤,因为计算机可以通过分析数据中的模式并将这些模式推广到新数据来“学习”。
机器学习系统有三个基本部分:

  • 输入
  • 算法
  • 输出

输入是输入到机器学习系统中的数据,输入数据可以分为标签和特征。特征是相关变量,将被分析以学习模式和得出结论。同时,标签是给定个别数据实例的类/描述。
特征和标签可以用于两种类型的机器学习问题:监督学习和无监督学习。

无监督学习与监督学习

监督学习 中,输入数据伴随着基准事实。监督学习问题具有正确的输出值作为数据集的一部分,因此可以预先知道预期的类。这样,数据科学家就可以通过在测试数据集上测试数据并查看正确分类的项目百分比来检查算法的性能。
相反,无监督学习 问题没有附加基准事实标签。训练用于执行无监督学习任务的机器学习算法必须能够自行推断数据中的相关模式。
监督学习算法通常用于分类问题,其中有一个大型数据集,需要将实例分为多个类别。监督学习的另一种类型是回归任务,其中算法输出的值是连续的,而不是分类的。
同时,无监督学习算法用于密度估计、聚类和表示学习等任务。这些任务需要机器学习模型推断数据的结构,没有预定义的类别给予模型。
让我们简要看看无监督学习和监督学习中最常用的算法。

监督学习类型

常见的监督学习算法包括:

  • 朴素贝叶斯
  • 支持向量机
  • 逻辑回归
  • 随机森林
  • 人工神经网络

支持向量机 是一种算法,它将数据集划分为不同的类别。数据点根据它们被分为一类或另一类而被分组在一起。支持向量机的目标是最大化线与两侧数据点之间的距离,距离越大,分类器越自信地将点归为某一类而不是另一类。
逻辑回归 是一种用于二元分类任务的算法,当数据点需要被归为两类之一时使用。逻辑回归通过标记数据点为 1 或 0 来工作。如果数据点的感知值为 0.49 或以下,则被归为 0,如果为 0.5 或以上,则被归为 1。
决策树算法 通过将数据集划分为越来越小的片段来工作。用于划分数据的确切标准由机器学习工程师决定,但最终目标是将数据划分为单个数据点,然后使用关键字对其进行分类。
随机森林算法本质上是多个单独的决策树分类器链接在一起形成更强大的分类器。
朴素贝叶斯分类器根据先验事件发生的概率计算给定数据点发生的概率。它基于贝叶斯定理,并根据计算出的概率将数据点放入类别中。在实现朴素贝叶斯分类器时,假设所有预测变量对类别结果具有相同的影响。
人工神经网络 或多层感知器,是一种受人类大脑结构和功能启发的机器学习算法。人工神经网络之所以得名,是因为它们由许多相互连接的节点/神经元组成。每个神经元都使用数学函数操纵数据。在人工神经网络中,有输入层、隐藏层和输出层。
神经网络的隐藏层是数据实际被解释和分析以寻找模式的地方。换句话说,这是算法学习的地方。连接更多的神经元可以创建更复杂的网络,能够学习更复杂的模式。

无监督学习类型

无监督学习算法包括:

  • K-means 聚类
  • 自编码器
  • 主成分分析

K-means 聚类是一种无监督的分类技术,它通过将数据点分为基于其特征的簇或组来工作。K-means 聚类分析数据点中的特征,并在它们中发现模式,使得属于给定类别簇的数据点比属于其他数据点的簇更相似。这是通过在数据图中放置可能的簇中心或质心,并重新分配质心的位置,直到找到一个位置,该位置可以最小化质心和属于该质心类别的点之间的距离。研究人员可以指定所需的簇数。
主成分分析 是一种将大量特征/变量减少到较小的特征空间/较少特征的技术。数据点的“主成分”被选定以保留,而其他特征被压缩到较小的表示中。原始数据点之间的关系得到保留,但由于数据点的复杂性更简单,因此数据更容易量化和描述。
自编码器是可以应用于无监督学习任务的神经网络版本。自编码器能够接受无标签的自由形式数据并将其转换为神经网络可以使用的数据,基本上创建了它们自己的标记训练数据。自编码器的目标是将输入数据转换并尽可能准确地重建,因此网络的动力是确定哪些特征最重要并提取它们。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。