关注我们.

AI 101

什么是机器学习?

mm
更新 on

机器学习是发展最快的技术领域之一,但尽管“机器学习”这个词经常被提及,但准确理解机器学习是什么可能很困难。

机器识别 不仅仅指一件事,它是一个总称术语,可以应用于许多不同的概念和技术。 了解机器学习意味着熟悉不同形式的模型分析、变量和算法。 让我们仔细研究一下机器学习,以更好地理解它所包含的内容。

什么是机器学习?

虽然机器学习一词可以应用于许多不同的事物,但总的来说,该术语指的是使计算机能够在不接收明确的逐行指令的情况下执行任务。 机器学习专家不必写出解决问题所需的所有步骤,因为计算机能够通过分析数据中的模式并将这些模式概括为新数据来“学习”。

机器学习系统具有三个基本部分:

  • 输入
  • 算法
  • 输出

输入是输入机器学习系统的数据,输入数据可以分为标签和特征。 特征是相关变量,将通过分析这些变量来学习模式并得出结论。 同时,标签是给数据的各个实例的类/描述。

特征和标签可用于两种不同类型的机器学习问题:监督学习和无监督学习。

无监督学习与监督学习

In 监督学习,输入数据伴随有一个基本事实。 监督学习问题具有作为数据集一​​部分的正确输出值,因此预先知道预期的类别。 这使得数据科学家可以通过在测试数据集上测试数据并查看正确分类的项目百分比来检查算法的性能。

相反, 无监督学习 问题没有附加真实标签。 经过训练来执行无监督学习任务的机器学习算法必须能够自行推断数据中的相关模式。

监督学习算法通常用于分类问题,其中一个大型数据集充满了必须分类到许多不同类别之一的实例。 另一种类型的监督学习是回归任务,其中算法输出的值本质上是连续的而不是分类的。

同时,无监督学习算法用于密度估计、聚类和表示学习等任务。 这三个任务需要机器学习模型来推断数据的结构,没有为模型提供预定义的类。

让我们简要了解一下无监督学习和监督学习中最常用的一些算法。

监督学习的类型

常见的监督学习算法包括:

  • 朴素贝叶斯
  • 支持向量机
  • Logistic回归
  • 随机森林
  • 人工神经网络

支持向量机 是将数据集划分为不同类别的算法。 通过绘制将类别彼此分开的线,将数据点分组为簇。 在线一侧找到的点将属于一个类,而线另一侧的点则属于不同的类。 支持向量机的目标是最大化直线和直线两侧点之间的距离,距离越大,分类器越有信心该点属于一个类而不是另一个类。

Logistic回归 是一种在二元分类任务中使用的算法,当数据点需要分类为属于两个类别之一时。 Logistic 回归的工作原理是将数据点标记为 1 或 0。如果数据点的感知值为 0.49 或更低,则将其分类为 0,而如果数据点的感知值为 0.5 或更高,则将其分类为 1。

决策树算法 通过将数据集分成越来越小的片段来进行操作。 用于划分数据的确切标准取决于机器学习工程师,但目标是最终将数据划分为单个数据点,然后使用密钥对其进行分类。

随机森林算法本质上是将许多单个决策树分类器链接在一起形成更强大的分类器。

我们推荐使用 朴素贝叶斯分类器 根据先前事件发生的概率计算给定数据点发生的概率。它基于贝叶斯定理,并根据计算的概率将数据点分类。在实现朴素贝叶斯分类器时,假设所有预测变量对类结果具有相同的影响。

An 人工神经网络,或多层感知器,是受人脑结构和功能启发的机器学习算法。 人工神经网络之所以得名,是因为它们是由许多连接在一起的节点/神经元组成的。 每个神经元都使用数学函数来操纵数据。 在人工神经网络中,有输入层、隐藏层和输出层。

神经网络的隐藏层是实际解释和分析数据模式的地方。 换句话说,这是算法学习的地方。 更多的神经元连接在一起使得更复杂的网络能够学习更复杂的模式。

无监督学习的类型

无监督学习算法包括:

  • K均值聚类
  • 自动编码器
  • 主成分分析

K均值聚类 是一种无监督分类技术,它的工作原理是根据数据点的特征将其分成簇或组。 K 均值聚类分析数据点中发现的特征并区分其中的模式,这些模式使给定类簇中发现的数据点彼此比包含其他数据点的簇更相似。 这是通过在数据图中放置簇的可能中心或质心并重新分配质心的位置直到找到使质心与属于该质心类别的点之间的距离最小化的位置来实现的。 研究人员可以指定所需的簇数。

主成分分析 是一种将大量特征/变量减少到更小特征空间/更少特征的技术。 选择数据点的“主要成分”进行保存,而其他特征则被压缩为更小的表示形式。 原始数据部分之间的关​​系被保留,但由于数据点的复杂性更简单,数据更容易量化和描述。

自动编码器 是可应用于无监督学习任务的神经网络版本。 自动编码器能够获取未标记的、自由格式的数据,并将其转换为神经网络能够使用的数据,基本上创建自己的标记训练数据。 自动编码器的目标是转换输入数据并尽可能准确地重建它,因此网络会激励确定哪些特征是最重要的并提取它们。

博主和程序员,擅长 机器学习 深度学习 主题。 丹尼尔希望帮助其他人利用人工智能的力量造福社会。