Connect with us

AI 入门 101

什么是集成学习?

mm

集成学习是机器学习中最强大的技术之一。 集成学习 是使用多个机器学习模型来提高预测的可靠性和准确性。然而,使用多个机器学习模型如何导致更准确的预测?创建集成学习模型使用什么样的技术?我们将探索这些问题的答案,研究使用集成模型的理由和创建集成模型的主要方法。

什么是集成学习?

简单来说,集成学习是训练多个机器学习模型并将它们的输出结合在一起的过程。不同的模型被用作创建一个最优预测模型的基础。结合多个个体机器学习模型的多样化集合可以提高整体模型的稳定性,从而导致更准确的预测。集成学习模型通常比个体模型更可靠,因此它们经常在许多机器学习竞赛中排名第一。
有不同的技术可以让工程师创建集成学习模型。简单的集成学习技术包括对不同模型的输出进行平均,而还有更复杂的方法和算法被开发来结合多个基模型/学习者的预测。

为什么使用集成训练方法?

机器学习模型可以由于各种原因而不同。不同的机器学习模型可能在不同的样本数据上运行,使用不同的建模技术,并使用不同的假设。
想象一下,你正在与一大群人一起玩一个问答游戏。如果你单独玩,有些主题你可能知道很多,而有些主题你可能一无所知。现在假设你和其他人一起玩。就像你一样,他们将在自己的专业领域拥有知识,而在其他主题上没有知识。但是,当你的知识被结合在一起时,你对更多领域有更准确的猜测,并且你不知道的主题数量减少了。这是集成学习的基本原理,即将不同的团队成员(个体模型)的预测结合起来以提高准确性和最小化错误。
统计学家已经证明,当一群人被要求对一个具有多个可能答案的问题进行猜测时,他们的答案形成一个概率分布。真正知道正确答案的人会自信地选择正确答案,而选择错误答案的人会将他们的猜测分布在所有可能的错误答案中。回到问答游戏的例子,如果你和你的两个朋友知道正确答案是 A,你们三个人都会投票给 A,而不知道答案的其他三个人可能会错误地猜测 B、C、D 或 E。结果是 A 有三票,其他答案最多只有两票。
所有模型都有一定的错误。一个模型的错误与另一个模型的错误不同,因为模型本身不同,如上所述。当所有错误被检查时,它们不会聚集在一个答案或另一个答案周围,而是分散在所有可能的错误答案中,相互抵消。同时,不同模型的正确猜测将聚集在正确答案周围。当使用集成训练方法时,可以更可靠地找到正确答案

简单集成训练方法

简单的集成训练方法通常只涉及应用 统计摘要技术,例如确定一组预测的模式、均值或加权平均值。
模式是指一组数字中最频繁出现的元素。要得到模式,个体学习模型返回它们的预测,这些预测被视为对最终预测的投票。确定预测的均值只是简单地计算预测的算术均值,四舍五入到最接近的整数。最后,可以通过为创建预测的模型分配不同的权重来计算加权平均值,这些权重代表了该模型的感知重要性。类别预测的数值表示与 0 到 1.0 之间的权重相乘,个体加权预测然后相加,结果四舍五入到最接近的整数。

高级集成训练方法

有三种主要的高级集成训练技术,每一种都是为解决特定的机器学习问题而设计的。 “装袋”技术 用于减少模型预测的方差,方差是指预测结果在相同观察结果下有多大的差异。 “提升”技术 用于对抗模型的偏差。最后,“堆叠” 用于一般提高预测。
集成学习方法本身可以大致分为两类:顺序方法和并行集成方法。
顺序集成方法之所以被称为“顺序”,是因为基学习器/模型是顺序生成的。在顺序方法中,基本思想是利用基学习器之间的依赖关系来获得更准确的预测。错误标记的示例会调整它们的权重,而正确标记的示例保持相同的权重。每次生成一个新学习器时,权重都会改变,准确性(希望)会提高。
相比顺序集成模型, 并行集成方法生成基学习器是并行的。在进行并行集成学习时,理念是利用基学习器的独立性,因为可以通过平均个体学习器的预测来减少总体错误率。
集成训练方法可以是同构或异构的。大多数集成学习方法是同构的,这意味着它们使用单一类型的基学习模型/算法。相比之下,异构集成使用不同的学习算法,多样化和变化学习器,以确保准确性尽可能高。

集成学习算法的例子

集成提升的可视化。照片:Sirakorn via Wikimedia Commons,CC BY SA 4.0,(https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)


//www.unite.ai/what-is-machine-learning/">机器学习与深度学习领域。Daniel希望帮助他人利用人工智能的力量造福社会。