AI 入门 101

什么是线性回归?

mm

什么是线性回归?

线性回归是一种用于预测或可视化两个不同特征/变量之间关系的算法。在线性回归任务中,存在两种类型的变量:因变量和自变量。自变量是独立的变量,不受其他变量的影响。随着自变量的调整,依变量的水平将波动。依变量是被研究的变量,也是回归模型要解决或预测的变量。在线性回归任务中,每个观察/实例都包含依变量值和自变量值。
这是对线性回归的简要解释,但让我们通过查看一个例子和检查它使用的公式来更好地理解线性回归。

理解线性回归

假设我们有一个关于硬盘大小和硬盘成本的数据集。
让我们假设我们拥有的数据集由两个不同的特征组成:内存量和成本。我们为计算机购买的内存越多,购买成本就越高。如果我们在散点图上绘制个别数据点,我们可能会得到一个看起来像这样的图表:

确切的内存与成本的比例可能会根据硬盘的制造商和型号而有所不同,但一般来说,数据的趋势是从左下角开始(硬盘既便宜又容量小)到右上角(硬盘更贵且容量更大)。
如果我们在X轴上有内存量,在Y轴上有成本,捕捉X和Y变量之间关系的线将从左下角开始,延伸到右上角。

回归模型的功能是确定X和Y变量之间的线性函数,该函数最好地描述了两个变量之间的关系。在线性回归中,假设Y可以从一些输入变量的组合中计算出来。输入变量(X)和目标变量(Y)之间的关系可以通过在图中的点上绘制一条线来表示。该线代表了最好地描述X和Y之间关系的函数(例如,每次X增加3,Y增加2)。目标是找到最优的“回归线”,或最好地适合数据的线/函数。
线通常由方程表示:Y = m*X + b。X指的是自变量,而Y是因变量。同时,m是线的斜率,如“升高”与“运行”之比定义。机器学习从业者以稍微不同的方式表示著名的斜率线方程,使用以下方程:
y(x) = w0 + w1 * x
在上面的方程中,y是目标变量,而“w”是模型的参数,输入是“x”。因此,方程的读法是:“给出X的函数等于模型的参数乘以特征”。模型的参数在训练期间进行调整,以获得最佳拟合的回归线。

多元线性回归

Photo: Cbaf via Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)


博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。