机器学习之线性回归算法概述

发表于：2021-7-22 09:48

作者：赵嘉铭李志伟赵旭来源：51Testing软件测试网原创

开发

　　线性回归是机器学习中最基础的模型。虽然相较而言其结构简单且易理解，但其不仅能体现出机器学习重要的基本思想，还能构造出功能更加强大的非线性模型，对于后续机器学习算法的不断发展起了至关重要的作用。

　　在数理统计中，回归分析是确定多种变量间相互依赖的定量关系的方法。线性回归假设输出变量是若干输入变量的线性组合，并根据这一关系求解线性组合中的最优系数。在众多回归分析的方法里，线性回归模型最易于拟合，其估计结果的统计特性也更容易确定，因而得到广泛应用。而在机器学习中，回归问题隐含了输入变量和输出变量均可连续取值的前提，因而利用线性回归模型可以对任意输入给出对输出的估计。

　　1875年，从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找父代与子代身高之间的关系。在分析了1078对父子的身高数据后，他发现这些数据的散点图大致呈直线状态，即父亲的身高和儿子的身高呈正相关关系。高尔顿将这种现象称为“回归效应”，并给出了历史上第一个线性回归的表达式：

　　式中的y和x分别代表子代和父代的身高（单位为英寸）。回归效应在当今的机器学习中依然活跃。假定一个实例可以用列向量

表示，每个

代表了实例在第i个属性上的取值，线性回归的作用就是习得一组参数

使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量

，线性回归试图学习的模型就是：

　　当实例只有一个属性时，输入和输出之间的关系就是二维平面上的一条直线；当实例的属性数目较多时，线性回归得到的就是n维空间上的一个超平面，对应一个维度等于n-1的线性子空间。

　　在训练集上确定系数

时，预测输出

和真实输出y之间的误差是训练模型的关键，这一误差以均方误差来定义。当线性回归的模型为二维平面上的直线时，均方误差就是预测输出和真实输出之间的欧式距离，也就是两点间向量的L2范数。使均方误差取得最小值为目标的模型求解方法就是最小二乘法，其表达式可以写成：

　　式中每个

代表训练集中的一个样本。在单变量线性回归任务中，最小二乘法的作用就是找到一条直线，使所有样本到直线的欧式距离之和最小。

　　从概率角度也可以解释，为何均方误差最小时的参数就是模型的最优参数。线性回归得到的是统计意义上的拟合结果，在单变量的情形下，可能每一个样本点都没有落在拟合得到的直线上。对这个现象的一种解释是回归结果可以完美匹配理想样本点的分布，但训练中使用的真实样本点是理想样本点和噪声叠加的结果，因而与回归模型之间产生了偏差，而每个样本点上噪声的取值就等于

。