线性模型——机器学习公式详解(02)

发表于:2023-6-14 09:34

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:谢文睿 秦州    来源:51Testing软件测试网原创

  第3章 线性模型
  作为“西瓜书”介绍机器学习模型的开篇,线性模型也是机器学习中最为基础的模型,很多复杂模型均可认为由线性模型衍生而得,无论是曾经红极一时的支持向量机还是如今万众瞩目的神经网络,其中都有线性模型的影子。
  本章的线性回归和对率回归分别是回归和分类任务上常用的算法,因此属于重点内容。线性判别分析不常用,但是其核心思路和后续第10 章将会讲到的经典降维算法——主成分分析相同,因此也属于重点内容,且两者结合在一起看理解会更深刻。
  3.1 基本形式
  第1 章的1.2 节“基本术语”在讲述样本的定义时,说明了“西瓜书”和本书中向量的写法,当向量中的元素用分号“;”分隔时表示此向量为列向量,用逗号“,”分隔时表示此向量为行向量。因此,式(3.2) 中的w = (w1;w2; · · · ;wd) 和x = (x1; x2; · · · ; xd) 均为d 行1 列的列向量。
  3.2 线性回归
  3.2.1 属性数值化
  为了能进行数学运算,样本中的非数值类属性都需要进行数值化。对于存在“序”关系的属性,可通过连续化将其转为带有相对大小关系的连续值;对于不存在“序”关系的属性,可根据属性取值将其拆解为多个属性,例如“西瓜书”中所说的“瓜类”属性,可拆解为“是否是西瓜”“是否是南瓜”“是否是黄瓜”3 个属性,其中每个属性的取值为1 或0,1 表示“是”,0 表示“否”。具体地说,假如现有3个瓜类样本x1 = (甜度= 高; 瓜类= 西瓜), x2 = (甜度= 中; 瓜类= 南瓜), x3 =(甜度= 低; 瓜类= 黄瓜),其中“甜度”属性存在序关系,因此可将“高”“中”“低”转为{1.0, 0.5, 0.0}。“瓜类”属性不存在序关系,按照上述方法进行拆解,3 个瓜类样本数值化后的结果为x1 = (1.0; 1; 0; 0), x2 = (0.5; 0; 1; 0), x3 = (0.0; 0; 0; 1)。
  以上针对样本属性进行的处理工作便是第1 章的1.2 节“基本术语”中提到的“特征工程”范畴,完成属性数值化之后通常还会进行缺失值处理、规范化、降维等一系列处理工作。由于特征工程属于算法实践过程中需要掌握的内容,待学完机器学习算法以后,再进一步学习特征工程相关知识即可,在此先不展开。
  3.2.2 式(3.4) 的解释
  下面仅针对式(3.4) 中的数学符号进行解释。首先解释一下符号“arg min”,其中“arg”是“argument”(参数)的前三个字母,“min”是“minimum”(最小值)的前三个字母,该符号表示求使目标函数达到最小值的参数取值。例如,式(3.4) 表示求出使目标函数Pmi=1 (yi - wxi - b)2 达到最小值的参数取值(w?,b?),注意目标函数是以(w, b) 为自变量的函数,(xi, yi) 均是已知常量,即训练集中的样本数据。
  类似的符号还有“min”,如果将式(3.4) 改为:
  则表示求目标函数的最小值。对比后可知,“min”和“arg min”的区别在于,前者输出目标函数的最小值,而后者输出使目标函数达到最小值时的参数取值。
  若进一步修改式(3.4) 为:
  则表示在w > 0 且b < 0 的范围内寻找目标函数的最小值。“s.t.”是“subject to”的简写,意思是“受约束于”,后跟约束条件。
  以上介绍的符号都是应用数学领域的一个分支——“最优化”中的内容。若想进一步了解,可找一本有关最优化的教材(例如参考文献[1])进行系统的学习。
  3.2.3 式(3.5) 的推导
  “西瓜书”在式(3.5) 左侧给出的凸函数的定义是最优化中的定义,与高等数学中的定义不同,本书也默认采用此种定义。因为一元线性回归可以看作多元线性回归中元的个数为1 时的情形,所以此处暂不给出E(w,b) 是关于w 和b 的凸函数的证明,在推导式(3.11) 时一并给出。下面开始推导式(3.5)。
  3.2.4 式(3.6) 的推导
版权声明:51Testing软件测试网获得作者授权连载本书部分章节。
任何个人或单位未获得明确的书面许可,不得对本文内容复制、转载或进行镜像,否则将追究法律责
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号