51Testing独家连载:机器学习测试入门与实践

发表于:2020-10-10 09:41

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:融360 AI 测试团队    来源:51Testing软件测试网原创

  前言
  写作背景
  随着科学技术的发展,人工智能已逐步渗透到社会的各个领域,如智慧城市、智慧金融、智能家居等。人工智能技术正以前所未有的速度全方位地改变着我们的生活,并引领了新一轮产业变革。为了抓住人工智能发展的战略机遇,众多企业在积极地做数字化转型升级,这也对每一位人工智能领域的从业人员和有志之士的技术水平、专业领域知识提出了更高的要求。
  机器学习是人工智能领域最重要的方向之一。随着机器学习应用的日益普及,机器学习技术本身的复杂性越来越高,机器学习应用的质量问题越来越突出。这主要体现在数据质量、特征工程、模型效果、产品功能等方面。例如,训练数据的质量问题会导致机器学习模型的不可靠,最终可能得出错误的结论,做出错误的决定(预测),在带来质量风险的同时也将造成成本上升。由此可见,做好机器学习应用的质量保障工作特别重要。
  对于传统软件、互联网产品的测试,测试方法及质量保障体系是相对成熟的,而机器学习测试是一个较新的方向,我们无法把传统软件及互联网产品的测试方法生搬硬套到机器学习测试中,测试行业里鲜有完整的机器学习质量保障体系可供借鉴。面对机器学习测试的技术挑战,我们在团队内组织了一系列技术攻坚,从 3 个方面着手:通过机器学习专业课程的培训, 系统地学习机器学习技术,并熟悉建模训练的过程;通过专项技术主题实践(大数据自动化、特征分析、模型评测、工具平台建设等),不断积累机器学习测试的实践经验;逐步搭建机器 学习应用的质量保障体系,并结合业务场景,进一步补充完善。
  作为国内领先的、独立开放的金融产品搜索和推荐平台,融 360 结合自身的业务场景和数据,积极进行了人工智能领域的应用探索。融 360 一直在人工智能领域有着长期的技术投入,先后组建模型算法团队、AI 研究院等,并始终致力于为客户提供高质量的服务及产品。融 360 在搜索、推荐、风控等领域,广泛应用了相关人工智能技术,并取得了不错的效果。
  写作本书的主要目的就是与业界分享融 360 AI 测试团队在机器学习测试方面的实践经验, 共同推进机器学习测试的发展。
  本书结构
  本书分为 5 部分,共 15 章,全面且系统地介绍了机器学习测试技术与质量保障体系建设。
  第一部分:基础知识(第 1 ~ 4 章)。
  第 1 章首先介绍机器学习的基本概念,之后简述机器学习的发展历程和当前的应用情况,最后就主流的应用场景举例说明。
  第 2 章主要介绍 Python 的编程基础,包括平台搭建、语法基础等,同时,结合详细的代码示例讲解核心知识点。
  第 3 章首先讲解数据分析的基本概念,然后解读数据分析库的用法,最后结合实际案例展示了数据分析的全流程。
  第 4 章主要介绍机器学习的基础知识,包括基本概念、分类及训练方式等,并结合详细代码示例讲解机器学习库。另外,该章还对主流算法进行了解读。
  第二部分:大数据测试(第 5 ~ 7 章)。
  第 5 章主要介绍大数据基础知识,包括大数据的概念、Hadoop 生态系统、数据仓库与ETL 流程等,并对 HDFS、MapReduce、Hive、HBase、Storm、Spark、Flink 的技术架构、特点、用法等进行概要解读。
  第 6 章首先介绍大数据测试的基本概念,之后分析与传统数据测试的差异,并对大数据测试流程、大数据测试方法等进行详细解读,最后通过 3 个典型测试场景(HiveQL、MR、源到目标表)来阐述大数据测试实践。
  第 7 章主要介绍大数据测试工具、数据质量监控平台、数据调度平台,重点阐述工具平台的架构设计、功能特性及应用场景。
  第三部分:模型测试(第 8 ~ 10 章)。
  第 8 章围绕机器学习的生命周期,剖析机器学习测试的重点和难点,并给出机器学习端到端测试的思路,此外还解析 A/B 测试在机器学习测试的应用。
  第 9 章首先介绍特征工程基础知识(特征构建、特征选择等),并对特征测试的重要性给予说明,之后阐述特征测试的主要方法,最后就特征测试实践进行深入介绍(指标分析、可视化、稳定性等)。
  第 10 章首先介绍模型算法评测基础知识,包括样本划分策略、常用评估指标等,然后详细讲解模型算法的测试方法,如模型蜕变测试、模糊测试、鲁棒性测试、可解释性测试等。
  第四部分:模型工程(第 11 ~ 13 章)。
  第 11 章结合金融风控业务的特点,分析模型评估测试的重点和难点,详细介绍模型评估平台的设计和架构。关于模型评估平台的讲解,提供了较多核心代码示例。最后,该章对模型评估平台的发展进行了总结与展望。
  第 12 章首先概述机器学习平台的发展、主流的机器学习平台的建设思路,然后围绕机器学习生命周期(数据处理、建模与模型部署)依次展开,对数据采集、数据存储、数据加工、特征工程、模型构建、模型部署和监控等阶段的工程技术进行了详细阐述。
  第 13 章首先介绍了机器学习持续交付的概念,并说明了面临的主要挑战(组织流程、复杂技术),之后阐述了如何构建机器学习 Pipeline,并对 Pipeline 的设计及技术难点进行详细讲解。
  第五部分:AI In Test(第 14 章和第 15 章)。
  第 14 章介绍了 AI 在测试领域的探索和实践,并结合主流的 AI 测试工具,进一步解读 AI 测试的前沿技术,然后总结 AI 在测试领域的应用现状和发展趋势。
  第 15 章首先介绍了 AI 对测试行业未来发展的影响,然后剖析了在 AI 时代背景下测试工程师的定位,最后指明了测试工程师的 AI 学习路线。
  致谢
  本书是集体智慧的结晶。在本书的创作过程中,各位作者占用了大量的休息时间以及本应与家人共享的假日,特此感谢各位作者的家人的理解和支持。
  本书在创作过程中得到了领导的关怀、鼓励和支持,包括融 360 联合创始人、CEO 叶大清先生,融 360 联合创始人、CTO 刘曹峰先生,融 360 高级技术总监张刚刚先生等,在此一并表示感谢。
  最后,本书在写作过程中参考了大量的文献,在此对这些文献的原作者一并表示衷心的感谢。

51Testing软件测试网将在近期对本书部分章节进行连载,敬请关注
查看更多《51Testing软件测试网作品系列》:http://www.51testing.com/html/36/category-catid-136.html
32/3<123>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号