机器学习的应用——机器学习测试(2)

发表于:2020-10-12 09:19

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:融360 AI 测试团队    来源:51Testing软件测试网原创

分享:
  1.3 机器学习的应用
  机器学习的应用十分广泛,在日常生活中随处可见,例如,停车场出入口车牌识别、语音输入法、人脸识别、电商网站的商品推荐、新闻推荐等。接下来简单介绍一些常见的应用。目前对于机器学习的研究和使用主要集中于图1-4所示的一些领域。
图1-4 机器学习研究和应用领域
  事实上,无论是模式识别问题还是数据挖掘问题,它们所涉及到的机器学习的问题在很多地方都是相通的,只是在方法和侧重点上有所区别。模式识别是机器学习中通过数学方法来研究模式处理的一类问题;数据挖掘是从数据库管理、数据分析、算法的角度探索机器学习问题;而统计学习则是站在统计学的视角来研究机器学习问题。
  计算机视觉、语音识别以及自然语言处理(这里特指文本处理)目前是机器学习领域最常见的几类应用领域。计算机视觉是一门研究如何让机器能够替代人的眼睛,把看到的图片进行分析、处理的一门科学。在图像分类、人脸识别、车牌识别、自动驾驶中的街景识别等场景均有十分广泛的应用。语音识别是把语音处理、语义理解等技术和机器学习结合起来。常见的应用有:苹果公司的Siri、小米公司的小爱同学等语音助手。此外,语音识别经常还会和自然语言处理技术中的机器翻译、语音合成等技术构建出更加复杂的应用,如:语音翻译器。自然语言处理旨在使用自然语言处理技术使计算机能够“读懂”人类的语言。具体的应用有:谷歌翻译、垃圾邮件的识别、知识图谱等。
  1.3.1 数据挖掘
  数据挖掘是指从大量的数据中分析找出有着特殊关系性信息的过程,数据挖掘通过统计、在线分析处理、情报检索、机器学习和模式识别等诸多方法实现。数据挖掘仅仅是一种思考方式,从数据中找出模式改善处理过程,大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
  数据挖掘作为一门全新的研究领域,代替了传统的数据分析,以新兴的方法和理论挖掘数据的潜在价值。数据挖掘主要是经由以下几个步骤来处理数据:
  1) 选取或构造数据集。为了方便后续的处理,关于数据集的格式、内容等的界定条件需要慎重选取;
  2) 数据预处理工作。这一步是为了统一数据集内部数据的格式和内容,具体包括数据清洗、数据集成、数据规约、数据离散化等,其中特征工程是数据处理中最为重要的部分;
  3) 数据建模和特征筛选阶段。综合考虑需求和模型等因素,通过模型的反馈,在调整参数的同时,对比选取相对最优特征集。这个阶段的具体任务根据选取的模型不同而形式各异;
  4) 形成结论。模型在实际测试数据中表现出的泛化能力,往往能定向的反馈出有价值的信息,此时需要数据工程师根据结果分析并得出结论,甚至可能会重新开始一轮挖掘过程的迭代。
  数据挖掘利用机器学习提供的统计分析、知识发现等手段分析海量数据。机器学习在数据挖掘领域中拥有了无可取代的地位。博斯和马哈帕特拉将机器学习在数据挖掘中的商业应用归结为四种任务类型:
  ·分类(classification)
  比如,从商业数据库中,应用数据挖掘进行有效信息的挖掘,依据统一偏好或是年贡献估计额等标准来进行全部客户的分类。
  ·预测(prediction)
  比如,当客户有贷款的需要时,银行系统应在第一时间对其的信用状况进行审查,应用机器学习技术,就可在日常中对存在于数据库中的源数据进行不断的学习和修正,得出的信息也就是最具参考性的。
  ·关联(association)
  潜存域实体间或属性间的连续规律进行关联性的分析。
  ·侦查(detection)
  侦查的目的在于寻找数据集中的异常现象、离群数据、异常模式等等,并且寻找对这些异常原因的解释。客户流失管理是其中的一个例子。
  Myrrix创始人Owen在其文章中提到:机器学习已经是一个有几十年历史的领域了,为什么大家现在这么热衷于这项技术?因为大数据环境下,更多的数据使机器学习算法表现得更好,机器学习算法能从庞大的数据集中提取更多有用的信息;Hadoop使收集和分析数据的成本降低,学习的价值提高。Myrrix与Hadoop的结合是机器学习、分布式计算和数据挖掘的联姻,这三大技术的结合让机器学习应用场景呈爆炸式的增长,这对机器学习来说是一个千载难逢的好机会。
  1.3.2 人脸检测
  人脸检测的目标是找出图像中所有的人脸,确定他们的大小和位置,算法的输出是人脸外接矩形的坐标和大小,可能还包括姿态(如倾斜角度等信息),如图1-5所示。人脸检测是计算机视觉领域被深入研究的经典问题,在安防监控、人机交互、社交等领域都有重要的应用价值。数码相机、智能手机上已经使用人脸检测技术实现成像时对人脸的对焦。与人脸检测密切相关的一个概念是人脸识别,它的目标是确定一个人脸图像的身份,即是哪个人。人脸检测是整个人脸识别算法的第一步,要判断一个人脸图像的身份,首先要确定人脸在图像中的位置。
图1-5 人脸检测的结果
  1.3.3 人机对弈
  人机对弈属于策略类问题,它是人工智能的传统问题,象棋、国际象棋、围棋等问题在过去几十年是检验人工智能进展的代表性问题。棋类AI的经典方法是搜索树,它枚举所有可能的棋步,形成搜索树,每次落棋时选择最优的棋步,这需要定义一个代价函数来评估各个决策嬴的可能性。随着棋步的增加,搜索树的规模会以指数级增长,因此,需要对树进行剪枝。
  由于围棋的变化太多,DeepMind(AlphaGo的研究公司)的AlphaGo没有采用穷举搜索的技术,而是用机器学习来寻找最优棋步。AlphaGo由多个神经网络组成,采用深度强化学习技术,它们联合起来实现对最优棋步的搜索。
  1.3.4 机器翻译
  机器翻译(Machine Translation,MT)实现类似人类的语言翻译功能,它的目标是将一种语言的语句转换成另外一种语言的语句,二者有相同的语义。机器翻译是自然语言处理领域最重要、最有应用价值的问题之一。早期的实现大多采用基于规则的方法,后来逐渐过渡到使用机器学习的方法。
  循环神经网络和卷积神经网络被成功地应用于这一问题,准确率不断提高,序列到序列的学习(seq2seq)是解决这一问题的经典方案。目前Google百度、搜狗等互联网公司已经提供了语言翻译的服务。
  1.3.5 自动驾驶
  自动驾驶是人工智能领域非常具有挑战性的问题,也是对人类生活有深远影响的技术。无人驾驶的普及不但可以解放人类驾驶员,还可以降低事故率。要实现车辆的自动驾驶需要解决如下几个核心问题[1]。
  1) 定位。确定车辆当前所处的位置,这可以通过GPS、雷达、图像分析等手段结合高精度数字地图来实现,目前已经解决得很好。
  2) 环境感知。环境感知指确定道路、车道线、路面上的物体。这需要准确地检测道路、车道线、行人、车辆等障碍物,还需要识别出交通标志、信号灯等重要信息,给出车辆当前所处的环境。对环境的感知可以通过激光雷达、声波、图像等多种数据采集手段配合机器学习算法实现。
  3) 路径规划。路径规划指给定车辆的当前位置和目的地,计算出到达目的地的一条可行路径,在行驶期间可能还要根据路况信息作出调整,最优路径的计算可以通过Dijkstra算法、A*算法实现。
  4) 决策与控制。根据车道占用情况、路况等环境信息确定要执行的动作,得到车辆在每个时刻的行驶速度、方向等参数。由于无法穷举所有的路况用规则来实现,因此,可以通过机器学习的手段训练出一个模型,以当前的路况作为输入,输出为当前时刻要执行的动作,即根据环境情况对车辆的运动进行控制,包括速度、方向和其它姿态参数,这属于强化学习的范畴。
  深度卷积神经网络和深度强化学习技术被用于自动驾驶问题,解决感知和决策控制问题。卷积神经网络用于实现图像和环境的感知理解,强化学习用于确定车辆的行为。
  1.3.6 其它应用
  机器学习还能应用于生物技术(可折叠的蛋白质预测,遗传因子的微型排列表示)、天文物体分类(主要是学习判断新事物,关键技术是对图像数据库进行分类)、计算机系统性能的预测、银行业务(信用卡盗用检测)、互联网应用(文档自动分类、垃圾邮件过滤)等各个领域。
  随着数据的积累,机器学习算法已经渗透到各行各业当中,并且在行业中发挥巨大的作用。随着数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力向外输出。我们可以预见未来随着算法和计算能力的发展,机器学习应该会在金融、医疗、教育、安全等各个领域有更深层次的应用。笔者特别期待机器学习算法在破解基因密码以及癌症攻破方面可以取得突破,同时无人车、增强现实技术[ 增强现实,是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。这种技术最早于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途越来越广。](Augmented Reality,AR)等新概念、新技术的发展也需要依赖于机器学习算法的发展。相信未来,机器学习算法会真正做到颠覆生活改变人类命运。
  1.4 本章小结
  本章中首先介绍机器学习的概念,让读者对机器学习有个初步的了解,接着介绍了机器学习和人工智能的关系以及机器学习的当前繁荣状况,最后介绍了机器学习在当前社会的常见的应用领域。机器学习的常用算法会在第4章节做详细介绍。
  当前是人工智能发展的一个令人兴奋的时期,机器学习理论研究已经成为新的热点。随着机器学习、大数据、云计算及物联网的深度发展,真正的人工智能将成为现实。相信在不久的未来,在道路上奔驰着的是无人驾驶汽车;在危险岗位上工作的是拥有人工智能的机器人。同时人工智能也将在医学、教育、服务等行业为每个人提供个性化的定制服务。机器学习终将推动人工智能真正改变世界,造福整个人类社会。

查看《机器学习测试入门与实践》全部连载章节
版权声明:51Testing软件测试网获得人民邮电出版社和作者授权连载本书部分章节。
任何个人或单位未获得明确的书面许可,不得对本文内容复制、转载或进行镜像,否则将追究法律责任。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号