大数据学习笔记

您的位置：
门户
>> 文章精选
>> 业务知识
>> 查看资讯

发表于：2015-11-02 10:44

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：顾翔来源：51Testing软件测试网原创

软件测试技术

大数据

　　1、概要

　　1.1特点

　　大数据的4V特点：

　　Volume（大量）、

　　Velocity（高速）、

　　Variety（多样）、

　　Value（价值）。

　　1.2定义

　　"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

　　1.3单位

　　最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB，

　　它们按照进率1024（2的十次方）来计算：

　　8 bit = 1 Byte

　　1 KB = 1,024 Bytes

　　1 MB = 1,024 KB = 1,048,576 Bytes

　　1 GB = 1,024 MB = 1,048,576 KB

　　1 TB = 1,024 GB = 1,048,576 MB

　　1 PB = 1,024 TB = 1,048,576 GB

　　1 EB = 1,024 PB = 1,048,576 TB

　　1 ZB = 1,024 EB = 1,048,576 PB

　　1 YB = 1,024 ZB = 1,048,576 EB

　　1 BB = 1,024 YB = 1,048,576 ZB

　　1 NB = 1,024 BB = 1,048,576 YB

　　1 DB = 1,024 NB = 1,048,576 BB

　　2、技术

　　2.1 Hadoop MapReduce

　　思维模式转变的催化剂是大量新技术的诞生，它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区，Hadoop已经是目前大数据平台中应用率最高的技术，特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外，伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示，许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

　　2.2 NoSQL数据库

　　我们生活的时代，相对稳定的数据库市场中还在出现一些新的技术，而且在未来几年，它们会发挥作用。事实上，NoSQL数据库在一个广义上派系基础上，其本身就包含了几种技术。总体而言，他们关注关系型数据库引擎的限制，如索引、流媒体和高访问量的网站服务。在这些领域，相较关系型数据库引擎，NoSQL的效率明显更高。

　　2.3内存分析

　　在Gartner公司评选的2012年十大战略技术中，内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中，如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性，成为大数据分析时代下的"新宠儿"。如何让大数据转化为最佳的洞察力，也许内存分析就是答案。大数据背景下，用户以及IT提供商应该将其视为长远发展的技术趋势。

　　2.4集成设备

　　随着数据仓库设备(Data Warehouse Appliance)的出现，商业智能以及大数据分析的潜能也被激发出来，许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起，提升查询性能、扩充存储空间并获得更多的分析功能，并能够提供同传统数据仓库系统一样的优势。在大数据时代，集成设备将成为企业应对数据挑战的一个重要利器。

　　3、结构

　　从三个层面来展开：

　　3.1第一层面是理论

　　理论是认知的必经途径，也是被广泛认同和传播的基线。

　　在这里从大数据的特征定义理解行业对大数据的整体描绘和定性；

　　从对大数据价值的探讨来深入解析大数据的珍贵所在；

　　洞悉大数据的发展趋势；

　　从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

　　3.2第二层面是技术

　　技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

　　3.3第三层面是实践

　　实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

　　4、特点

　　大数据的4个"V"，或者说特点有四个层面：

　　第一，数据体量巨大。从TB级别，跃升到PB级别；

　　第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。

　　第三，处理速度快，1秒定律，可从各种类型的数据中快速获得高价值的信息，这一点也是和传统的数据挖掘技术有着本质的不同。

　　第四，只要合理利用数据并对其进行正确、准确的分析，将会带来很高的价值回报。

　　业界将其归纳为4个"V"--Volume（数据体量大）、Variety（数据类型繁多）、Velocity（处理速度快）、Value（价值密度低）。

　　大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言，大数据的"廉价、迅速、优化"这三方面的综合成本是最优的。

　　5、意义及用途

　　5.1意义

　　5.1.1变革价值的力量

　　未来十年，决定中国是不是有大智慧的核心意义标准（那个"思想者"），就是国民幸福。一体现到民生上，通过大数据让事情变得澄明，看我们在人与人关系上，做得是否比以前更有意义；二体现在生态上，看我们在天与人关系上，做得是否比以前更有意义。总之，让我们从前10年的意义混沌时代，进入未来10年意义澄明时代。

　　5.1.2.变革经济的力量

　　生产者是有价值的，消费者是价值的意义所在。有意义的才有价值，消费者不认同的，就卖不出去，就实现不了价值；只有消费者认同的，才卖得出去，才实现得了价值。大数据帮助我们从消费者这个源头识别意义，从而帮助生产者实现价值。这就是启动内需的原理。

　　5.1.3.变革组织的力量

　　随着具有语义网特征的数据基础设施和数据资源发展起来，组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的，是各种各样去中心化的WEB2.0应用，如RSS、维基、博客等。大数据之所以成为时代变革力量，在于它通过追随意义而获得智慧。

　　5.2用途

　　大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。

　　大数据工程指大数据的规划建设运营管理的系统工程；

　　大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

　　物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

　　有些例子包括网络日志，RFID，传感器网络，社会网络，社会数据（由于数据革命的社会），互联网文本和文件;互联网搜索索引;呼叫详细记录，天文学，大气科学，基因组学，生物地球化学，生物，和其他复杂和/或跨学科的科研，军事侦察，医疗记录;摄影档案馆视频档案;和大规模的电子商务。

　　5.3弊端

　　虽然大数据的拥护者看到了使用大数据的巨大潜力，但也有隐私倡导者担心，因为越来越多的人开始收集相关数据，无论是他们是否会故意透露这些数据或通过社交媒体张贴，甚至他们在不知不觉中通过分享自己的生活而公布了一些具体的数字细节。

　　分析这些巨大的数据集会使我们的预测能力产生虚假的信息，将导致作出许多重大和有害的错误决定。此外，数据被强大的人或机构滥用，自私的操纵议程达到他们想要的结果。

　　6、应用

　　洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

　　google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

　　统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

　　麻省理工学院利用手机定位数据和交通数据建立城市规划。

　　梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

　　Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性，然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。"SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。"Laney分析到。

　　PredPol Inc. 公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作，基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率，可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区，盗窃罪和暴力犯罪分布下降了33%和21%。

　　American Express(美国运通，AmEx)和商业智能。以往，AmEx只能实现事后诸葛式的报告和滞后的预测。"传统的BI已经无法满足业务发展的需要。"Laney认为。于是，AmEx开始构建真正能够预测忠诚度的模型，基于历史交易数据，用115个变量来进行分析预测。该公司表示，对于澳大利亚将于之后四个月中流失的客户，已经能够识别出其中的24%。

　　Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。因此，他们开发了一个新产品：会响铃的药品盖和自动的电话呼叫，以此提醒患者按时服药。

　　Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是，那些针对单一目标而收集的数据，通常用过之后就被归档闲置，其真正价值未能被充分挖掘。在特定情况下，这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例，通过算法挽回了1200万美元的代位追偿金额。

　　利用起互联网大数据，对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务，甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品，活动，小而美的小众商品等等。

　　地产业的升级改造，具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元，设想一下，如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%，为此投入几百万元甚至上千万元对于投资方来说非常划算，那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

　　7、经典大数据案例-沃尔玛经典营销：啤酒与尿布

　　"啤酒与尿布"的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，"啤酒"与"尿布"两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。

　　在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是"啤酒与尿布" 故事的由来。

　　当然"啤酒与尿布"的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法--Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算法引入到 POS机数据分析中，并获得了成功，于是产生了"啤酒与尿布"的故事。

　　大数据可以帮助人们开启循"数"管理的模式，也是我们当下"大社会"的集中体现，三分技术，七分数据，得数据者得天下。

　　8、数据机遇

　　9、数据回报

　　数据回报率=数据价值/数据成本

　　10、实现回报

　　11、处理工具

　　11.1开源大数据生态圈

　　11.1.1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。

　　11.1.2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。

　　11.1.3、NoSQL，membase、MongoDb

　　11.2商用大数据生态圈

　　11.2.1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。

　　11.2.2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。

　　11.2.3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

　　12、处理流程

　　12.1采集

　　12.1.1定义

　　利用多种轻型数据库来接收发自客户端的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作

　　12.1.2特点和挑战

　　并发系数高

　　12.1.3使用的产品

　　MySQL，Oracle，HBase，Redis和 MongoDB等，并且这些产品的特点各不相同

　　12.2统计分析

　　12.2.1定义

　　将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群，利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等，以此满足大多数常见的分析需求

　　12.2.2特点和挑战

　　导入数据量大，查询涉及的数据量大，查询请求多

　　12.2.3使用的产品

　　InfoBright，Hadoop（Pig和Hive），YunTable， SAP Hana和Oracle Exadata，除Hadoop以做离线分析为主之外，其他产品可做实时分析

　　12.3挖掘

　　12.3.1定义

　　基于前面的查询数据进行数据挖掘，来满足高级别的数据分析需求

　　12.3.2特点和挑战

　　算法复杂，并且计算涉及的数据量和计算量都大

　　12.3.3使用的产品

　　R，Hadoop Mahout

21/212 >

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选