大数据是什么？一文秒读懂大数据

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

大数据是什么？一文秒读懂大数据

发表于：2017-8-31 10:38

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：小数点来源：51Testing软件测试网采编

　　和大数据相关的技术

　　云技术

　　大数据常和云计算联系到一起，因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说，云计算充当了工业革命时期的发动机的角色，而大数据则是电。

　　云计算思想的起源是麦卡锡在上世纪60年代提出的：把计算能力作为一种像水和电一样的公用事业提供给用户。

　　如今，在Google、Amazon、Facebook等一批互联网企业引领下，一种行之有效的模式出现了：云计算提供基础架构平台，大数据应用运行在这个平台上。

　　业内是这么形容两者的关系：没有大数据的信息积淀，则云计算的计算能力再强大，也难以找到用武之地；没有云计算的处理能力，则大数据的信息积淀再丰富，也终究只是镜花水月。

　　那么大数据到底需要哪些云计算技术呢？

　　这里暂且列举一些，比如虚拟化技术，分布式处理技术，海量数据的存储和管理技术，NoSQL、实时流数据处理、智能分析技术（类似模式识别以及自然语言理解）等。

　　云计算和大数据之间的关系可以用下面的一张图来说明，两者之间结合后会产生如下效应：可以提供更多基于海量业务数据的创新型服务；通过云计算技术的不断发展降低大数据业务的创新成本。

　　如果将云计算与大数据进行一些比较，最明显的区分在两个方面：

　　第一，在概念上两者有所不同，云计算改变了IT，而大数据则改变了业务。然而大数据必须有云作为基础架构，才能得以顺畅运营。

　　第二，大数据和云计算的目标受众不同，云计算是CIO等关心的技术层，是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品，而大数据的决策者是业务层。

　　分布式处理技术

　　分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来，在控制系统的统一管理控制下，协调地完成信息处理任务—这就是分布式处理系统的定义。

　　以Hadoop（Yahoo）为例进行说明，Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架，是以一种可靠、高效、可伸缩的方式进行处理的。

　　而MapReduce是Google提出的一种云计算的核心计算模式，是一种分布式运算技术，也是简化的分布式编程模式，MapReduce模式的主要思想是将自动分割要执行的问题（例如程序）拆解成map（映射）和reduce（化简）的方式，在数据被分割后通过Map 函数的程序将数据映射成不同的区块，分配给计算机机群处理达到分布式运算的效果，在通过Reduce 函数的程序将结果汇整，从而输出开发者需要的结果。

　　再来看看Hadoop的特性，第一，它是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。其次，Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

　　你也可以这么理解Hadoop的构成，Hadoop=HDFS（文件系统，数据存储技术相关）+HBase（数据库）+MapReduce（数据处理）+……Others

　　Hadoop用到的一些技术有：

　　HDFS: Hadoop分布式文件系统(Distributed File System) － HDFS (HadoopDistributed File System)

　　MapReduce：并行计算框架

　　HBase: 类似Google BigTable的分布式NoSQL列数据库。

　　Hive：数据仓库工具，由Facebook贡献。

　　Zookeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。

　　Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

　　Pig:大数据分析平台，为用户提供多种接口。

　　Ambari：Hadoop管理工具，可以快捷的监控、部署、管理集群。

　　Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。

　　说了这么多，举个实际的例子，虽然这个例子有些陈旧，但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

　　淘宝大数据

　　如上图所示，淘宝的海量数据产品技术架构分为五个层次，从上至下来看它们分别是：数据源，计算层，存储层，查询层和产品层。

　　数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据，通过DataX，DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

　　计算层。在这个计算层内，淘宝采用的是Hadoop集群，这个集群，我们暂且称之为云梯，是计算层的主要组成部分。在云梯上，系统每天会对数据产品进行不同的MapReduce计算。

　　存储层。在这一层，淘宝采用了两个东西，一个使MyFox，一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群，Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。

　　查询层。在这一层中，Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时，数据查询即是通过MyFox来查询的。

　　最后一层是产品层，这个就不用解释了。

　　存储技术

　　大数据可以抽象的分为大数据存储和大数据分析，这两者的关系是：大数据存储的目的是支撑大数据分析。到目前为止，还是两种截然不同的计算机技术领域：大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台；大数据分析关注在最短时间内处理大量不同类型的数据集。

　　提到存储，有一个着名的摩尔定律相信大家都听过：18个月集成电路的复杂性就增加一倍。所以，存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。

　　比如，Google大约管理着超过50万台服务器和100万块硬盘，而且Google还在不断的扩大计算能力和存储能力，其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的，这大大降低了其服务成本，因此可以将更多的资金投入到技术的研发当中。

　　以Amazon举例，Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面，用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施，Amazon 用它来运行其全球的网站网络。再看看S3的设计指标：在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性，并能够承受两个设施中的数据同时丢失。

　　S3很成功也确实卓有成效，S3云的存储对象已达到万亿级别，而且性能表现相当良好。S3云已经拥万亿跨地域存储对象，同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家，几乎世界上的每个角落都有Amazon用户的身影。

　　此外，云创大数据的cStor云存储系统采用了先进的云计算技术、网络通信技术以及分布式文件系统技术，将硬件存储节点组织管理起来，以提供高性能、高可靠的存储。基于此，cStor A8000云存储系统一体机集中供电、集中散热，每个机架最大可搭载总存储容量高达3.8PB，但整体功耗却比传统方式节省10倍，全面展现了新一代高密度云存储产品的高容量、高性能以及节能环保的绿色魅力，已经广泛用于电信、平安城市等多个领域的海量数据存储与处理。

　　感知技术

　　大数据的采集和感知技术的发展是紧密联系的。以传感器技术，指纹识别技术，RFID技术，坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，都会产生海量的数据信息。

　　而随着智能手机的普及，感知技术可谓迎来了发展的高峰期，除了地理位置信息被广泛的应用外，一些新的感知手段也开始登上舞台，比如，最新的”iPhone 5S”在home键内嵌指纹传感器，新型手机可通过呼气直接检测燃烧脂肪量，用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品，微软正在研发可感知用户当前心情智能手机技术，谷歌眼镜InSight新技术可通过衣着进行人物识别。

　　除此之外，还有很多与感知相关的技术革新让我们耳目一新：比如，牙齿传感器实时监控口腔活动及饮食状况，婴儿穿戴设备可用大数据去养育宝宝，Intel正研发3D笔记本摄像头可追踪眼球读懂情绪，日本公司开发新型可监控用户心率的纺织材料，业界正在尝试将生物测定技术引入支付领域等。

　　其实，这些感知被逐渐捕获的过程就是就世界被数据化的过程，一旦世界被完全数据化了，那么世界的本质也就是信息了。

　　就像一句名言所说，“人类以前延续的是文明，现在传承的是信息。”

　　大数据的实践

　　互联网的大数据

　　互联网上的数据每年增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。据IDC预测，到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地，随着WEB2.0时代的发展，人们似乎都习惯了将自己的生活通过网络进行数据化，方便分享以及记录并回忆。

　　互联网上的大数据很难清晰的界定分类界限，我们先看看BAT的大数据：

　　百度拥有两种类型的大数据：用户搜索表征的需求数据；爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析，通过语义分析对搜索需求的精准理解进而从海量数据中找准结果，以及精准的搜索引擎关键字广告，实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有：更多的暗网数据；更多的WEB化但是没有结构化的数据；更多的WEB化、结构化但是封闭的数据。

　　阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现，挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。

　　腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息，甚至预测未来。

　　在信息技术更为发达的美国，除了行业知名的类似Google，Facebook外，已经涌现了很多大数据类型的公司，它们专门经营数据产品，比如：

　　Metamarkets：这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析，为客户提供了很好的数据分析支持。

　　Tableau：他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具，任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析，并提供有价值的建议。

　　ParAccel：他们向美国执法机构提供了数据分析，比如对15000个有犯罪前科的人进行跟踪，从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。

　　QlikTech：QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具，能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析，QlikTech提供了对原始数据进行可视化处理等功能的工具。

　　GoodData：GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管，提供数据存储、性能报告、数据分析等工具。

　　TellApart：TellApart和电商公司进行合作，他们会根据用户的浏览行为等数据进行分析，通过锁定潜在买家方式提高电商企业的收入。

　　DataSift：DataSift主要收集并分析社交网络媒体上的数据，并帮助品牌公司掌握突发新闻的舆论点，并制定有针对性的营销方案。这家公司还和Twitter有合作协议，使得自己变成了行业中为数不多可以分析早期tweet的创业公司。

　　Datahero：公司的目标是将复杂的数据变得更加简单明了，方便普通人去理解和想象。

　　举了很多例子，这里简要归纳一下，在互联网大数据的典型代表性包括：

　　1-用户行为数据（精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等）

　　2-用户消费数据（精准营销、信用记录分析、活动促销、理财等）

　　3-用户地理位置数据（O2O推广，商家推荐，交友推荐等）

　　4-互联网金融数据（P2P，小额贷款，支付，信用，供应链金融等）

　　5-用户社交等UGC数据（趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等）

　　同时，提供数据托管服务的大数据平台也应运而生，比如万物云与环境云。其中，作为智能硬件大数据免费托管平台，万物云(http://www.wanwuyun.com)可无限承载海量的物联网和智能设备数据。通过使用多种协议，各种智能设备将安全地向万物云提交产生的设备数据，在服务平台上进行存储和处理，并通过数据应用编程接口向各种物联网应用提供可靠的跨平台的数据查询和调用服务。万物云在大幅度降低物联网数据应用的技术门槛及运营成本的同时，也满足了物联网产品原型开发、商业运营和规模发展各阶段需求。目前，万物云的注册用户达到1605，入库数据超过55亿条。

　　环境云(http://www.envicloud.cn)则是一个全面而便捷的综合环境大数据开放平台，收录权威数据源(中央气象台、国家环保部数据中心、美国全球地震信息中心等)所发布的各类环境数据，接收云创自主布建的全国各类环境监控传感器网络(包括空气质量指标，土壤环境质量指标检测网络)所采集的数据，并结合相关数据预测模型生成的预报数据，依托数据托管服务平台万物云所提供的数据存储服务，推出了一系列功能丰富、便捷易用的综合环境数据REST API，配合详尽的接口使用帮助，为环境应用开发者提供丰富可靠的气象、环境、灾害以及地理数据服务。此外，环境云还为环境研究人员提供了自定义数据报表生成和下载功能，并向公众展示环境实况。目前，环境云的入库数据已经超过6亿条。

　　政府的大数据

　　近期，奥巴马政府宣布投资2亿美元拉动大数据相关产业发展，将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”，并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分，未来，对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

　　在国内，政府各个部门都握有构成社会基础的原始数据，比如，气象数据，金融数据，信用数据，电力数据，煤气数据，自来水数据，道路交通数据，客运数据，安全刑事案件数据，住房数据，海关数据，出入境数据，旅游数据，医疗数据，教育数据，环保数据等等。这些数据在每个政府部门里面看起来是单一的，静态的。但是，如果政府可以将这些数据关联起来，并对这些数据进行有效的关联分析和统一管理，这些数据必定将获得新生，其价值是无法估量的。

　　具体来说，现在城市都在走向智能和智慧，比如，智能电网、智慧交通、智慧医疗、智慧环保、智慧城市，这些都依托于大数据，可以说大数据是智慧的核心能源。从国内整体投资规模来看，到2012年底全国开建智慧城市的城市数超过180个，通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面，通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘，可以为城市规划提供决策，强化城市管理服务的科学性和前瞻性。在交通管理方面，通过对道路交通信息的实时挖掘，能有效缓解交通拥堵，并快速响应突发状况，为城市交通的良性运转提供科学的决策依据。在舆情监控方面，通过网络关键词搜索及语义智能分析，能提高舆情分析的及时性、全面性，全面掌握社情民意，提高公共服务能力，应对网络突发的公共事件，打击违法犯罪。在安防与防灾领域，通过大数据的挖掘，可以及时发现人为或自然灾害、恐怖事件，提高应急处理能力和安全防范能力。

　　另外，作为国家的管理者，政府应该有勇气将手中的数据逐步开放，供给更多有能力的机构组织或个人来分析并加以利用，以加速造福人类。比如，美国政府就筹建了一个data.gov网站，这是奥巴马任期内的一个重要举措：要求政府公开透明，而核心就是实现政府机构的数据公开。截止目前，已经开放了有91054 个datasets；349citizen-developed apps；137 mobile apps；175 agencies and subagencies；87 galleries；295 Government APIs。

　　企业的大数据

　　企业的CXO们最关注的还是报表曲线的背后能有怎样的信息，他该做怎样的决策，其实这一切都需要通过数据来传递和支撑。在理想的世界中，大数据是巨大的杠杆，可以改变公司的影响力，带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

　　那么，哪些传统企业最需要大数据服务呢？抛砖引玉，先举几个例子：1) 对大量消费者提供产品或服务的企业（精准营销）；2) 做小而美模式的中长尾企业（服务转型）；3) 面临互联网压力之下必须转型的传统企业（生死存亡）。

　　对于企业的大数据，还有一种预测：随着数据逐渐成为企业的一种资产，数据产业会向传统企业的供应链模式发展，最终形成“数据供应链”。这里尤其有两个明显的现象：1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代，单一企业的内部数据与整个互联网数据比较起来只是沧海一粟；2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

　　对于提供大数据服务的企业来说，他们等待的是合作机会，就像微软史密斯说的：“给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。”

　　然而，一直做企业服务的巨头将优势不在，不得不眼看新兴互联网企业加入战局，开启残酷竞争模式。为何会出现这种局面？从 IT 产业的发展来看，第一代 IT 巨头大多是 ToB 的，比如 IBM、Microsoft、Oracle、SAP、HP这类传统 IT 企业；第二代 IT 巨头大多是ToC 的，比如 Yahoo、Google、Amazon、Facebook 这类互联网企业。大数据到来前，这两类公司彼此之间基本是井水不犯河水；但在当前这个大数据时代，这两类公司已经开始直接竞争。比如 Amazon 已经开始提供云模式的数据仓库服务，直接抢占 IBM、Oracle 的市场。这个现象出现的本质原因是：在互联网巨头的带动下，传统 IT 巨头的客户普遍开始从事电子商务业务，正是由于客户进入了互联网，所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网，他们业务必将萎缩。在进入互联网后，他们又必须将云技术，大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

　　以IBM举例，上一个十年，他们抛弃了PC，成功转向了软件和服务，而这次将远离服务与咨询，更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为，“数据将成为一切行业当中决定胜负的根本因素，最终数据将成为人类至关重要的自然资源。”IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算（StreamComputing）、数据仓库（Data Warehouse）和信息整合与治理（Information Integration and Governance）

　　IBM大数据

　　另外一家亟待通过云和大数据战略而复苏的巨头公司HP也推出了自己的产品：HAVEn，一个可以自由扩展伸缩的大数据解决方案。这个解决方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普运营管理(HP OperationsManagement)四大技术组成。还支持Hadoop这样通用的技术。HAVEn不是一个软件平台，而是一个生态环境。四大组成部分满足不同的应用场景需要，Autonomy解决音视频识别的重要解决方案；Vertica解决数据处理的速度和效率的方案；ArcSight解决机器的记录信息处理，帮助企业获得更高安全级别的管理；运营管理解决的不仅仅是外部数据的处理，而是包括了IT基础设施产生的数据。

　　个人的大数据

　　个人的大数据这个概念很少有人提及，简单来说，就是与个人相关联的各种有价值数据信息被有效采集后，可由本人授权提供第三方进行处理和使用，并获得第三方提供的数据服务。

　　举个例子来说明会更清晰一些：

　　未来，每个用户可以在互联网上注册个人的数据中心，以存储个人的大数据信息。用户可确定哪些个人数据可被采集，并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据，比如，牙齿监控数据，心率数据，体温数据，视力数据，记忆能力，地理位置信息，社会关系数据，运动数据，饮食数据，购物数据等等。用户可以将其中的牙齿监测数据授权给XX牙科诊所使用，由他们监控和使用这些数据，进而为用户制定有效的牙齿防治和维护计划；也可以将个人的运动数据授权提供给某运动健身机构，由他们监测自己的身体运动机能，并有针对的制定和调整个人的运动计划；还可以将个人的消费数据授权给金融理财机构，由他们帮你制定合理的理财计划并对收益进行预测。当然，其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的，比如罪案预防监控中心可以实时的监控本地区每个人的情绪和心理状态，以预防自杀和犯罪的发生。

　　以个人为中心的大数据有这么一些特性：

　　1- 数据仅留存在个人中心，其它第三方机构只被授权使用（数据有一定的使用期限），且必须接受用后即焚的监管。

　　2- 采集个人数据应该明确分类，除了国家立法明确要求接受监控的数据外，其它类型数据都由用户自己决定是否被采集。

　　3- 数据的使用将只能由用户进行授权，数据中心可帮助监控个人数据的整个生命周期。

　　展望过于美好，也许实现个人数据中心将遥遥无期，也许这还不是解决个人数据隐私的最好方法，也许业界对大数据的无限渴求会阻止数据个人中心的实现，但是随着数据越来越多，在缺乏监管之后，必然会有一场激烈的博弈：到底是数据重要还是隐私重要；是以商业为中心还是以个人为中心。

22/2<12

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

车载测试入门

文章资料精选