大数据学习笔记

您的位置：
门户
>> 文章精选
>> 业务知识
>> 查看资讯

发表于：2015-11-02 10:44

作者：顾翔来源：51Testing软件测试网原创

　　13、操作方法

　　13.1 SOA模型

　　我们需要的是以数据为中心的SOA还是以SOA为中心的数据？答案取决于如何处理的SOA-数据关系的三个不同模型来管理大数据、云数据和数据层次结构。在越来越多的虚拟资源中，将这些模型之间所有类型的数据进行最优拟合是SOA所面临的巨大挑战之一。这里介绍每个SOA模型管理数据的优点、选择和选项。

　　SOA的三个数据中心模型分别是

　　数据即服务(DaaS)模型：DaaS数据存取的模型描述了数据是如何提供给SOA组件的。

　　物理层次结构模型：物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。

　　架构组件模型：描述了数据、数据管理服务和SOA组件之间的关系。

　　13.2 SOA和数据企业的例子

　　也许以极限情况为开始是理解SOA数据问题的最好方式：一个企业的数据需求完全可以由关系数据库管理系统(RDBMS)中的条款来表示。这样一个企业可能会直接采用数据库设备或者将专用的数据库服务器和现有的查询服务连接到SOA组件（查询即服务，或QaaS）上。这种设计理念之前已经被人们所接受。该设计之所以成功是因为它平衡了上述三个模型之间的关系。QaaS服务模型不是机械地连接到存储器上；而是通过一个单一的架构-- RDBMS（关系型数据库管理系统）。数据去重和完整性便于管理单一的架构。

　　通过大数据的例子可以更好地理解为什么这个简单的方法却不能在更大的范围内处理数据。多数的大数据是非关系型的、非交易型的、非结构化的甚至是未更新的数据。由于缺乏数据结构因此将其抽象成一个查询服务并非易事，由于数据有多个来源和形式因此很少按序存储，并且定义基础数据的完整性和去重过程是有一些规则的。当作为大数据引入到SOA的应用程序中时，关键是要定义三种模型中的最后一种模型，SOA数据关系中的架构模型。有两种选择：水平方向和垂直方向。

　　13.3水平集成数据模型中

　　数据收集隐蔽于一套抽象的数据服务器，该服务器有一个或多个接口连接到应用程序上，也提供所有的完整性和数据管理功能。组件虽不能直接访问数据，但作为一种即服务形式，就像他们在简单情况下的企业，其数据的要求是纯粹的RDBMS模型。应用程序组件基本上脱离了RDBMS与大数据之间数据管理的差异。尽管由于上述原因这种方法不能创建简单的RDBMS查询模型，但是它至少复制了我们上面提到的简单的RDBMS模型。

　　13.4垂直集成的数据模型

　　以更多应用程序特定的方式连接到数据服务上，该方式使得客户关系管理、企业资源规划或动态数据认证的应用程序数据很大程度在服务水平上相互分离，这种分离直接涉及到数据基础设施。在某些情况下，这些应用程序或许有可以直接访问存储/数据服务的SOA组件。为了提供更多统一的数据完整性和管理，管理服务器可以作为SOA组件来操作各种数据库系统，以数据库特定的方式执行常见的任务，如去重和完整性检查。这种方法更容易适应于遗留应用和数据结构, 但它在问数据何访方式上会破坏SOA即服务原则，也可能产生数据管理的一致性问题。

　　13.5 SOA和水平数据模型

　　毫无疑问水平模型更符合SOA原则，因为它更彻底地从SOA组件中抽象出了数据服务。不过，为了使其有效，有必要对非关系型数据库进行抽象定义和处理低效率与抽象有关的流程--SOA架构师知道除非小心的避免此类事情否则这将会成为不可逾越的障碍。

　　水平的SOA数据策略已经开始应用于适用大数据的抽象数据。解决这个问题最常见的方法是MapReduce，可以应用于Hadoop形式的云构架。Hadoop以及类似的方法可以分发、管理和访问数据，然后集中查询这一分布式信息的相关结果。实际上，SOA组件应将MapReduce和类似数据分析功能作为一种查询功能应用。

　　13.6效率问题

　　13.7 Hadoop

　　Hadoop旨在通过一个高度可扩展的分布式批量处理系统，对大型数据集进行扫描，以产生其结果。Hadoop项目包括三部分，分别是:

　　Hadoop Distributed File System（HDFS）、

　　HadoopMapReduce编程模型，

　　Hadoop Common。

　　Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性，已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外，您还能够以其他语言编写map和reduce函数，并使用称为Hadoop Streaming（简写为Streaming）的API调用它们。与流数据分析

　　13.8流定义

　　从技术角度而言，流是通过边缘连接的节点图。图中的每个节点都是"运算符"或"适配器"，均能够在某种程度上处理流内的数据。节点可以不包含输入和输出，也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。图形的边缘将这些节点紧密联系在一起，表示在运算符之间移动的数据流。

　　上图一个简单的流图，它可以从文件中读取数据，将数据发送到名为Functor的运算符（此运算符能够以某种编程方式转换所传入的数据），然后将这些数据传入另一个运算符。在此图片中，流数据被传送至Split运算符，而后又将数据传入文件接收器或数据库（具体情况视Split运算符的内部状况而定）。

　　利用Apache Hadoop等开源项目，通过传感器、RFID、社交媒体、呼叫中心记录和其他来源提供的新型数据创造价值。

　　13.9 Streams

　　即，IBM InfoSphere Streams。在IBMInfoSphere Streams（简称Streams）中，数据将会流过有能力操控数据流（每秒钟可能包含数百万个事件）的运算符，然后对这些数据执行动态分析。这项分析可触发大量事件，使企业利用即时的智能实时采取行动，最终改善业务成果。

　　当数据流过这些分析组件后，Streams将提供运算符将数据存储至各个位置，或者如果经过动态分析某些数据被视为毫无价值，则会丢弃这些数据。你可能会认为Streams与复杂事件处理（CEP）系统非相似，不过Streams的设计可扩展性更高，并且支持的数据流量也比其他系统多得多。此外，Streams还具备更高的企业级特性，包括高可用性、丰富的应用程序开发工具包和高级调度。

　　出于这样的目的，许多组织开始启动自己的大数据治理计划。所谓大数据治理，指的是制定策略来协调多个职能部门的目标，从而优化、保护和利用大数据，将其作为一项企业资产。

　　14、治理计划

　　大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题：

　　元数据。大数据治理需要创建可靠的元数据，避免出现窘境，例如，一家企业重复购买了相同的数据集两次，而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。

　　隐私。企业需要严格关注遵守隐私方面的问题，例如利用社交媒体进行数据分析。

　　数据质量。考虑到大数据的庞大数量和超快速度，组织需要确定哪种级别的数据质量属于"足够好"的质量。

　　信息生命周期管理。大数据治理计划需要制定存档策略，确保存储成本不会超出控制。除此之外，组织需要设定保留计划，以便按照法规要求合理处置数据。

　　管理人员。最终，企业需要招募大数据管理员。例如，石油与天然气公司内的勘探开采部门的管理员负责管理地震数据，包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外，社交媒体管理员需要与法律顾问和高级管理人员配合工作，制定有关可接受的信息使用方法的策略。

　　15、相关问题

　　对于大数据的存储问题，以下问题不可忽视：

　　15.1容量问题

　　这里所说的"大容量"通常可达到PB级的数据规模，因此，海量数据存储系统也一定要有相应等级的扩展能力。与此同时，存储系统的扩展一定要简便，可以通过增加模块或磁盘柜来增加容量，甚至不需要停机。在解决容量问题上，不得不提LSI公司的全新Nytro?智能化闪存解决方案，采用Nytro产品，客户可以将数据库事务处理性能提高30倍，并且超过每秒4.0GB的持续吞吐能力，非常适用于大数据分析。

　　15.2延迟问题

　　"大数据"应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多"大数据"应用环境需要较高的IOPS性能，比如HPC高性能计算。此外，服务器虚拟化的普及也导致了对高IOPS的需求，正如它改变了传统IT环境一样。为了迎接这些挑战，各种模式的固态存储设备应运而生，小到简单的在服务器内部做高速缓存，大到全固态介质可扩展存储系统通过高性能闪存存储，自动、智能地对热点数据进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。

　　15.3安全问题

　　某些特殊行业的应用，比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同，而且都是必须遵从的，但是，大数据分析往往需要多类数据相互参考，而在过去并不会有这种数据混合访问的情况，大数据应用催生出一些新的、需要考虑的安全性问题，这就充分体现出利用基于DuraClass? 技术的LSI SandForce®闪存处理器的优势了，实现了企业级闪存性能和可靠性，实现简单、透明的应用加速，既安全又方便。

　　15.4成本问题

　　对于那些正在使用大数据环境的企业来说，成本控制是关键的问题。想控制成本，就意味着我们要让每一台设备都实现更高的"效率"，同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场，而且还可以处理更多的数据类型，这都可以为大数据存储应用带来更多的价值，提升存储效率。在数据量不断增长的环境中，通过减少后端存储的消耗，哪怕只是降低几个百分点，这种锱铢必较的服务器也只有LSI推出的Syncro? MX-B机架服务器启动盘设备都能够获得明显的投资回报，当今，数据中心使用的传统引导驱动器不仅故障率高，而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器，则能将可靠性提升多达100倍。并且对主机系统是透明的，能为每一个附加服务器提供唯一的引导镜像，可简化系统管理，提升可靠性，并且节电率高达60%，真正做到了节省成本的问题。

　　15.5数据的积累

　　许多大数据应用都会涉及到法规遵从问题，这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全，而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间，因为任何数据都是历史记录的一部分，而且数据的分析大都是基于时间段进行的。要实现长期的数据保存，就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。

　　15.6灵活性

　　大数据存储系统的基础设施规模通常都很大，因此必须经过仔细设计，才能保证存储系统的灵活性，使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中，已经没有必要再做数据迁移了，因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用，就很难再调整了，因此它必须能够适应各种不同的应用类型和数据场景。

　　15.7应用感知

　　最早一批使用大数据的用户已经开发出了一些针对应用的定制的基础设施，比如针对政府项目开发的系统，还有大型互联网服务商创造的专用服务器等。在主流存储系统领域，应用感知技术的使用越来越普遍，它也是改善系统效率和性能的重要手段，所以，应用感知技术也应该用在大数据存储环境里。

　　针对小用户

　　依赖大数据的不仅仅是那些特殊的大型用户群体，作为一种商业需求，小型企业未来也一定会应用到大数据。我们看到，有些存储厂商已经在开发一些小型的"大数据"存储系统，主要吸引那些对成本比较敏感的用户。

　　16、发展前景

　　大数据的意义是由人类日益普及的网络行为所伴生的，受到相关部门、企业采集的，蕴含数据生产者真实意图、喜好的，非传统结构和意义的数据。

　　2013年5月10日，阿里巴巴集团董事局主席马云在淘宝十周年晚会上，将卸任阿里集团CEO的职位，并在晚会上做卸任前的演讲，马云说，大家还没搞清PC时代的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。

　　大数据正在改变着产品和生产过程、企业和产业，甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念，管理者应该认识到信息技术的广泛影响和深刻含义，以及怎样利用信息技术来创造有力而持久的竞争优势。无疑，信息技术正在改变着我们习以为常的经营之道，一场关系到企业生死存亡的技术革命已经到来。

　　16.1大数据概念

　　借着大数据时代的热潮，微软公司生产了一款数据驱动的软件，主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看，从微软团队致力于研究开始，可以看他们的目标不仅是为了节约了能源，更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据，捕捉如何杜绝能源浪费。"给我提供一些数据，我就能做一些改变。如果给我提供所有数据，我就能拯救世界。"微软史密斯这样说。而智能建筑正是他的团队专注的事情。

　　随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量，以及监控摄像机或智能电表等设备产生的数据爆增，使数字宇宙的规模在2012到2013两年间翻了一番，达到惊人的2.8ZB。 IDC预计，到2020年，数字宇宙规模将超出预期，达到40ZB。

　　40ZB究竟是个什么样的概念呢？地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年，数字宇宙将每两年翻一番；到2020年，人均数据量将达5,247GB。

　　该报告同时显示，尽管个人和机器每天产生大量数据，使数字宇宙前所未有地不断膨胀，但仅有0.4%的全球数据得到了分析。由此可见，大数据的应用几乎是一块未被开垦的处女地。

　　16.2价值

　　谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好，凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务，并对产品和服务进行针对性地调整和优化，这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

　　大数据时代来临首先由数据丰富度决定的。社交网络兴起，大量的UGC(互联网术语，全称为User Generated Content，即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外，物联网的数据量更大，加上移动互联网能更准确、更快地收集用户信息，比如位置、生活信息等数据。从数据量来说，已进入大数据时代，但硬件明显已跟不上数据发展的脚步。

　　以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据，而提及"大数据"，通常是指解决问题的一种方法，并对其进行分析挖掘，进而从中获得有价值信息，最终衍化出一种新的商业模式。

　　虽然大数据在国内还处于初级阶段，但是商业价值已经显现出来。首先，手中握有数据的公司站在金矿上，基于数据交易即可产生很好的效益；其次，基于数据挖掘会有很多商业模式诞生，定位角度不同，或侧重数据分析。比如帮企业做内部数据挖掘，或侧重优化，帮企业更精准找到用户，降低营销成本，提高企业销售率，增加利润。

　　未来，数据可能成为最大的交易商品。但数据量大并不能算是大数据，大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此，大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样，有数据提供方、管理者、监管者，数据的交叉复用将大数据变成一大产业。据统计，大数据所形成的市场规模在51亿美元左右，而到2017年，此数据预计会上涨到530亿美元。

　　16.3存储

　　随着大数据应用的爆发性增长，它已经衍生出了自己独特的架构，而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的，我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看，这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长，以及分析数据来源的多样化，此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点，他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

　　针对大数据的世界领先品牌存储企业有：IBM、EMC、LSISandForce 、云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等

　　17商业模式

　　国内网络广告投放正从传统的面向群体的营销转向个性化营销，从流量购买转向人群购买。虽然市场大环境不好，但是具备数据挖掘能力的公司却倍受资本青睐。

　　163大数据是一个很好的视角和工具。从资本角度来看，什么样的公司有价值，什么样的公司没有价值，从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力，就可以看出这家公司的核心竞争力。而这几个能力正是资本关注的点。

　　移动互联网与社交网络兴起将大数据带入新的征程，互联网营销将在行为分析的基础上向个性化时代过渡。创业公司应用"大数据"告诉广告商什么是正确的时间，谁是正确的用户，什么是应该发表的正确内容等，这正好切中了广告商的需求。

　　社交网络产生了海量用户以及实时和完整的数据，同时社交网络也记录了用户群体的情绪，通过深入挖掘这些数据来了解用户，然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。

　　实际上，将用户群精准细分，直接找到要找的用户正是社交内容背后数据挖掘所带来的结果。而通过各种算法实现的数据信息交易，正是张文浩为自己的社交数据挖掘公司设计的盈利模式。这家仅仅五六个人的小公司拿到了天使投资。未来的市场将更多地以人为中心，主动迎合用户需求，前提就是要找到这部分人群。

　　在移动互联网领域，公司从开发者角度找到数据挖掘的方向，通过提供免费的技术服务，帮助开发者了解应用状况。

　　18企业应对

　　国内的企业跟美国比较，有一个很重要的特性就是人口基数的区别，中国消费群体所产生的这种数据量，与国外相比不可同日而语。

　　伴随着各种随身设备、物联网和云计算云存储等技术的发展，人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人，不再是网页。数据大爆炸下，怎样挖掘这些数据，也面临着技术与商业的双重挑战。

　　首先，如何将数据信息与产品和人相结合，达到产品或服务优化是大数据商业模式延展上的挑战之一。

　　其次，巧妇难为无米之炊，大数据的关键还是在于谁先拥有数据。

　　从市场角度来看，大数据还面临其他因素的挑战。

　　产业界对于大数据的热情持续升温的同时，资本也敏锐地发现了这一趋势，并开始关注数据挖掘和服务类公司。

　　最早提出"大数据"时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素；而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。

　　"麦肯锡的报告发布后，大数据迅速成为了计算机行业争相传诵的热门概念，也引起了金融界的高度关注。"随着互联网技术的不断发展，数据本身是资产，这一点在业界已经形成共识。"如果说云计算为数据资产提供了保管、访问的场所和渠道，那么如何盘活数据资产，使其为国家治理、企业决策乃至个人生活服务，则是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。"

　　事实上，全球互联网巨头都已意识到了"大数据"时代，数据的重要意义。包括EMC、惠普(微博)、IBM、微软(微博)在内的全球IT 巨头纷纷通过收购"大数据"相关厂商来实现技术整合，亦可见其对"大数据"的重视。

　　"大数据"作为一个较新的概念，目前尚未直接以专有名词被我国政府提出来给予政策支持。不过，在2011年12月8日工信部发布的物联网"十二五"规划上，把信息处理技术作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析，这都是大数据的重要组成部分。而另外3项关键技术创新工程，包括信息感知技术、信息传输技术、信息安全技术，也都与"大数据"密切相关。

　　19投资热点

　　大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息，互联网世界中的人与人交互信息、位置信息等，其数量将远远超越现有企业IT架构和基础设施的承载能力，实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产，使其为国家治理、企业决策乃至个人生活服务，是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。

　　大数据时代网民和消费者的界限正在消弭，企业的疆界变得模糊，数据成为核心的资产，并将深刻影响企业的业务模式，甚至重构其文化和组织。因此，大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判，所有传统的产品公司都只能沦为新型用户平台级公司的附庸，其衰落不是管理能扭转的。

　　因此，大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测，到2020年全球将总共拥有35ZB的数据量，而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场，未来中国大数据产品的潜在市场规模有望达到1.57万亿元，给IT行业开拓了一个新的黄金时代。

　　当前我们还处在大数据时代的前夜，预计今明两年将是大数据市场的培育期，2014年以后大数据产品将会形成业绩。

　　20发展历史

　　1887- 1890

　　美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动，由此在全球范围内引发了数据处理的新纪元。

　　1935-1937

　　美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目，IBM最终赢得竞标，即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说，"要整理如此繁多的职工档案，还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。"

　　1943年

　　一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为"巨人"，为了找出拦截信息中的潜在模式，它以每秒钟5000字符的速度读取纸卡--将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后，帮助盟军成功登陆了诺曼底。

　　1997年

　　美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用"大数据"这一术语来描述20世纪90年代的挑战：超级计算机生成大量的信息--在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流--是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘，甚至远程磁盘的承载能力。"他们称之为"大数据问题。"

　　2002年

　　在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集，组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

　　2004年

　　9/11委员会呼吁反恐机构应统一组建"一个基于网络的信息共享系统"，以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据，沃尔玛自吹已拥有一个容量为460字节的缓存器--比当时互联网上的数据量还要多一倍。

　　2007 - 2008

　　随着社交网络的激增，技术博客和专业人士为"大数据" 概念注入新的生机。"当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代"。《连线》的克里斯·安德森认为当时处于一个"理论终结时代"。一些政府机构和美国的顶尖计算机科学家声称,"应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。"

　　2009年1月

　　印度政府建立印度唯一的身份识别管理局，对12亿人的指纹、照片,和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用，但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

　　2009年5月

　　美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

　　2009年7月

　　应对全球金融危机,联合国秘书长潘基文承诺创建警报系统，抓住"实时数据带给贫穷国家经济危机的影响" 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

　　2011年2月

　　扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个"大数据计算的胜利。"

　　2012年3月

　　美国政府报告要求每个联邦机构都要有一个"大数据"的策略，作为回应，奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可"从经验中进行学习"的"自主式"防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时，不禁惊叹我们已经被自卸卡车倒进了"'数字尘土"中。

　　2012年7月

　　美国国务卿希拉里·克林顿宣布了一个名为"数据2X"的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。"数据不只是测量过程--它能给予我们启发,"她解释说。"一旦人们开始对某个问题实施测量时，就更倾向于采取行动来解决它们，因为没有人愿意排到名单的最低端去。"让大数据开始竞赛吧。

22/2<12

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选