空间管理您的位置: 51Testing软件测试网 » 啄木鸟的个人空间 » 日志

大数据学习小结

上一篇 / 下一篇 2014-07-16 12:10:07 / 个人分类：大数据

维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》
大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

“大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时，大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System （GFS）的发布，大数据不再仅用来描述大量的数据，还涵盖了处理数据的速度。
早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮”

分布式数据库（PaaS）和云存储、虚拟化技术（IaaS）。[

　它们按照进率1024（2的十次方）来计算：
　　1Byte = 8 bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
　　1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术，技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践，实践是大数据的最终价值体现。我将分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”，指的是在
“掌握信息”（Align）的基础上
“获取洞察”（Anticipate），进而
采取行动（Act），优化决策策划能够救业务绩效。除此之外，还需要不断地“学习”（Learn）从每一次业务结果中获得反馈，改善基于信息的决策流程，从而实现“转型”（Transform）。
基于“3A5步”动态路线图，IBM提出了“大数据平台”架构。该平台的四大核心能力包括
Hadoop系统、
流计算（StreamComputing）、
数据仓库（Data Warehouse）和
信息整合与治理（Information Integration and Governance）。

当前用于分析大数据的工具主要有开源与商用两个生态圈。
开源大数据生态圈：
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。
3、NoSQL，membase、MongoDb
商用大数据生态圈：
1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

操作方法：
SOA模型，
Hadoop：Hadoop旨在通过一个高度可扩展的分布式批量处理系统，对大型数据集进行扫描，以产生其结果。Hadoop项目包括三部分，分别是Hadoop Distributed File System（HDFS）、HadoopMapReduce编程模型，以及Hadoop Common。
Streams：，IBM InfoSphere Streams。在IBMInfoSphere Streams（简称Streams）中，数据将会流过有能力操控数据流（每秒钟可能包含数百万个事件）的运算符，然后对这些数据执行动态分析。这项分析可触发大量事件，使企业利用即时的智能实时采取行动，最终改善业务成果。

治理计划
大数据治理计划也需要关注与其他信息治理计划类似的问题。这些计划必须解决以下问题：
元数据。大数据治理需要创建可靠的元数据，避免出现窘境，例如，一家企业重复购买了相同的数据集两次，而原因仅仅是该数据集在两个不同的存储库内使用了不同的名称。
隐私。企业需要严格关注遵守隐私方面的问题，例如利用社交媒体进行数据分析。
数据质量。考虑到大数据的庞大数量和超快速度，组织需要确定哪种级别的数据质量属于“足够好”的质量。
信息生命周期管理。大数据治理计划需要制定存档策略，确保存储成本不会超出控制。除此之外，组织需要设定保留计划，以便按照法规要求合理处置数据。
管理人员。最终，企业需要招募大数据管理员。例如，石油与天然气公司内的勘探开采部门的管理员负责管理地震数据，包括相关元数据在内。这些管理员需要避免组织因不一致的命名规范而付款购买已经拥有的外部数据。除此之外，社交媒体管理员需要与法律顾问和高级管理人员配合工作，制定有关可接受的信息使用方法的策略。

相关问题
对于大数据的存储问题，以下问题不可忽视：
容量问题
延迟问题
成本问题
数据的积累
灵活性
应用感知
针对小用户

第一类是与海量数据的存储和处理相关的公司，包括天泽信息、拓尔思、美亚柏科、恒泰艾普、潜能恒信。
第二类是与数据中心建设与运营维护相关的公司，包括荣之联、天玑科技、银信科技。
第三类是与视频化应用相关的公司，包括视频监控业务为主的海康威视、大华股份、威创股份、华平股份。
第四类是与智能化和人机交互概念相关的公司，关注科大讯飞、用友软件、东方国信等。

针对大数据的世界领先品牌存储企业有：IBM、EMC、LSISandForce 、云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等

大数据分析的五个基本方面
1. Analytic Visualizations（可视化分析）
2. Data Mining Algorithms（数据挖掘算法）
3. Predictive Analytic Capabilities（预测性分析能力）
4. Semantic Engines（语义引擎）
5. Data Quality and Master Data Management（数据质量和数据管理）

工具介绍
数据仓库有
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
数据集市有
QlikView、 Tableau 、 Yonghong Data Mart 等等。
Yonghong Data Mart是基于自有技术研发的一款数据存储、数据处理的软件。针对客户需要处理需求数据的量级不同，IT系统架构的不同和存储系统的不同，提供了两种解决方案供客户选择一种本地模式，一种是MPP模式。当需要处理的数据量级别处于TB级以下，或者采用普通存储结构，或者单机已经足够满足性能需求，建议用户选择本地模式。当面对异构数据库存储系统，需要处理的数量级别在TB级和PB级以上，或者IT系统和存储系统采用分布式，或者需要MPP模式才能满足性能需求，基于分布式架构的并行处理模式更适合客户的需求。
Yonghong Data Mart底层技术：
1. 分布式计算
2. 分布式通信
3. 内存计算
4. 列存储
5. 库内计算
前端展现
用于展现分析的前端开源工具有JasperSoft，Pentaho, Spagobi, Openi, Birt等等。
用于展现分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、国内永洪科技 Yonghong Z-Suite等等。

发展状况
开源大数据
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。
2. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。
一体机数据仓库
IBM PureData(Netezza), OracleExadata, SAP Hana等等。

收藏举报

TAG:

查看全部评论