什么是大数据？大数据用来干嘛？

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> 大数据
>> 查看资讯

什么是大数据？大数据用来干嘛？

发表于：2018-7-24 14:01

字体：大中小 | 上一篇 | 下一篇 | 我要投稿

作者：有梦想的鲨鱼来源：CSDN

大数据

　　1、何为大数据？

　　大数据是指很多很多的数据，主要源于web2.0之后，数据库中的数据量累计起来很庞大，在对数据进行操作（主要指查询）会变得很慢，对机器的性能要求会很高，如果数据量达到足够大（如十几亿），那服务器会崩溃的

　　2、大数据解决什么问题？

　　大数据解决对海量数据的存储、查询、分析计算等操作，主要应用在利用庞大的数据归类分析用户的偏好，利用用户的历史信息得出相应的统计账单等，将同行业的大公司的数据进行计算分析，可以挖掘出一些隐含价值。

　　3、学习大数据的基础

　　1）java SE，EE(SSM)

　　因为90%的大数据框架都是java写的

　　2）SQL

　　特别是sql语句中的查询语句，因为对数据库的操作最多的是查询

　　使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要

　　3）Linux

　　大数据的框架安装在Linux操作系统上

　　4、需要学什么

　　*第一方面：大数据离线分析*

　　一般处理T+1数据（T是指日、周、月、年），处理历史数据

　　模块1：Hadoop

　　包括四大块（common、yarn、MapReduce、HDFS）

　　主要掌握环境搭建、处理数据的思想

　　模块2：Hive

　　大数据数据仓库

　　通过写SQL对数据进行操作，类似于mysql数据库中的sql

　　模块3：HBase

　　基于HDFS的NOSQL数据库

　　面向列的存储

　　协作框架：

　　sqoop（桥梁：HDFS 《==》RDBMS）

　　flume:收集日志文件中信息

　　调度框架anzkaban,

　　了解：crotab（Linux自带）、zeus(Alibaba)、Oozie(cloudera)

　　扩展前沿框架：kylin、impala、ElasticSearch（ES）

　　第二方面：大数据离线分析

　　以spark框架为主

　　Scala：OOP + FP

　　sparkCore:类比MapReduce

　　sparkSQL:类比hive

　　sparkStreaming：实时数据处理

　　kafka:消息队列

　　前沿框架扩展：flink

　　阿里巴巴 blink

　　第三方面：大数据机器学习（扩展）

　　spark MLlib:机器学习库

　　pyspark编程：Python和spark的结合

　　推荐系统

　　python数据分析

　　Python机器学习

　　大数据框架安装功能来划分

　　1、海量数据存储：

　　HDFS、Hive（本质存储数据还是hdfs）、HBASE、ES

　　2、海量数据分析：

　　MapReduce、Spark、SQL

　　最原始的Hadoop框架

　　数据存储：HDFS（Hadoop Distributed File System）

　　数据分析：MapReduce

　　Hadoop的起源

　　Google的三篇论文

　　虽然Google没有公布这三个产品的源码，

　　但是他发布了这三个产品的详细设计论文，

　　奠定了风靡全球的大数据算法的基础！

　　Hadoop介绍

　　大数据绝大多数框架，都属于Apache顶级项目

　　http://apache.org/

　　hadoop官网：

　　http://hadoop.apache.org/

　　分布式

　　相对于【集中式】

　　需要多台机器，进行协助完成。

　　Hadoop也是分布式架构

　　HDFS:

　　主节点：NameNode

　　决定着数据存储到那个DataNode上

　　从节点：DataNode

　　存储数据

上文内容不用于商业目的，如涉及知识产权问题，请权利人联系博为峰小编(021-64471599-8017)，我们将立即处理。

《2023软件测试行业现状调查报告》独家发布~

搜索风云榜

测试技术了解

2023测试行业调查报告

挣点稿费

AI与软件测试

文章资料精选