什么是大数据?大数据用来干嘛?

发表于:2018-7-24 14:01

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:有梦想的鲨鱼    来源:CSDN

  1、何为大数据
  大数据是指很多很多的数据,主要源于web2.0之后,数据库中的数据量累计起来很庞大,在对数据进行操作(主要指查询)会变得很慢,对机器的性能要求会很高,如果数据量达到足够大(如十几亿),那服务器会崩溃的
  2、大数据解决什么问题?
  大数据解决对海量数据的存储、查询、分析计算等操作,主要应用在利用庞大的数据归类分析用户的偏好,利用用户的历史信息得出相应的统计账单等,将同行业的大公司的数据进行计算分析,可以挖掘出一些隐含价值。
  3、学习大数据的基础
  1)java SE,EE(SSM)
  因为90%的大数据框架都是java写的
  2)SQL
  特别是sql语句中的查询语句,因为对数据库的操作最多的是查询
  使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要
  3)Linux
  大数据的框架安装在Linux操作系统上
  4、需要学什么
  *第一方面:大数据离线分析*
  一般处理T+1数据(T是指日、周、月、年),处理历史数据
  模块1:Hadoop
  包括四大块(common、yarn、MapReduce、HDFS)
  主要掌握环境搭建、处理数据的思想
  模块2:Hive
  大数据数据仓库
  通过写SQL对数据进行操作,类似于mysql数据库中的sql
  模块3:HBase
  基于HDFS的NOSQL数据库
  面向列的存储
  协作框架:
  sqoop(桥梁:HDFS 《==》RDBMS)
  flume:收集日志文件中信息
  调度框架anzkaban,
  了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
  扩展前沿框架:kylin、impala、ElasticSearch(ES)
  第二方面:大数据离线分析
  以spark框架为主
  Scala:OOP + FP
  sparkCore:类比MapReduce
  sparkSQL:类比hive
  sparkStreaming:实时数据处理
  kafka:消息队列
  前沿框架扩展:flink
  阿里巴巴 blink
  第三方面:大数据机器学习(扩展)
  spark MLlib:机器学习库
  pyspark编程:Python和spark的结合
  推荐系统
  python数据分析
  Python机器学习
  大数据框架安装功能来划分
  1、海量数据存储:
  HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES
  2、海量数据分析:
  MapReduce、Spark、SQL
  最原始的Hadoop框架
  数据存储:HDFS(Hadoop Distributed File System)
  数据分析:MapReduce
  Hadoop的起源
  Google的三篇论文
  虽然Google没有公布这三个产品的源码,
  但是他发布了这三个产品的详细设计论文,
  奠定了风靡全球的大数据算法的基础!
  Hadoop介绍
  大数据绝大多数框架,都属于Apache顶级项目
  http://apache.org/
  hadoop官网:
  http://hadoop.apache.org/
  分布式
  相对于【集中式】
  需要多台机器,进行协助完成。
  
  Hadoop也是分布式架构
  HDFS:
  主节点:NameNode
  决定着数据存储到那个DataNode上
  从节点:DataNode
  存储数据
   

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系博为峰小编(021-64471599-8017),我们将立即处理。
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号