今天,大数据已无所不在,并且正被越来越广泛的被应用到历史、政治、科学、经济、商业甚至渗透到我们生活的方方面面中,获取的渠道也越来越便利。通过 本系列的前面几篇文章 ,我们已经了解了数据可视化的必要性,而目前市面上也已经具备了非常多成熟的...
安装JDK 安装JDK,安装成功后在终端中输入 java -version ,显示如下 java version "1.7.0_51" Java(TM) SE Runtime Environment (build 1.7.0_51-b13) Java HotSpot(TM) 64-Bit Server VM (build 24.51-b03, mixed mode) 安装Hadoop ...
实验目的 1、理解Hive在Hadoop体系结构中的角色。 2、熟悉Hive的DDL命令与DML操作。 3、区分数据仓库和数据库的概念。 实验平台 · 操作系统:Ubuntu-16.04 · Hadoop版本:2.6.0 · JDK版本:1.8 · IDE:Eclipse...
MapReduce的流程分为11个步骤,4个实体 1、客户端:编写MapReduce的代码,配置作业,提交作业 2、JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行 3、TaskTracker:保持JobTracker的通信,在分配的数据段上执行Map...
HRegion 当一张表中的数据特别多的时候,HBase把表拆成多个块,每个块就是一个HRegion,每个region中包含这个表里的所有行 HRegionServer 数据库的数据存在HDFS文件系统中,用户通过HRegionServer来获取数据,一台机器上一般只能运行一个HReg...
环境 一台ubuntu 14.04虚拟机。 Hadoop版本:2.6.0。 增加用户 为了隔离Hadoop和其它软件,可以新建一个用户hduser和用户组hadoop来专门运行Hadoop: sudo addgroup hadoop sudo adduser --ingroup hadoop hduser 配置SSH免秘钥登...
一、回收站简介: 在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。 可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。...
简介与环境准备 hadoop的核心是分布式文件系统HDFS以及批处理计算MapReduce。近年,随着大数据、云计算、物联网的兴起,也极大的吸引了我的兴趣,看了网上很多文章,感觉还是云里雾里,很多不必要的配置都在入门教程出现。通过思考总结与相关教程,...
大数据的定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据是一个笼统的概念暂未发现和...
由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。 VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面...
Log是关系数据库对计算机行业的伟大贡献。在大数据时代,Log更是基础技术之一。然而在大家热烈讨论GFS, NoSQL,乃至Paxos, LSM tree等词语的时候,Log这个基础技术以及它对大数据行业的巨大贡献却一直以来都被业界所忽略。除了Kafka作者之一Jay Kreps...
在开始之前我们应该先准备数据方便演示,这里我插入的了几条数据,数据如下:db.user.insertMany([{name:'jack',age:22,sex:'Man',tags:['python','c++','c'],grades:[22,33,44,55],school:{name:'shida',city:'xuzhou'}},{name:'jhon',age:33,sex:nul...
一、RPC概述 RPC是指远程过程调用,也就是说两台不同的服务器(不受操作系统限制),一个应用部署在Linux-A上,一个应用部署在Windows-B或Linux-B上,若A想要调用B上的某个方法method(),由于不在一个内存空间,不能直接调用,需要通过网络来表达调...
core-site.xml<property> //指定hdfs的主端口 namenode要放在哪台机器上<name>fs.defaultFS</name><value>hdfs://hadoop001:9000</value> //主机名+端口号</property><property> //临时变量目录 data name seco...
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。
集群如下: 192.168.188.111 master 192.168.188.112 slave1 192.168.188.113 slave2 一、环境配置 1.修改hosts和hostname 以master为例: 修改hosts [root@master ~]# vim /etc/hosts 192.168.188.111 master 192.168....
最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑。为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜 数据倾斜是指Spark中的RDD在计算的时候,每个RDD内部的分区包含的数据不平均。比如一共有5个分区...
HDFS原理 首先说明下,hadoop的各种搭建方式不再介绍,相信各位玩hadoop的同学随便都能搭出来。 楼主的环境: · 操作系统:Ubuntu 15.10 · hadoop版本:2.7.3 · HA:否(随便搭了个伪分布式) 文件上传 下图描述了C...
和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求的可扩展性方面单机没...
问题描述:一进程刚获得三个主存块的使用权,若该进程访问页面的次序是1,2,3,4,1,2,5,1,2,3,4,5。当采用LRU算法时,发生的缺页次数是多少? Hint:LRU(Least Recently Used)意思是近期最少使用。 这个算法常用于页面置换算法中。当我们...