Spark 0.8 集群(CentOS6.4)-简单统计测试

发表于:2014-1-26 11:18

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:独立日    来源:51Testing软件测试网采编

  环境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3
  1. 安装、部署集群环境
  参考前章《安装Spark 0.8集群(CentOS6.4) - 大数据之内存计算》
  2. 测试描述
  使用在线测试数据生工具,动态生成如下json数据(名称DATA[1-9].json):
  {"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},
  {"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},
  …
  可以数据可以先生成100M左右,然后通过linux cp / cat工具进行数据复制、合并,产生不同大小数据,方便测试。
  测试任务:
  对所有*.json数据的ip地址进行简单统计,包括:ip地址总数统计,“241.*”ip地址段总数统计。将其上传到HDFS集群上
  2.1启动 Spark 集群
  在master上执行
$>cd ~/spark-0.8.0
$>bin/start-all.sh
  检测进程是否启动
$> jps
11055 Jps
2313 SecondaryNameNode
2409 JobTracker
2152 NameNode
4822 Master
  浏览master的web UI(默认http://localhost:8080). 这是你应该可以看到所有的word节点,以及他们的CPU个数和内存等信息。
  2.2运行spark-shell从HDFS读取文件并统计IP地址
// set the master node of spark cluster and runspark-shell
$> MASTER=spark://centos01:7077./spark-shell
// read the json data
$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")
// filter the json data
$>val ips = file.filter(line => line.contains("ip_address"))
// Count all the IP
$>ips.count()
// Count all the“241.*”IP
$>ips.filter(line => line.contains("241.")).count()
$>ips.filter(line => line.contains("241.")).collect()
  2.3 运行结果
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号