hive的一些应用收集

上一篇 / 下一篇  2011-12-26 21:54:18 / 个人分类:hadoop/hive

命令行里运行hivesql或者脚本的几种办法
1. Hive > s_web_log_search.sql
2. Cat s_web_log_search.sql | hvie
3. Hive -e "`cat s_web_log_search.sql`"
4. /home/taobao/hivewrapper/hivewrapper.py s_web_log_search.sql

hive中也可以执行shell和hadoop命令,只要前面加上!就行,如!echo hello,!hadoop dfs -ls /
hive里的/默认是浮点数的除法,也就是说1/3会等于0.333333333,而0/3=0.0 。这就是刚才帮cc找半天找出来0.0所在的原因,并不是因为开发的#macro出错了。
count会过滤掉为空的记录,比如count(user_id)会过滤掉user_id为空的记录。但sum不会,毫无疑问,因为在sum中1+NULL=1,或许这也是过滤了。
sum(1)和count(1)功能相似,但存在区别,比如对于group by user_id,count(1)只会计算一个user_id的记录条数,而sum(1)会计算所有user_id的记录条数。我觉count(1)用来计算uv比较合适,pv用sum(1)来计算比较好。

TAG:

 

评分:0

我来说两句

日历

« 2024-04-27  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 36468
  • 日志数: 15
  • 建立时间: 2011-09-30
  • 更新时间: 2012-03-27

RSS订阅

Open Toolbar