hive的一些应用收集
上一篇 /
下一篇 2011-12-26 21:54:18
/ 个人分类:hadoop/hive
命令行里运行hivesql或者脚本的几种办法
1. Hive > s_web_log_search.sql
2. Cat s_web_log_search.sql | hvie
3. Hive -e "`cat s_web_log_search.sql`"
4. /home/taobao/hivewrapper/hivewrapper.py s_web_log_search.sql
hive中也可以执行
shell和hadoop命令,只要前面加上!就行,如!echo hello,!hadoop dfs -ls /
hive里的/默认是浮点数的除法,也就是说1/3会等于0.333333333,而0/3=0.0 。这就是刚才帮cc找半天找出来0.0所在的原因,并不是因为开发的#macro出错了。
count会过滤掉为空的记录,比如count(user_id)会过滤掉user_id为空的记录。但sum不会,毫无疑问,因为在sum中1+NULL=1,或许这也是过滤了。
sum(1)和count(1)功能相似,但存在区别,比如对于group by user_id,count(1)只会计算一个user_id的记录条数,而sum(1)会计算所有user_id的记录条数。我觉count(1)用来计算uv比较合适,pv用sum(1)来计算比较好。
收藏
举报
TAG: