hive中count和sum的区别

上一篇 / 下一篇  2011-10-23 20:31:37 / 个人分类:hadoop/hive

这个周末过得很悲催啊,博客还没想好怎么写呢,就把前两天遇到的countsum的区别说一下:
首先,sum是对一个字段进行求和,hive中字段的类型一般是string或者int,如果是int当然没问题,如果是string类型但是全部是数字也没问题,如果包含一个字母sum出来将会是0.
假如有这样一张简单的表
user_id stringshop_id string
1234hello
12341234
那么sum(user_id)的结果是2468,sum(shop_id)的结果是0.如果没有符合条件的记录,sum的返回值将是null,如sum(case when user_id<1000 then shop_id end)返回值将是null。但某些时候我没希望sum的结果如果没有符合条件的记录就返回0怎么办呢,可以用coalesce(shop_id,0)解决这个问题。
count是对数据记录的条数进行统计,有一条符合的记录就是1,没有就是0.


前几天遇到这样一条sql语句,sum(case when substr(gmt_receive_pay,0,13)='$cur_date $env.last_hour' then t2.total_fee end) as hour_alipay_fee,

我知道这条语句当没有符合条件的记录时计算出来结果是null,但是我没有意识到这是一个bug,我们要的结果应该是0。检讨一下。


TAG: hive MySQL mysql count sum

 

评分:0

我来说两句

日历

« 2024-04-16  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 36421
  • 日志数: 15
  • 建立时间: 2011-09-30
  • 更新时间: 2012-03-27

RSS订阅

Open Toolbar