hive函数之~集合统计函数,hive 随机函数

hive函数之~集合统计函数

摘要：

selectpercentilefromtableName；取0.2，0.4位置的数据12、近似中位数函数:percentile_approx语法:percentile_approx返回值:double说明:求近似的第pth个百分位数，p必须介于0和1之间，返回类型为double，但是col字段支持浮点类型。参数B控制内存消耗的近似精度，B越大，结果的准确度越高。

1、个数统计函数: count ***

语法: count(*), count(expr), count(DISTINCT expr[, expr_.])
返回值: int
说明: count(*)统计检索出的行的个数，包括NULL值的行；count(expr)返回指定字段的非空值的个数；count(DISTINCT expr[, expr_.])返回指定字段的不同的非空值的个数

hive> selectcount(*) fromtableName;

20

hive> selectcount(distinctt) fromtableName;

10

2、总和统计函数: sum ***

语法: sum(col), sum(DISTINCT col)
返回值: double
说明: sum(col)统计结果集中col的相加的结果；sum(DISTINCT col)统计结果中col不同值相加的结果

hive> selectsum(t) fromtableName;

100

hive> selectsum(distinctt) fromtableName;

70

3、平均值统计函数: avg ***

语法: avg(col), avg(DISTINCT col)
返回值: double
说明: avg(col)统计结果集中col的平均值；avg(DISTINCT col)统计结果中col不同值相加的平均值

hive> selectavg(t) fromtableName;

50

hive> selectavg(distinctt) fromtableName;

30

4、最小值统计函数: min ***

语法: min(col)
返回值: double
说明: 统计结果集中col字段的最小值

hive> selectmin(t) fromtableName;

20

5、最大值统计函数: max ***

语法: maxcol)
返回值: double
说明: 统计结果集中col字段的最大值

hive> selectmax(t) fromtableName;

120

6、非空集合总体变量函数: var_pop

语法: var_pop(col)
返回值: double
说明: 统计结果集中col非空集合的总体变量（忽略null）

7、非空集合样本变量函数: var_samp

语法: var_samp (col)
返回值: double
说明: 统计结果集中col非空集合的样本变量（忽略null）

8、总体标准偏离函数: stddev_pop

语法: stddev_pop(col)
返回值: double
说明: 该函数计算总体标准偏离，并返回总体变量的平方根，其返回值与VAR_POP函数的平方根相同

9、样本标准偏离函数: stddev_samp

语法: stddev_samp (col)
返回值: double
说明: 该函数计算样本标准偏离

10．中位数函数: percentile

语法: percentile(BIGINT col, p)
返回值: double
说明: 求准确的第pth个百分位数，p必须介于0和1之间，但是col字段目前只支持整数，不支持浮点数类型

11、中位数函数: percentile

语法: percentile(BIGINT col, array(p1 [, p2]…))
返回值: array<double>
说明: 功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array<double>，其中为对应的百分位数。

selectpercentile(score,<0.2,0.4>) fromtableName；取0.2，0.4位置的数据

12、近似中位数函数: percentile_approx

语法: percentile_approx(DOUBLE col, p [, B])
返回值: double
说明: 求近似的第pth个百分位数，p必须介于0和1之间，返回类型为double，但是col字段支持浮点类型。参数B控制内存消耗的近似精度，B越大，结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于B时，结果为准确的百分位数

13、近似中位数函数: percentile_approx

语法: percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])
返回值: array<double>
说明: 功能和上述类似，之后后面可以输入多个百分位数，返回类型也为array<double>，其中为对应的百分位数。

14、直方图: histogram_numeric

语法: histogram_numeric(col, b)
返回值: array<struct {‘x’,‘y’}>
说明: 以b为基准计算col的直方图信息。

hive> selecthistogram_numeric(100,5) fromtableName;

[{"x":100.0,"y":1.0}]

免责声明：文章转载自《hive函数之~集合统计函数》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

hive函数之~集合统计函数

1、个数统计函数: count ***

2、总和统计函数: sum ***

3、平均值统计函数: avg ***

4、最小值统计函数: min ***

5、最大值统计函数: max ***

6、非空集合总体变量函数: var_pop

7、非空集合样本变量函数: var_samp

8、总体标准偏离函数: stddev_pop

9、样本标准偏离函数: stddev_samp

10．中位数函数: percentile

11、中位数函数: percentile

12、近似中位数函数: percentile_approx

13、近似中位数函数: percentile_approx

14、直方图: histogram_numeric

相关文章

Windows环境下安装Hadoop+Hive的使用案例

通过hive自定义函数直接回写数据到数据库

大数据自学3-Windows客户端DbVisualizer/SQuirreL配置连接hive

SQLSERVER2008 解析JSON函数

Oracle数据库的函数，存储过程，程序包，游标，触发器

SQLSERVER 建立全文检索

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表