hive函数之~集合统计函数

摘要:
selectpercentilefromtableName;取0.2,0.4位置的数据12、近似中位数函数:percentile_approx语法:percentile_approx返回值:double说明:求近似的第pth个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。参数B控制内存消耗的近似精度,B越大,结果的准确度越高。

1、个数统计函数: count ***

语法: count(*), count(expr), count(DISTINCT expr[, expr_.])
返回值: int
说明: count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;count(DISTINCT expr[, expr_.])返回指定字段的不同的非空值的个数

hive> selectcount(*) fromtableName;

20

hive> selectcount(distinctt) fromtableName;

10

2、总和统计函数: sum ***

语法: sum(col), sum(DISTINCT col)
返回值: double
说明: sum(col)统计结果集中col的相加的结果;sum(DISTINCT col)统计结果中col不同值相加的结果

hive> selectsum(t) fromtableName;

100

hive> selectsum(distinctt) fromtableName;

70

3、平均值统计函数: avg ***

语法: avg(col), avg(DISTINCT col)
返回值: double
说明: avg(col)统计结果集中col的平均值;avg(DISTINCT col)统计结果中col不同值相加的平均值

hive> selectavg(t) fromtableName;

50

hive> selectavg(distinctt) fromtableName;

30

4、最小值统计函数: min ***

语法: min(col)
返回值: double
说明: 统计结果集中col字段的最小值

hive> selectmin(t) fromtableName;

20

5、最大值统计函数: max ***

语法: maxcol)
返回值: double
说明: 统计结果集中col字段的最大值

hive> selectmax(t) fromtableName;

120

6、非空集合总体变量函数: var_pop

语法: var_pop(col)
返回值: double
说明: 统计结果集中col非空集合的总体变量(忽略null)

7、非空集合样本变量函数: var_samp

语法: var_samp (col)
返回值: double
说明: 统计结果集中col非空集合的样本变量(忽略null)

8、总体标准偏离函数: stddev_pop

语法: stddev_pop(col)
返回值: double
说明: 该函数计算总体标准偏离,并返回总体变量的平方根,其返回值与VAR_POP函数的平方根相同

9、样本标准偏离函数: stddev_samp

语法: stddev_samp (col)
返回值: double
说明: 该函数计算样本标准偏离

10.中位数函数: percentile

语法: percentile(BIGINT col, p)
返回值: double
说明: 求准确的第pth个百分位数,p必须介于0和1之间,但是col字段目前只支持整数,不支持浮点数类型

11、中位数函数: percentile

语法: percentile(BIGINT col, array(p1 [, p2]…))
返回值: array<double>
说明: 功能和上述类似,之后后面可以输入多个百分位数,返回类型也为array<double>,其中为对应的百分位数。

selectpercentile(score,&lt;0.2,0.4>) fromtableName; 取0.2,0.4位置的数据

12、近似中位数函数: percentile_approx

语法: percentile_approx(DOUBLE col, p [, B])
返回值: double
说明: 求近似的第pth个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。参数B控制内存消耗的近似精度,B越大,结果的准确度越高。默认为10,000。当col字段中的distinct值的个数小于B时,结果为准确的百分位数

13、近似中位数函数: percentile_approx

语法: percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])
返回值: array<double>
说明: 功能和上述类似,之后后面可以输入多个百分位数,返回类型也为array<double>,其中为对应的百分位数。

14、直方图: histogram_numeric

语法: histogram_numeric(col, b)
返回值: array<struct {‘x’,‘y’}>
说明: 以b为基准计算col的直方图信息。

hive> selecthistogram_numeric(100,5) fromtableName;

[{"x":100.0,"y":1.0}]

免责声明:文章转载自《hive函数之~集合统计函数》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇5大移动应用加固平台评测鼠标右键新建 Typora 文件下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Windows环境下安装Hadoop+Hive的使用案例

 正文前先来一波福利推荐: 福利一: 百万年薪架构师视频,该视频可以学到很多东西,是本人花钱买的VIP课程,学习消化了一年,为了支持一下女朋友公众号也方便大家学习,共享给大家。 福利二: 毕业答辩以及工作上各种答辩,平时积累了不少精品PPT,现在共享给大家,大大小小加起来有几千套,总有适合你的一款,很多是网上是下载不到。 获取方式: 微信关注 精品3分钟...

通过hive自定义函数直接回写数据到数据库

hive一般用来执行离线统计分析相关的功能,然后将执行的结果导入到数据库的表中供前端报表可视化展现来查询。 导回数据库的方式有许多,sqoop、hive jdbc、mr jdbc等等,但是这几种方式都会有一个二次处理环节(数据需要人工)。 这次介绍另外一种处理方式,直接将对数据库的操作集成在udf中,这样直接写一个hql查询语句就可以了。 代码如下: pa...

大数据自学3-Windows客户端DbVisualizer/SQuirreL配置连接hive

前面已经学习了将数据从Sql Server导入到Hive DB,并在Hue的Web界面可以查询,接下来是配置客户端工具直接连Hive数据库,常用的有DbVisualizer、SQuirreL SQL Client、DataGrip,只试用了前面两种,花了1天多时间最终实现了用这两款工具连Hive,还是挺有成就感的。 先把环境说明下,有些问题跟环境版本是非常...

SQLSERVER2008 解析JSON函数

解析JSON的sql函数脚本文件下载地址:https://files.cnblogs.com/files/YoungHeart/parseJSON.rar 使用场景:1,接口输入比较复杂时可使用json传输,相比逗号隔开数据值的意义更明确,避免输入参数过多,这个只需要一个json字符串参数。                  2,在一下配置场景可使用jso...

Oracle数据库的函数,存储过程,程序包,游标,触发器

Oracle自定义函数 函数的主要特性是它必须返回一个值。创建函数时通过 RETURN 子句指定函数返回值的数据类型。函数的一些限制:● 函数只能带有 IN 参数,不能带有 IN OUT 或 OUT 参数。● 形式参数必须只使用数据库类型,不能使用 PL/SQL 类型。● 函数的返回类型必须是数据库类型 Create function 函数名称 retur...

SQLSERVER 建立全文检索

--创建测试表 --DROPTABLEFullTextIndexing CREATETABLEFullTextIndexing ( IDINTIDENTITY(1,1)NOTNULL, SentenceVARCHAR(MAX) ) --创建聚集索引 ALTERTABLEFullTextIndexingADDCONSTRAINTPK_Full...