Hive中的排序语法

摘要:
ORDERBY配置单元中的ORDERBY语句类似于关系数据库中的sql语法。您可以通过设置mapred.reduce.tasks的值来控制reduce的数量,然后对reduce输出进行两次排序。带有SORTBY DISTRIBUTEBY的DISTRIBUTBY可以控制如何在reduce中分割贴图输出。DISTRIBUTEBY与GROUP BY有些相似。DISTRIBUTYBY控制reduce处理数据的方式,而SORTBY控制reduce中数据的排序方式。示例:hive˃select*from testclusterbyidasc;失败:ParseExceptionline1:33extraneousinput'asc'预期EOFnear''live˃从testclusterbyid中选择*;MapReduceJobsLaunched:Job0:Map:1 reduce:3累计CPU:4.58secHDFSead:305HDFWrite:32SUCCESSTotalMapReduceCPUTimeSpint:4seconds580msecOK3c1c1a4d4d2b2bTimetake:30.646秒,Fed:8行从上面的日志中,我们可以看到三个reduce分别开始排序,并且最终结果不有序。
ORDER BY

hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。

与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。

hive> set hive.mapred.mode=strict;
hive> select * from test order by id;
FAILED: SemanticException 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id'

例子:

hive> set hive.mapred.mode=unstrict;
hive> select * from test order BY id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 1   Cumulative CPU: 1.88 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 880 msec
OK
1   a
1   a
2   b
2   b
3   c
3   c
4   d
4   d
Time taken: 24.609 seconds, Fetched: 8 row(s)

从上面的日志可以看到:启动了一个reduce进行全局排序。

SORT BY

SORT BY不是全局排序,其在数据进入reducer前完成排序,因此在有多个reduce任务情况下,SORT BY只能保证每个reduce的输出有序,而不能保证全局有序。

注意:hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

你可以通过设置mapred.reduce.tasks的值来控制reduce的数,然后对reduce输出的结果做二次排序。

例子:

hive> set mapred.reduce.tasks=3;
hive> select * from test sort BY id ; 
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.48 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 480 msec
OK
1   a
2   b
3   c
4   d
2   b
3   c
4   d
1   a
Time taken: 29.574 seconds, Fetched: 8 row(s)

从上面的日志可以看到:启动了三个reduce分别排序,最后的结果不是有序的。

DISTRIBUTE BY with SORT BY

DISTRIBUTE BY能够控制map的输出在reduce中如何划分。其可以按照指定的字段对数据进行划分到不同的输出reduce/文件中。

DISTRIBUTE BY和GROUP BY有点类似,DISTRIBUTE BY控制reduce如何处理数据,而SORT BY控制reduce中的数据如何排序。

注意:hive要求DISTRIBUTE BY语句出现在SORT BY语句之前。

例子:

hive> select * from test distribute BY id sort by id asc;  
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.24 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 240 msec
OK
3   c
3   c
1   a
1   a
4   d
4   d
2   b
2   b
Time taken: 29.89 seconds, Fetched: 8 row(s)

从上面的日志可以看到:启动了三个reduce分别排序,最后的结果不是有序的。

CLUSTER BY来代替

当DISTRIBUTE BY的字段和SORT BY的字段相同时,可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

注意:CLUSTER BY不能添加desc或者asc。

例子:

hive> select * from test cluster by id asc;              
FAILED: ParseException line 1:33 extraneous input 'asc' expecting EOF near '<EOF>'

hive> select * from test cluster by id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.58 sec   HDFS Read: 305 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 580 msec
OK
3   c
3   c
1   a
1   a
4   d
4   d
2   b
2   b
Time taken: 30.646 seconds, Fetched: 8 row(s)

从上面的日志可以看到:启动了三个reduce分别排序,最后的结果不是有序的。

怎样让最后的结果是有序的呢?

可以这样做:

hive> select a.* from (select * from test cluster by id ) a order by a.id ;
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 3   Cumulative CPU: 4.5 sec   HDFS Read: 305 HDFS Write: 448 SUCCESS
Job 1: Map: 1  Reduce: 1   Cumulative CPU: 1.96 sec   HDFS Read: 1232 HDFS Write: 32 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 460 msec
OK
1   a
1   a
2   b
2   b
3   c
3   c
4   d
4   d
Time taken: 118.261 seconds, Fetched: 8 row(s)
总结
  • ORDER BY是全局排序,但在数据量大的情况下,花费时间会很长
  • SORT BY是将reduce的单个输出进行排序,不能保证全局有序
  • DISTRIBUTE BY可以按指定字段将数据划分到不同的reduce中
  • 当DISTRIBUTE BY的字段和SORT BY的字段相同时,可以用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

免责声明:文章转载自《Hive中的排序语法》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Python中numpy 数组的切片操作extjs学习笔记--ExtJS框架基础:事件模型及其常用功能下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

MySQL排序原理与MySQL5.6案例分析【转】

本文来自:http://www.cnblogs.com/cchust/p/5304594.html,其中对于自己觉得是重点的加了标记,方便自己查阅。更多详细的说明可以看沃趣科技的文章说明。 前言      排序是数据库中的一个基本功能,MySQL也不例外。用户通过Order by语句即能达到将指定的结果集排序的目的,其实不仅仅是Order by语句,Gr...

Mysql数据优化--DBA梳理珍藏篇

1. 优化SQL1)     通过show status了解各种sql的执行频率         show status like 'Com_%'        了解 Com_select,Com_insert 的执行次数 2)    通过Explain分析低效的sql语句 3)    建立合适的索引 4)    通过show status like '...

一些基本的Oracle命令

一些基本的Oracle命令基本命令 连接数据库 C:>SQLPLUS /NOLOG SQL>CONN / AS SYSDBA 1.Oracle 关闭 SQL>SHUTDOWN (ABORT|IMMEDIATE|NORMAL) 2.Oracle 启动 SQL>STARTUP (REMOUNT|MOUNT|OPENT) 3.SQL>...

ORACLE对象大小写问题

在数据库新建一个测试表(数据库版本为ORACLE 10.2.0.1.0),表名为小写的test。 脚本如下所示: CREATE TABLE test(     id      NUMBER(10),     Name    VARCHAR2(20),     Sex     VARCHAR(2))--查找不到对应数据SELECT * FROM USE...

Postgre Sql获取最近一周、一月、一年日期函数

  使用Postgre Sql获取近一周、一年、一月等系统函数调用如下,使用方面相对于Ms Sql server 容易了许多。 --当前时间 select now(); --current_timestamp 同 now() 函数等效 select current_timestamp --近一周 select now() - inte...

使用select实现非阻塞socket | dbafree首页

使用select实现非阻塞socket | dbafree首页 在linux,perl,python上都存在select系统调用。下面这两个python程序,可以用来学习和调试select操作。 参考至:http://blog.chinaunix.net/space.php?uid=199788&do=blog&id=99434 1.服务...