hive中行转换成列以及hive相关知识,hive 行转列和列转行的方法

hive中行转换成列以及hive相关知识

摘要：

此外，您还可以提供一些提示信息来启发JOIN操作，JOIN操作指定将哪个表用作大型表进行优化。例如：1SELECT/*+STREAMTABLE*/a。val，b.val，c ValFROMaJOINbONJOINcON在上面的JOIN语句中，表a被视为一个大表，然后表b和c将首先进行JOIN，然后结果将与表a进行JOIN。hive优化groupby data skew JOIN data skew multiple job In parallel减少作业python代码#！

Hive语句：
Join应该把大表放到最后
左连接时，左表中出现的JOIN字段都保留，右表没有连接上的都为空。对于带WHERE条件的JOIN语句，例如：
1
SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
2
WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'
执行顺序是，首先完成2表JOIN，然后再通过WHERE条件进行过滤，这样在JOIN过程中可能会输出大量结果，再对这些结果进行过滤，比较耗时。可以进行优化，将WHERE条件放在ON后，例如：
1
SELECT a.val, b.val FROM a LEFT OUTER JOIN b
2
ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')

这个JOIN语句，会生成一个MR Job，在选择JOIN顺序的时候，数据量相比应该是b < c，表a和b基于a.key = b.key1进行连接，得到的结果（基于a和b进行连接的Key）会在Reducer上缓存在buffer中，在与c进行连接时，从buffer中读取Key（a.key=b.key1）来与表c的c.key进行连接。
另外，也可以通过给出一些Hint信息来启发JOIN操作，这指定了将哪个表作为大表，从而得到优化。例如：
1
SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)
上述JOIN语句中，a表被视为大表，则首先会对表b和c进行JOIN，然后再将得到的结果与表a进行JOIN。

hive优化

group by 数据倾斜

join数据倾斜

多个job并行（union all）

减少job个数

python代码

#!/bin/bash
import sys;

if __name__=='__main__':
for line in sys.stdin:
　　m=line.strip().split(' ')
　　print m[0],' ','huaxue',' ',m[1]
　　print m[0],' ','shuxue',' ',m[2]
　　print m[0],' ','wuli',' ',m[3]

select transform(name,huaxue,shuxue,wuli) using 'python process.py' as (name,leibie,score) from wxl_t3;

免责声明：文章转载自《hive中行转换成列以及hive相关知识》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

hive中行转换成列以及hive相关知识

相关文章

Hive的web端配置——HWI

hive QL 插入语法

通过hive自定义函数直接回写数据到数据库

【原创】大数据基础之Benchmark（4）TPC-DS测试结果（hive/hive on spark/spark sql/impala/presto）

【转】cloudera新增用户权限配置

大数据自学3-Windows客户端DbVisualizer/SQuirreL配置连接hive

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表