spark sql 优化心得

摘要:
本篇文章主要记录最近在使用sparksql时遇到的问题已经使用心得。

本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得。

1 spark 2.0.1 中,启动thriftserver 或者是spark-sql时,如果希望spark-sql run on hdfs,那样需要增加参数 "--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse"

例如启动thriftserver:

bin/start-thriftserver.sh --master spark://HOSTNAME:7077 --conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse --driver-memory 2g --executor-memory 35g

说明

spark.sql.warehouse.dir 这个参数如果不指定,spark sql 会自动在SPARK_HOME 建立一个 spark-warehouse 目录,里面保存对应的数据

driver-memory 参数为执行的app 所能使用的内存大小

executor-memory 参数设置当前任务将占用spark 集群中每个worker的内存

CORE 不指定的话,默认使用每个worker 所有的CPU 数目

2 如果spark sql 是run on hdfs,则用户在beeline中向其他的表写入数据时,会发生hfds权限异常错误

解决方式是对hdfs 的权限设置进行关闭,在hadoop 2.7.3 版本中,关闭hdfs权限检查的参数为

hdfs-site.xml

     <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
     </property>

3 spark sql 使用parquet 压缩方式,直接在beeline 执行类似sql 命令

CREATE TABLEparquetTable 
      (name string)
      USING org.apache.spark.sql.parquet
      OPTIONS (
         path "examples/src/main/resources/users.parquet"
      );

或者

   CREATE TABLEparquetTable 
      (name string)
      USING org.apache.spark.sql.parquet;

另外

如果使用sbin/stop-all.sh 命令,集群中还有一些Worker或者是Master 进程无法退出,一般是环境混乱了导致,kill -15 PID 即可

还有一种情况,如果用户在sbin/start-all.sh 后,发现spark 集群中莫名其妙多了几个Worker 或者 Master 进程,同理也是环境混乱了导致,用户只要 kill -15 PID 即可

彻底解决这种情况,用户应该首先对spark 集群进行停机

sbin/stop-all.sh

然后对没法停止的spark 进程进行kill -15 命令杀掉

最后用户需要手工删除集群中 /tmp/spark* 所有文件,保证环境干净。

免责声明:文章转载自《spark sql 优化心得》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇springboot启动报错BN层下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Windows环境下安装Hadoop+Hive的使用案例

 正文前先来一波福利推荐: 福利一: 百万年薪架构师视频,该视频可以学到很多东西,是本人花钱买的VIP课程,学习消化了一年,为了支持一下女朋友公众号也方便大家学习,共享给大家。 福利二: 毕业答辩以及工作上各种答辩,平时积累了不少精品PPT,现在共享给大家,大大小小加起来有几千套,总有适合你的一款,很多是网上是下载不到。 获取方式: 微信关注 精品3分钟...

MySQL优化实例

一、explain explain select * from t_order   执行后会打印type:all type有 all(全表扫描) index(索引全扫描) range(索引范围扫描) ref(非唯一索引扫描或唯一索引的前缀扫描) eq_ref(唯一索引扫描) const,system(主键或唯一索引unique index查询) nul...

更换Mariadb库为mysql 5.7

https://www.cnblogs.com/get-rich/articles/10623208.html entOS 7 版本将MySQL数据库软件从默认的程序列表中移除,用MariaDB代替了,MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可。开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将M...

慢查询日志(mysql)

参考 针对mysql的优化,mysql提供了慢查询日志的支持。mysql的慢查询是mysql提供的一种日志记录,它用来记录mysql中响应时间超过阀值的sql语句,某个sql运行时间如果超过设置的阀值(long_query_time),就会被记录到慢查询日志中。阀值默认值是10s,默认情况下,mysql数据库并不会启动慢查询日志,需要手动来设置这个参数(s...

Spark On Yarn:提交Spark应用程序到Yarn

转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用...

肝了它!Oracle SQL性能优化技巧大总结

Oracle SQL性能优化技巧大总结 (1) 选择最有效率的表名顺序(只在基于规则的优化器中有效):Oracle的解 析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。假如有3个以上的表连接查询, 那就需要...