spark sql 优化心得,spark sql入门与实践指南

spark sql 优化心得

摘要：

本篇文章主要记录最近在使用sparksql时遇到的问题已经使用心得。

本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得。

1 spark 2.0.1 中，启动thriftserver 或者是spark-sql时，如果希望spark-sql run on hdfs，那样需要增加参数 "--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse"

例如启动thriftserver:

bin/start-thriftserver.sh --master spark://HOSTNAME:7077 --conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse --driver-memory 2g --executor-memory 35g

说明

spark.sql.warehouse.dir 这个参数如果不指定，spark sql 会自动在SPARK_HOME 建立一个 spark-warehouse 目录，里面保存对应的数据

driver-memory 参数为执行的app 所能使用的内存大小

executor-memory 参数设置当前任务将占用spark 集群中每个worker的内存

CORE 不指定的话，默认使用每个worker 所有的CPU 数目

2 如果spark sql 是run on hdfs，则用户在beeline中向其他的表写入数据时，会发生hfds权限异常错误

解决方式是对hdfs 的权限设置进行关闭，在hadoop 2.7.3 版本中，关闭hdfs权限检查的参数为

hdfs-site.xml

     <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
     </property>

3 spark sql 使用parquet 压缩方式，直接在beeline 执行类似sql 命令

CREATE TABLEparquetTable 
      (name string)
      USING org.apache.spark.sql.parquet
      OPTIONS (
         path "examples/src/main/resources/users.parquet"
      );

或者

   CREATE TABLEparquetTable 
      (name string)
      USING org.apache.spark.sql.parquet;

另外

如果使用sbin/stop-all.sh 命令，集群中还有一些Worker或者是Master 进程无法退出，一般是环境混乱了导致，kill -15 PID 即可

还有一种情况，如果用户在sbin/start-all.sh 后，发现spark 集群中莫名其妙多了几个Worker 或者 Master 进程，同理也是环境混乱了导致，用户只要 kill -15 PID 即可

彻底解决这种情况，用户应该首先对spark 集群进行停机

sbin/stop-all.sh

然后对没法停止的spark 进程进行kill -15 命令杀掉

最后用户需要手工删除集群中 /tmp/spark* 所有文件，保证环境干净。

免责声明：文章转载自《spark sql 优化心得》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

Windows环境下安装Hadoop+Hive的使用案例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二：毕业答辩以及工作上各种答辩，平时积累了不少精品PPT，现在共享给大家，大大小小加起来有几千套，总有适合你的一款，很多是网上是下载不到。获取方式：微信关注精品3分钟...

MySQL优化实例

一、explain explain select * from t_order 执行后会打印type:all type有 all(全表扫描) index(索引全扫描) range(索引范围扫描) ref(非唯一索引扫描或唯一索引的前缀扫描) eq_ref(唯一索引扫描) const,system(主键或唯一索引unique index查询) nul...

更换Mariadb库为mysql 5.7

https://www.cnblogs.com/get-rich/articles/10623208.html entOS 7 版本将MySQL数据库软件从默认的程序列表中移除，用MariaDB代替了，MariaDB数据库管理系统是MySQL的一个分支，主要由开源社区在维护，采用GPL授权许可。开发这个分支的原因之一是：甲骨文公司收购了MySQL后，有将M...

慢查询日志(mysql)

参考针对mysql的优化，mysql提供了慢查询日志的支持。mysql的慢查询是mysql提供的一种日志记录，它用来记录mysql中响应时间超过阀值的sql语句，某个sql运行时间如果超过设置的阀值（long_query_time），就会被记录到慢查询日志中。阀值默认值是10s，默认情况下，mysql数据库并不会启动慢查询日志，需要手动来设置这个参数（s...

Spark On Yarn：提交Spark应用程序到Yarn

转载自：http://lxw1234.com/archives/2015/07/416.htm 关键字：Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client Spark On Yarn模式配置非常简单，只需要下载编译好的Spark安装包，在一台带有Hadoop Yarn客户端的机器上解压，简单配置之后即可使用...

肝了它！Oracle SQL性能优化技巧大总结

Oracle SQL性能优化技巧大总结（1）选择最有效率的表名顺序(只在基于规则的优化器中有效)：Oracle的解析器按照从右到左的顺序处理FROM子句中的表名，FROM子句中写在最后的表(基础表 driving table)将被最先处理，在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。假如有3个以上的表连接查询, 那就需要...

spark sql 优化心得

相关文章

Windows环境下安装Hadoop+Hive的使用案例

MySQL优化实例

更换Mariadb库为mysql 5.7

慢查询日志(mysql)

Spark On Yarn：提交Spark应用程序到Yarn

肝了它！Oracle SQL性能优化技巧大总结

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表