spark jobserver初探

摘要:
打包成功后,需要使用tar命令解压到需要安装机器的目录下,示例安装的路径是/data1/local/spark-jobserver远程部署命令过程:需要输入root密码。执行命令后,就可以在远程机器的相应目录中看到,示例local.sh配置的位置是/data1/local/spark-jobserver步骤4:启动在/data1/local/spark-jobserver目录下的结构如下:需要查看一下local.conf和settings.sh二个文件的配置是否有问题,没有问题就可以使用server_start.sh启动jobserver启动后会spark-jobserver.pid这个文件,查看里面的内容就是进程的id号。
一)准备工作

在linux安装sbt

curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo
sudo yum install sbt
根据spark版本下载spark-jobserver
https://github.com/spark-jobserver/spark-jobserver/releases
示例下载的版本是0.6.2 https://github.com/spark-jobserver/spark-jobserver/archive/v0.6.2.tar.gz
示例下载的安装位置:/data1/local/wqq/spark-jobserver_bak
二)部署
接下来介绍spark-jobserver
spark-jobserver_bak下目录结构如下:
Image

步骤1:

拷贝config/local.sh.template文件为local.sh,参考命令:cp config/local.sh.template config/local.sh

步骤2:

配置local.sh文件,下面是对文件内容的重要说明。
注意:如果是使用打包命令(server_package.sh)仅仅需要配置spark的相关配置
# Environment and deploy file
# For use with bin/server_deploy, bin/server_package etc.
DEPLOY_HOSTS="10.207.26.250" #使用server_deploy.sh命令部署远程的机器ip或者host,使用server_package.sh命令不用配置
APP_USER=root #部署远程的机器使用用户,使用server_package.sh命令不用配置
APP_GROUP=root#部署远程的机器使用用户所属组,使用server_package.sh命令不用配置
# optional SSH Key to login to deploy server
#SSH_KEY=/path/to/keyfile.pem
INSTALL_DIR=/data1/local/spark-jobserver #远程机器安装路径,使用server_package.sh命令不用配置
LOG_DIR=/data1/local/spark-jobserver/logs #job进程日志位置
PIDFILE=spark-jobserver.pid #job进程的pid文件名称
JOBSERVER_MEMORY=1G #job进程内存大小
#以下是spark的相关配置 start
SPARK_VERSION=1.6.0
MAX_DIRECT_MEMORY=512M
SPARK_HOME=/data1/local/spark-1.6.1-bin-hadoop2.3
SPARK_CONF_DIR=$SPARK_HOME/conf
#spark的相关配置 end
# Only needed for Mesos deploys
SPARK_EXECUTOR_URI=/home/spark/spark-1.6.0.tar.gz
# Only needed for YARN running outside of the cluster
# You will need to COPY these files from your cluster to the remote machine
# Normally these are kept on the cluster in /etc/hadoop/conf
# YARN_CONF_DIR=/pathToRemoteConf/conf
# HADOOP_CONF_DIR=/pathToRemoteConf/conf
#
# Also optional: extra JVM args for spark-submit
# export SPARK_SUBMIT_OPTS+="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5433"
SCALA_VERSION=2.10.4 # or 2.11.6

步骤3:

打包或者远程部署
打包使用bin/server_package.sh local;远程部署使用bin/server_deploy.sh local(注释:如果执行报错,提醒你找不到local.sh文件,你可以根据错误提示信息把local.sh文件拷贝到相应的路径下)
执行命令后,sbt会下载相关jar包,时间较长。
打包命令过程:
Image
上图中的红色圈出的路径就是打包放置的路径。打包成功后,需要使用tar命令解压到需要安装机器的目录下,示例安装的路径是/data1/local/spark-jobserver
远程部署命令过程:
Image
Image
需要输入root密码。执行命令后,就可以在远程机器的相应目录中看到,示例local.sh配置的位置是/data1/local/spark-jobserver

步骤4:

启动
在/data1/local/spark-jobserver目录下的结构如下:
Image
需要查看一下local.conf和settings.sh二个文件的配置是否有问题,没有问题就可以使用server_start.sh启动jobserver
启动后会spark-jobserver.pid这个文件,查看里面的内容就是进程的id号。
正确启动后就可以通过浏览器访问该主机的8090端口,例如:10.207.26.250:8090。
Image
参考文档&项目地址
https://github.com/spark-jobserver/spark-jobserver

免责声明:文章转载自《spark jobserver初探》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇python下编译py成pyc和pyoPeerJS 0.1.7:一个用于浏览器内P2P的WebRTC封装器下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Spark SQL概述

前言:一些逻辑用spark core 来写,会比较麻烦,如果用sql 来表达,那简直太方便了 一、Spark SQL 是什么 是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法:   sql 查询   DataFrames/Datasets API Spark SQL = Schema + RDD 二、Spark SQL...

SparkSQL学习笔记

概述冠状病毒来临,宅在家中给国家做贡献之际,写一篇随笔记录SparkSQL的学习笔记,目的有二,一是记录整理之前的知识作为备忘录,二是分享技术,大家共同进步,有问题也希望大家不吝赐教。总体而言,大数据主要包含三种操作:长时间运行的批量数据处理;交互式运行的数据查询;实时数据流处理。sparkSQL特点:数据兼容,不仅兼容hive,还可以从rdd,parqu...

【Spark笔记】Windows10 本地搭建单机版Spark开发环境

  0x00 环境及软件 1、系统环境 OS:Windows10_x64 专业版 2、所需软件或工具 JDK1.8.0_131 spark-2.3.0-bin-hadoop2.7.tgz hadoop-2.8.3.tar.gz scala-2.11.8.zip hadoop-common-2.2.0-bin-master.zip(主要使用里面的winut...

pyspark mongodb yarn

from pyspark.sql import SparkSessionmy_spark = SparkSession .builder .appName("myApp") .config("spark.mongodb.input.uri", "mongodb://pyspark_admin:admin123@192.168.2.5...

spark 在yarn执行job时一直抱0.0.0.0:8030错误

近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 。 1 The logs are as below: 2 2014-08-11 20:10:59,795 INFO [main] org.apache.hadoop.yarn.client.RMProxy: Connecting...

java 几个开源dataframe 的实现包

python 的pandas 是一个很强大的dataframe 处理框架,同时java 也有spark 的dataframe 支持框架,但是spark还是有点重基于java 包的工具会更加方便,以下是几个相关的整理,使用的时候可以参考 说明 以下参考连接包含了具体的工具,同时官方文档都还算完备使用起来是比较简单的 参考资料 https://github.c...