Flink on Yarn运行机制

摘要:
从图中可以看出,Yarn的客户端需要获取hadoop配置信息并连接到Yarn的ResourceManager。如果资源足够,包含HDFS配置信息和Flink的jar包将上载到HDFS。将生成新的Flink配置信息,以便TaskManager可以连接到JobManager。同时,AM还提供Flink的WEB接口。用户可以并行执行多个Flink会话。

Flink on Yarn运行机制第1张

从图中可以看出,Yarn的客户端需要获取hadoop的配置信息,连接Yarn的ResourceManager。所以要有设置有 YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_CONF_PATH,只要设置了其中一个环境变量,就会被读取。如果读取上述的变量失败了,那么将会选择hadoop_home的环境变量,都区成功将会尝试加载$HADOOP_HOME/etc/hadoop的配置文件。

1、当启动一个Flink Yarn会话时,客户端首先会检查本次请求的资源是否足够。资源足够将会上传包含HDFS配置信息和Flink的jar包到HDFS。

2、随后客户端会向Yarn发起请求,启动applicationMaster,随后NodeManager将会加载有配置信息和jar包,一旦完成,ApplicationMaster(AM)便启动。

3、当JobManager and AM 成功启动时,他们都属于同一个container,从而AM就能检索到JobManager的地址。此时会生成新的Flink配置信息以便TaskManagers能够连接到JobManager。同时,AM也提供Flink的WEB接口。用户可并行执行多个Flink会话。

4、随后,AM将会开始为分发从HDFS中下载的jar以及配置文件的container给TaskMangers.完成后Fink就完全启动并等待接收提交的job.

启动Flink cluster  on YARN 

./bin/yarn-session.sh -n 1 -jm 1024 -tm 4096

可以看到启动了1个TaskManager 给jm与tm分配的资源数

Flink on Yarn运行机制第2张

将Flink的配置与jar包上传至HDFS

Flink on Yarn运行机制第3张

提交于Application Master

Flink on Yarn运行机制第4张

启动完毕后,就可提交任务。

免责声明:文章转载自《Flink on Yarn运行机制》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇嵌入式&iOS:回调函数(C)与block(OC)回调对比Python3 爬虫-字体数字反爬下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

react之npm和yarn的相关命令

npm 1、npm修改全局配置 npm config set prefix "D: odejs ode_global" npm config set cache "D: odejs ode_cache" 2、npm获取全局安装的默认目录 npm config get prefix 3、npm永久配置淘宝镜像 npm config set registry...

Spark优化之二:集群上运行jar程序,状态一直Accepted且不停止不报错

如果运行Spark集群时状态一直为Accepted且不停止不报错,比如像下面这样的情况: 15/06/14 11:33:33 INFO yarn.Client: Application report for application_1434263747091_0023 (state: ACCEPTED) 15/06/14 11:33:34 INFO yar...

01 HDFS 简介

01.HDFS简介 大纲: hadoop2 介绍 HDFS概述 HDFS读写流程 hadoop2介绍 框架的核心设计是HDFS(存储),mapReduce(分布式计算),YARN(资源管理),为海量的数据提供了存储和计算。 Hadoop 1.0(MapReduce,HDFS) Hadoop2 主要改进 YARN NameNode HA HDFS fe...

Flink写入kafka时,只写入kafka的部分Partitioner,无法写所有的Partitioner问题

1. 写在前面 在利用flink实时计算的时候,往往会从kafka读取数据写入数据到kafka,但会发现当kafka多个Partitioner时,特别在P量级数据为了kafka的性能kafka的节点有十几个时,一个topic的Partitioner可能有几十个甚至更多,发现flink写入kafka的时候没有全部写Partitioner,而是写了部分的Par...

Hadoop HA 高可用集群的搭建

hadoop部署服务器 系统 主机名 IP centos6.9 hadoop01 192.168.72.21 centos6.9 hadoop02 192.168.72.22 centos6.9 hadoop03 192.168.72.23 基础环境准备 1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 /etc/...

有赞 Flink 实时任务资源优化探索与实践

简介: 目前有赞实时计算平台对于 Flink 任务资源优化探索已经走出第一步。 随着 Flink K8s 化以及实时集群迁移完成,有赞越来越多的 Flink 实时任务运行在 K8s 集群上,Flink K8s 化提升了实时集群在大促时弹性扩缩容能力,更好的降低大促期间机器扩缩容的成本。同时,由于 K8s 在公司内部有专门的团队进行维护, Flink K8s...