Flink实战(105):配置(四)JobManager 高可用性配置

摘要:
请在以下位置配置Master文件conf/Masters:8081Masters文件包含启动JobManager的所有主机和Web用户界面绑定的端口。您可以通过high-availability.jobmanager.port.1.3配置文件(flink-conf.yaml)更改此设置。要启动HA集群,请将以下配置键添加到conf/flink-conf.yaml:

来源:http://www.54tianzhisheng.cn/2019/01/13/Flink-JobManager-High-availability/

 Flink Job 的运行架构图:

Flink实战(105):配置(四)JobManager 高可用性配置第1张

JobManager 协调每个 Flink 作业的部署。它负责调度和资源管理。

默认情况下,每个 Flink 集群都有一个 JobManager 实例。这会产生单点故障(SPOF):如果 JobManager 崩溃,则无法提交新作业且运行中的作业也会失败。

如果我们使用 JobManager 高可用模式,可以避免这个问题。您可以为 standalone 集群和 YARN 集群配置高可用模式。

1 standalone 集群高可用性

standalone 集群的 JobManager 高可用性的概念是,任何时候都有一个主 JobManager 和 多个备 JobManagers,以便在主节点失败时有新的 JobNamager 接管集群。这样就保证了没有单点故障,一旦备 JobManager 接管集群,作业就可以依旧正常运行。主备 JobManager 实例之间没有明确的区别。每个 JobManager 都可以充当主备节点。

例如,请考虑以下三个 JobManager 实例的设置:

Flink实战(105):配置(四)JobManager 高可用性配置第2张

1.1 如何配置

要启用 JobManager 高可用性功能,您必须将高可用性模式设置为 zookeeper,配置 ZooKeeper quorum,将所有 JobManagers 主机及其 Web UI 端口写入配置文件。

Flink 利用 ZooKeeper 在所有正在运行的 JobManager 实例之间进行分布式协调。ZooKeeper 是独立于 Flink 的服务,通过 leader 选举和轻量级一致性状态存储提供高可靠的分布式协调服务。Flink 包含用于 Bootstrap ZooKeeper 安装的脚本。
他在我们的 Flink 安装路径下面 /conf/zoo.cfg 。

Flink实战(105):配置(四)JobManager 高可用性配置第3张

1.2 Masters 文件

要启动 HA 集群,请在以下位置配置 Masters 文件 conf/masters:

localhost:8081
xxx.xxx.xxx.xxx:8081

masters 文件包含启动 JobManagers 的所有主机以及 Web 用户界面绑定的端口,上面一行写一个。

默认情况下,job manager 选一个随机端口作为进程通信端口。您可以通过 high-availability.jobmanager.port 更改此设置。此配置接受单个端口(例如 50010),范围(50000-50025)或两者的组合(50010,50011,50020-50025,50050-50075)。

1.3 配置文件 (flink-conf.yaml)

要启动 HA 集群,请将以下配置键添加到 conf/flink-conf.yaml:

高可用性模式(必需):在 conf/flink-conf.yaml中,必须将高可用性模式设置为 zookeeper,以打开高可用模式。

high-availability: zookeeper

ZooKeeper quorum(必需):ZooKeeper quorum 是一组 ZooKeeper 服务器,它提供分布式协调服务。

high-availability.zookeeper.quorum: ip1:2181 [,...],ip2:2181

每个 ip:port 都是一个 ZooKeeper 服务器的 ip 及其端口,Flink 可以通过指定的地址和端口访问 zookeeper。

Flink实战(105):配置(四)JobManager 高可用性配置第4张

 另外就是高可用存储目录,JobManager 元数据保存在文件系统 storageDir 中,在 ZooKeeper 中仅保存了指向此状态的指针, 推荐这个目录是 HDFS, S3, Ceph, nfs 等,该 storageDir 中保存了 JobManager 恢复状态需要的所有元数据。

high-availability.storageDir: hdfs:///flink/ha/

配置 master 文件和 ZooKeeper 配置后,您可以使用提供的集群启动脚本。他们将启动 HA 集群。请注意,启动 Flink HA 集群前,必须启动 Zookeeper 集群,并确保为要启动的每个 HA 集群配置单独的 ZooKeeper 根路径。

1.4 示例

具有 2 个 JobManagers 的 Standalone 集群:

1、在 conf/flink-conf.yaml 中配置高可用模式和 Zookeeper :

high-availability: zookeeper
high-availability.zookeeper.quorum: localhost:2181
high-availability.storageDir: hdfs:///flink/recovery

2、在 conf/masters 中 配置 masters:

localhost:8081
localhost:8082

3、在 conf/zoo.cfg 中配置 Zookeeper 服务:

server.0=localhost:2888:3888

4、启动 ZooKeeper 集群:

$ bin/start-zookeeper-quorum.sh
Starting zookeeper daemon on host localhost.

5、启动一个 Flink HA 集群:

$ bin/start-cluster.sh
Starting HA cluster with 2 masters and 1 peers in ZooKeeper quorum.
Starting jobmanager daemon on host localhost.
Starting jobmanager daemon on host localhost.
Starting taskmanager daemon on host localhost.

6、停止 ZooKeeper 和集群:

$ bin/stop-cluster.sh
Stopping taskmanager daemon (pid: 7647) on localhost.
Stopping jobmanager daemon (pid: 7495) on host localhost.
Stopping jobmanager daemon (pid: 7349) on host localhost.

$ bin/stop-zookeeper-quorum.sh
Stopping zookeeper daemon (pid: 7101) on host localhost.

上面的执行脚本如下图可见:

Flink实战(105):配置(四)JobManager 高可用性配置第5张

2 YARN 集群高可用性

当运行高可用的 YARN 集群时,我们不会运行多个 JobManager 实例,而只会运行一个,该 JobManager 实例失败时,YARN 会将其重新启动。Yarn 的具体行为取决于您使用的 YARN 版本。

2.1 如何配置?

Application Master 最大重试次数 (yarn-site.xml)

在 YARN 配置文件 yarn-site.xml 中,需要配置 application master 的最大重试次数:

<property>
  <name>yarn.resourcemanager.am.max-attempts</name>
  <value>4</value>
  <description>
    The maximum number of application master execution attempts.
  </description>
</property>

当前 YARN 版本的默认值为 2(表示允许单个 JobManager 失败两次)。

Application Attempts (flink-conf.yaml)

除了上面可以配置最大重试次数外,你还可以在 flink-conf.yaml 配置如下:

yarn.application-attempts: 10

这意味着在如果程序启动失败,YARN 会再重试 9 次(9 次重试 + 1 次启动),如果启动 10 次作业还失败,yarn 才会将该任务的状态置为失败。如果因为节点硬件故障或重启,NodeManager 重新同步等操作,需要 YARN 继续尝试启动应用。这些重启尝试不计入 yarn.application-attempts 个数中。

2.2 容器关闭行为

  • YARN 2.3.0 < 版本 < 2.4.0. 如果 application master 进程失败,则所有的 container 都会重启。
  • YARN 2.4.0 < 版本 < 2.6.0. TaskManager container 在 application master 故障期间,会继续工作。这具有以下优点:作业恢复时间更快,且缩短所有 task manager 启动时申请资源的时间。
  • YARN 2.6.0 <= version: 将尝试失败有效性间隔设置为 Flink 的 Akka 超时值。尝试失败有效性间隔表示只有在系统在一个间隔期间看到最大应用程序尝试次数后才会终止应用程序。这避免了持久的工作会耗尽它的应用程序尝试。

2.3 示例:高可用的 YARN Session

1、配置 HA 模式和 Zookeeper 集群 在 conf/flink-conf.yaml:

high-availability: zookeeper
high-availability.zookeeper.quorum: localhost:2181
yarn.application-attempts: 10

2、配置 ZooKeeper 服务 在 conf/zoo.cfg:

server.0=localhost:2888:3888

3、启动 Zookeeper 集群:

$ bin/start-zookeeper-quorum.sh
Starting zookeeper daemon on host localhost.

4、启动 HA 集群:

$ bin/yarn-session.sh -n 2

3 总结

本篇文章再次写了下 Flink JobManager 的高可用配置,如何在 standalone 集群和 YARN 集群中配置高可用。

免责声明:文章转载自《Flink实战(105):配置(四)JobManager 高可用性配置》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇[转] oracle 监听nmon:linux性能监控工具下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

误删节点或集群怎么办?这里有一颗后悔药

本文来自Rancher Labs 作者介绍 王海龙,Rancher中国社区技术经理,负责Rancher中国技术社区的维护和运营。拥有6年的云计算领域经验,经历了OpenStack到Kubernetes的技术变革,无论底层操作系统Linux,还是虚拟化KVM或是Docker容器技术都有丰富的运维和实践经验。 在实际使用Rancher过程中,偶尔会因为误操...

hadoop HA+Federation(高可用联邦)搭建配置(一)

hadoop HA+Federation(高可用联邦)搭建配置(一) 标签(空格分隔): 未分类 介绍 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。 HA联邦模式解决了单纯HA模式的性能瓶颈(主要指Namenode、ResourceManager),将整个HA集群划分为两个以上的集群,不同的集群之间通过Federation进行...

灵活、高效的云原生集群管理经验:用 K8s 管理 K8s

作者 | 淮右、临石 导读:单 K8s 集群为用户提供了 Namespace 级别的隔离能力,理论上支持不超过 5K Node、15W Pod。多 K8s 集群则解决了单集群的资源隔离、故障隔离难题,打破可支持节点数、Pod 数的限制,但与此同时也带来了集群管理复杂度的上升;尤其在专有云场景中,K8s 工程师不可能像在公有云中一样快速触达客户环境,运维成...

如何在 Serverless K8s 集群中低成本运行 Spark 数据计算?

作者 | 柳密 阿里巴巴阿里云智能 ** 本文整理自《Serverless 技术公开课》,关注“Serverless”公众号,回复“入门”,即可获取 Serverless 系列文章 PPT。 导读:本节课主要介绍如何在 Serverless Kubernetes 集群中低成本运行 Spark 数据计算。首先简单介绍下阿里云 Serverless Kuber...

Kubernetes理论01

1、Kubernetes是什么 •Kubernetes是Google在2014年开源的一个容器集群管理系统,Kubernetes简称K8S。•K8S用于容器化应用程序的部署,扩展和管理。•K8S提供了容器编排,资源调度,弹性伸缩,部署管理,服务发现等一系列功能。•Kubernetes目标是让部署容器化应用简单高效。官方网站:http://www.kuber...

Kafka Manager安装部署及使用

 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。本文对其进行部署配置,并安装配置kafkatool对kafka进行监控、查询 一、kafka-manager 简介        为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kaf...