CDH集群主节点宕机恢复

摘要:
1概述公司开发集群的启动固态磁盘Hadoop-1,一个莫名其妙的主节点,在周末挂起。因为CM的NameNode、HDFS和HBase的Master安装在Hadoop-1上,所以整个集群无法使用。幸运的是,数据不在启动磁盘上。必须重新安装Hadoop-1系统,但无法重新安装集群。因为必须保留和恢复所有以前的数据,所以只能通过群集恢复重新启动群集。
1       情况概述

公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM、HDFS的NameNode、HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘。

Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来。

主要服务角色安装情况:

Hadoop-1:

 CM,HDFS( NN,DN ),HBase(HMaster, RegionServer),YARN(NM),Zookeeper

Hadoop-2:

HDFS( SNN,DN ),HBase(HMaster, RegionServer),YARN(RM,NM),Zookeeper

Hadoop-3,Hadoop-4:

HDFS( DN ),HBase(RegionServer),YARN(NM),Zookeeper

说明:在写本文档的时候,出现此问题的研发集群已经恢复完成,但是很遗憾没有留下证据,所以这里利用了一个临时的集群重现该问题,并执行恢复

2       面临的问题
  1. Hadoop-1系统重装后CM必须得重装,那么怎么将其余好的节点重新加入到新的CM。
  2. 新建的NameNode怎么重新使用原来的NameNode的数据,怎么重新管理其余结点的DataNode。
3       恢复记录

3.1   重装系统

最小化安装CentOS 64位系统,

准备好基础环境,恢复到和原来的Hadoop-1一样。

注意要点:

  1. 重新配置Hosts
  2. 重新配置ssh的无密钥登录。
  3. 重新配置时钟服务
  4. 重新配置CentOS,及CM、CDH的网络镜像源
  5. 挂载数据盘到原来的位置

3.2   重装CM

在Hadoop-1中利用CM的引导文件cloudera-manager-installer.bin重装CM服务,剩下的就是界面操作。前面的步骤和搭建新集群一样,以下为截图:

1.

CDH集群主节点宕机恢复第1张

在到这个界面之前的步骤和安装全新集群基本一样的,因此之前的步骤参照集群搭建文档即可,重点就是这个图,这个地方是选择服务角色的安装主机,一定要和之前的集群保持一致

CDH集群主节点宕机恢复第2张

上面这张图是更改后的,根据原来的集群,NameNode在test-hadoop-1上,而SNN在test-hadoop-2上面,每个节点都存在DataNode,至于HBase的配置还是理论上说可以随意(因为它的数据是在HDFS和Zookeeper上只要它俩对了,HBase的数据自然就恢复了。),但是还是建议和原来的保持一致。

Zookeeper要保持和原来一致。

Yarn主要用于计算,其实也可以是随意的,但是它有NM,所以还是建议保持和原来一致

CM,Spark可以配置是可以随意的,因为这两个东西跟我们的数据没太大关系。

接着往下走,

CDH集群主节点宕机恢复第3张

要是安装了要是原来的集群的自定义数据库不再主节点上,则直接在这里指过去使用原来的数据库,否则直接联本地的。

接着往下走,

CDH集群主节点宕机恢复第4张

这一步是重中之重,一定要注意将数据目录指定到原来的集群的数据目录,保持高度一致,对应修改完就可以启动了。

 CDH集群主节点宕机恢复第5张

启动后HDFS报错,因为NameNode会去尝试format,但是已经有数据了,所以format失败,那么基本上意味着我们数据恢复成功80%了,我们进入CM的控制界面,重启所服务,要是不出意外,集群修复就完成了。

4       可能的错误

4.1   Zookeeper

若启动时报zookeeper启动异常,

CDH集群主节点宕机恢复第6张

完整日志如下:

 CDH集群主节点宕机恢复第7张

这个错是个很奇怪的错,只发生在新建的主节点上,是因为挂载原来的数据盘时,原来的目录及文件的用户及用户组发生了变化,如下:

新建的主节点test-hadoop-1:

CDH集群主节点宕机恢复第8张

原来的数据结点test-hadoop-2:

 CDH集群主节点宕机恢复第9张

可以看到在新建的主节点test-hadoop-1中zookeeper的用户和用户组都成了solr,我们只需要将其修改过来就好了。

再次启动zookeeper若报如下错误:

CDH集群主节点宕机恢复第10张

则在对应的节点重启CM的agent

再次启动zookeeper:

其他的权限错误,就不再说了,对照着改就好了。

5       总结

通过这次集群恢复,有以下几点收获,

    1. CM搭建的Hadoop集群中服务和数据是分离的,就算是搭建一个全新的集群,只要将数据目录指定到原来的目录,就可以使用原来的数据。(按理说所有Hadoop集群都是这样。)
    2. 要大胆尝试。因为之前想到集群的主节点都挂了,无法避免重新搭建,数据只能全清空,迫于数据的重要性,在测试集群试验了把新搭集群但是数据目录还是原来的,发现hdfs,hbase,kafka,zookeeper的数据都还是原来的,并没有置空。

免责声明:文章转载自《CDH集群主节点宕机恢复》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇mac上编译 arm linux gnueabi交叉编译工具链toolchain微信小程序官方示例 官方weui-wxss下载于安装 详解下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Hive 安装配置

实验简介 本次课程学习了如何安装配置 Hive。 一、实验环境说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: XfceTerminal: Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令;...

Elasticsearch之批量操作bulk

1、bulk相当于数据库里的bash操作。 2、引入批量操作bulk,提高工作效率,你想啊,一批一批添加与一条一条添加,谁快? 3、bulk API可以帮助我们同时执行多个请求 4、bulk的格式: action:index/create/update/delete metadata:_index,_type,_id request body:_sourc...

Cloudera Manager及CDH最新版本安装全程记录

   大家都知道,Apache Hadoop的配置很繁琐,而且很零散,为此Cloudera公司提供了Clouder Manager工具,而且还封装了Apache Hadoop,flume,spark,hive,hbase等大数据产品形成自己特色的CDH产品,再使用CM进行安装,很大程度上方便了集群的搭建,并提供了集群的监控功能。 一、环境: 1.三台VMw...

HDFS的机架感知概述

             HDFS的机架感知概述                                         作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.网络拓扑结构   在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率,即带宽稀缺。这里的想法是将两个...

hadoop不同版本有哪些

一、Hadoop是什么? 首次听到hadoop这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。换句话说就是hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoopd之所谓会诞生,主要是由于进入到大数据时代,...

Sqoop 1.4.7安装与配置

sqoop 1.4.7tar -zxvf /usr/tools/sqoop-1.4.7.tar.gz 环境变量配置vim /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_211-amd64export PATH=$PATH:JAVA_HOME/binexport HADOOP_HOME=/home/hadoo...