记录一次VMware vSAN升级踩下的坑

摘要:
VMware产品升级需要谨慎……升级并珍惜……1.升级后台vSphere6.5u2+vCSA6.5u2环境,并计划升级到vSphere6.7u3+vCSA6.7u2。查找每个ESXI事件日志:通过事件日志KB查找VMware文章:https://kb.vmware.com/s/article/59220出现此问题的原因有很多,如磁盘和网络。晚上11点左右,所有Raid卡的330Mini固件最终升级到16.17.00.05。

VMware产品升级需谨慎.... 且升且珍惜....

1、升级背景

  vSphere 6.5u2 + vCSA 6.5u2的环境,计划升级至vSphere 6.7u3 + vCSA 6.7u3。

  vSAN集群中有24台ESXI主机:    

    4台DELL: PowerEdge R740xd  Raid卡型号:DELL 330 Adapter  Raid卡固件版本:16.17.00.03

    10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:13.17.03.05

    10台DELL:PowerEdge R730     Raid卡型号:DELL 300 Mini       Raid卡固件版本:15.17.09.06

2、升级过程

2.1 兼容性检查

  服务器信号兼容 ESXi 6.7u3

 记录一次VMware vSAN升级踩下的坑第1张

  Raid卡330Mini兼容ESXi 6.7u3,但是需要升级固件版本

  记录一次VMware vSAN升级踩下的坑第2张

   Raid卡330 Adapter兼容ESXi 6.7u3,不需要升级固件版本

  记录一次VMware vSAN升级踩下的坑第3张  

2.2 升级vCSA

    1. 通过vCSA 6.7u3 ISO镜像中的通过升级向导非常顺利的将vCSA升级到了6.7u3。

    2. 升级完vCSA 6.7u3后在vCenter Server的vSAN集群运行状况页面看到VMware推荐的Raid卡固件版本为 16.17.00.03和16.17.00.05

     记录一次VMware vSAN升级踩下的坑第4张

 

2.3 升级ESXi 和 Raid卡固件

  1. 因为集群中有4台PowerEdge R740xd的Raid卡固件版本为 16.17.00.03,因此计划将20台R730的Raid卡固件版本升级至 16.17.00.03,这样集群的Raid卡固件版本就统一。

  2. 通过vCSA 6.7自带的Update Manager升级ESXI主机 非常顺利。

  3. 升级ESXI的同时,通过DELL iDRAC Web界面将Raid卡固件版本升级至 16.17.00.03 非常顺利。

  4. 同时升级ESXI和Raid卡固件版本只需要重启一次 非常顺利。

 

3、遇到的问题及处理的过程

  升级第一天

    因为集群ESXI主机数量多,虚机数量也多,为了不影响虚机,只能一台一台升级。每天大概能升级4台,一切顺利。

  升级第二天

    集群中升级了10台后,出现一大波虚机Hang死,相关业务部门的同事也一直抱怨大片业务中断,大概1分钟左右后自动恢复。

    发现每台ESXI事件日志:

        记录一次VMware vSAN升级踩下的坑第5张

    通过事件日志找到VMware一篇KB:https://kb.vmware.com/s/article/59220

    KB里面所有有很多种原因可能导致这个问题,如磁盘、网络等。

    KB中还说:The issue has been resolved completely of the false messages in vSAN 6.7 Update 1 onwards.  

    于是检查vSAN磁盘和网络都正常,没有任何异常。

    于是觉得应该是集群中有ESXi 6.5u2和 6.7u3混合导致的问题,于是第二天将所有ESXi主机版本都升级至 6.7u3,并且将磁盘格式也升级完成,

    一直搞到晚上11点,心想这下vSAN应该不会有问题了。

  升级第三天:

    第三天早上刚起床,打开手机看到半夜又是一大波虚机hang死的报错,相关业务部门的同事也一直抱怨大片业务中断。 

      内心奔溃中.....突然觉得尼玛vSAN产品这么不稳定的吗? 心想:看来vSAN这个产品还是不能用于生产环境。

    只能继续分析ESXI主机中的hostd.log vmkernel.log 在出现问题前没有任何征兆....

    只能继续Google.....终于找到一篇文章提到 https://kb.vmware.com/s/article/67732 .... 果然还是Raid卡固件惹的祸 .... 感动ing....

    到DELL官网 HBA330 Mini 16.17.00.05 固件页面果然看到Fixed vSAN BUG...

    记录一次VMware vSAN升级踩下的坑第6张

    于是赶紧将Raid卡330Mini的固件版本升级至 16.17.00.05.

    在还剩下2台ESXI主机的Raid卡固件版本还没升级时,还是出现一大波虚机hang死的报错,当时心的凉了,心想为毛还是出现Hang死故障。

    在晚上11点左右,终于将所有Raid卡330Mini固件升级至 16.17.00.05。

    睡觉的时候心里一直祈祷千万别再出问题了,再出问题都不知道如何排查了,不可能将vSAN版本降级,只能从网络方面去排查VSAN网络是否有异常。

  升级第四天:

    第四天周六早上刚起床,立马打开手机看是否有虚机hang死的报错....结果还真没有了.... 本来想起床的...立马再睡个回笼觉....   

 

4、经验总结

  对于VMware vSAN来说...各种兼容性非常重要.....一定要结合VMware官网的兼容性列表,以及各厂家的固件或驱动Release信息。

  

 

免责声明:文章转载自《记录一次VMware vSAN升级踩下的坑》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇FreeRTOS 任务与调度器(1)Base64和urlencode下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

EMC5400 服务器raid5崩溃数据恢复过程(上门恢复案例)

一、服务器数据恢复背景北京某政府部门的一台EMC 5400服务器由于raid阵列损坏导致服务器崩溃,急需进行服务器数据恢复,由于用户服务器数据涉密,需要上门恢复。二、服务器数据恢复检测服务器数据恢复工程师携带相关设备到客户现场进行数据检测,发现服务器瘫痪的原因是由于raid阵列中某些硬盘掉线导致的,对所有磁盘进行物理检测后没有发现物理故障,也没有坏道。随后...

raid卡MegaCli工具使用说明

一、DELL&IBMMegaCli -AdpAllInfo -aALL —看配置项 #检查raid级别MegaCli -LDInfo -Lall -aALL | grep 'RAID Level:'RAID Level: Primary-1, Secondary-0, RAID Level Qualifier-0 #检查raid缓存容量MegaCl...

Dell服务器配置RAID1+RAID0磁盘阵列

有台DELL R730的服务器,需要部署下公司的程序,这里记录下raid配置。 环境要求 两块硬盘做raid 1 一块硬盘做raid 0 服务器开机,开始配置raid 服务器开机,在出现下图提示时,同时按着 Ctrl+ < R >键,即可进入配置界面 进入界面按键“Ctrl+n”切换到PD Mgmt选项 选项“2号”硬盘,按F2 选择Conv...

RAID知识总结[转]

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://815632410.blog.51cto.com/1544685/1394306 老男孩linux运维实战培训-RAID总结 老男孩老师教学与培训核心思想:重目标、重思路、重方法、重实践、重习惯、重总结。 版权声明:转载请注明出处! ###...

VMWare Esxi 6.5(实际为5.x,6.x)时区问题

Esxi不支持修改时区,但是可以使用ESX或者Centos 6/7的localtime文件进行替换以实现时区修改,问题是,重启后文件会被还原。 详细的纠结过程就不说了,终级解决方案如下(给公司写的,现分享出来): 大概思路是:将centos 6中/usr/share/zoneinfo/Asia/Shanghai文件(如果是它国时区,请自行替换base64内...

ESXi挂载NFS共享存储

通常VMware的整体架构由三个部分组成,虚拟化环境(包括ESXi与vCenter以及VM),交换机(通常为万兆交换机或光纤交换机),存储(netap、EMC等)。使用光纤交换机,ESXi使用FC协议连接存储。使用万兆交换机,ESXi使用NFS协议连接存储。本文介绍的是通过NFS协议挂载共享存储上的VS01卷,共享存储上已经赋予ESXi主机访问该卷的权限。...