前阵子在连 vSphere Web Client 时,注意到有个警告讯息,其中包含「Ldap backup task monitor」、「vCenter Database」的警告,在与厂商联系后,试着重启 vCenter,没想到就再也无法透过 vSphere Web Client 或 VMware vSphere Client 连进 vCenter 了。
查看 vCenter 的开机过程可以注意到有几个服务启动失败,其中包含 database 及 vpxd 的 initialize,vpxd 的 initialize 更是要等个十分钟才出现 failed。
开完机后,除了 vSphere Web Client 及 VMware vSphere Client 无法连线,VMware vCenter服务器电器 (HTTPS://ip:5480) 会出现无法登入(验证失败)的情形。另外若透过 SSH 连线,会要你更改密码,但输入完新密码又出现无法写入的讯息。
之后在厂商的指导下,确认是磁区被 log 塞爆,造成资料库无法启动,下方为解决过程。
◎从 Console 使用 root 登入,如果登入失败,参考 这篇 重设 root 密码,重点如下:
#在 VMware vCenter Server Appliance 按下 e,進入編輯模式。 #選擇第二項「kernel /vmlinuz-......」再按下 e,進入編輯模式。 #在「...usb audit=1」後面加上" init=/bin/bash",按下Enter。 #選擇第二項「kernel /vmlinuz-......」再按下 b,以此項目開機。 #輸入 passwd 以修改 root 密碼,完成後輸入 reboot 重開。
◎输入 df -h,检查各磁区的使用情形。以我來說 “/” 满了。
◎输入下列指令,检查 audit 占用情形。我的正常,如果过量,可参考 这篇 处理。
cd /var/log/audit ls -lh
◎输入下列指令,检查 log 占用情形。可以看到 ./ldapmessage-20191205 占用5.8G。
cd /var/log du -xah | sort -h | tail -n 50
◎参考 这篇 删除档案,并注解 /etc/hosts 的 IP6 设定,避免再次发生。
rm ./ldapmessage-20191205 vi /etc/hosts ----------------------- 127.0.0.1 <FQDN> <Hostname> #::1 <hostname> localhost ip6-localhost ip6-loopback -----------------------
◎完成后,reboot 即可恢复 vCenter 运作。
【參考連結】
[…] 先前处理完「vCenter 资料库无法启动」的问题后,在「服务健全状况」还有部份错误讯息,其中 Auto Deploy 会出现 “无法从 https://ip:6502/vmw/rbd/health-info 撷取健全状况资料” 的警示讯息,这问题还蛮单纯的,只是 vSphere Auto Deploy 这个服务没有启动,应该是因为先前空间爆满问题,导致它无法启动,现在问题解决了,只要将它 run 起来即可。 […]