小程序
传感搜
传感圈

TECS资源池上报存储设备离线的问题处理

2023-06-09 00:51:39
关注

某资源池在运行过程中出现存储设备离线告警,通过底层cinder service-list命令查看,确认存储state为down状态。

登录控制节点虚拟机,执行source keystonerc_admin命令进入OpenStack环境,执行cinder service-list命令查看存储状态,如下图所示。



当云平台通过存储管理面无法获取存储设备上报的状态,则上报告警。

当云平台能够正常通过存储管理面获取存储设备上报的状态,则恢复告警。

存储失去控制,磁阵不可用,存在如下3种情况:

存储掉电。

网络不通。

对接问题。

问题分析过程如下:

1.检查存储设备当前状态是否正常。

通过登录存储设备管理页面,检查存储设备告警信息,未发现异常内容。

2.检查存储网和管理网的连通性。

登录控制节点虚拟机,通过Ping操作确认磁阵的管理网和存储网的连通性,网络正常,如下图所示。





3.检查控制节点虚拟机/var/log/cinder/volume.log日志,分析详细原因。

通过volume.log日志检查,原因为访问的IP地址被锁定,如下图所示。需要登录磁阵做详细的安全日志检查。

4.登录磁阵页面,检查存储侧记录的所有事件,记录为连续多次登录失败,IP和账号被锁定5分钟,循环登录失败并持续锁定。

5.通过磁阵管理页面解锁IP和账号锁定。

6.观察5分钟,IP和账号再次被锁定,可能原因是密码错误导致多次登录失败,继而被锁定。

1.登录控制节点虚拟机,检查/etc/cinder/cinder_huawei_conf_file_HW_IPSAN-1. xml配置,获取用户名和密码的密文。 2. 在控制节点虚拟机下,执行如下命令解读密文:

a.执行echo 'dGVjc19zdG9yYWdl'| base64 -d命令,得到对接账号tecs_storage。

b.执行echo 'Z0s5WUltc3k5SmRJQ1JWWmpmSHdfcW5kU2JaQnZCbG0waEZlUUJUSXZFQ2c2NGNlNTAxZGIyMDAwODllY2Q0YzgyOA=='| base64 -dse64 -d命令,得到密文为gK9YImsy9JdICRVZjfHw_qndSbZBvBlm0hFeQBTIvECg64ce501db2308a21fee00089ecd4c828,需要再次解密。

c.执行python /usr/lib/python2.7/site-packages/oslo_config/aes.py decrypt gK9YImsy9JdICRVZjfHw_qndSbZBvBlm0hFeQBTIvECg64ce501db2308a21fee00089ecd4c828命令,得到对接密码为kEYSTONE_2020。

3.登录Daisy界面,在云配置→配置→存储管理→存储设备对接界面,更新磁阵的密码。

4.登录控制节点虚拟机在cinder-volume的服务节点,执行以下命令,重启服务。

systemctl restart openstack-cinder-volume.service

5.执行source keystonerc_admin命令,进入OpenStack环境。

6.执行命令cinder service-list命令,查看存储状态。

7.总结及注意事项:

a.磁阵和平台对接建议使用非admin用户和密码,避免定期修改密码,影响对接。

b.修改磁阵的密码时需要关注TECS侧的影响。

c.由于输入账号的密码是不可见的,需要确认输入密码的正确性,避免大小写,特殊符号等问题。





审核编辑:刘清

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘