盘古大模型集群训练BMC告警NPU2 power off,引起服务器异常下电
2024/02/21
191
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | 分布式 | -- |
问题现象描述
训练过程中服务器异常下电,BMC出现如下告警:
原因分析
BMC和BIOS版本过低。
解决措施
升级到最新发布的BMC和BIOS(现网存在很多老版本的机器,建议作为常规检查项)。
华为计算微信公众号
昇腾AI开发者公众号
华为计算微博
华为计算今日头条
盘古大模型集群训练BMC告警NPU2 power off,引起服务器异常下电
2024/02/21
191
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | 分布式 | -- |
训练过程中服务器异常下电,BMC出现如下告警:
放大
BMC和BIOS版本过低。
升级到最新发布的BMC和BIOS(现网存在很多老版本的机器,建议作为常规检查项)。
本页内容