问题现象描述
训练过程中服务器异常下电,BMC出现如下告警:

原因分析
BMC和BIOS版本过低。
解决措施
升级到最新发布的BMC和BIOS(现网存在很多老版本的机器,建议作为常规检查项)。

华为计算微信公众号

昇腾AI开发者公众号

华为计算微博

华为计算今日头条
盘古大模型集群训练BMC告警NPU2 power off,引起服务器异常下电
2024/02/21
320
问题信息
| 问题来源 | 产品大类 | 产品子类 | 关键字 |
|---|---|---|---|
| 官方 | 模型训练 | 分布式 | -- |
训练过程中服务器异常下电,BMC出现如下告警:

BMC和BIOS版本过低。
升级到最新发布的BMC和BIOS(现网存在很多老版本的机器,建议作为常规检查项)。
本页内容