华为计算微信公众号
昇腾AI开发者公众号
华为计算微博
华为计算今日头条
盘古大模型集群训练BMC告警NPU2 power off,引起服务器异常下电
2024/02/21
548
问题信息
训练过程中服务器异常下电,BMC出现如下告警:
BMC和BIOS版本过低。
升级到最新发布的BMC和BIOS(现网存在很多老版本的机器,建议作为常规检查项)。
本页内容