昇腾社区首页
中文
注册

硬件压测案例

案例:某近5k卡大集群模型loss不对齐,grad_norm存在大量尖刺。

图1 loss不对齐尖刺
图2 loss grad_norm尖刺

由于集群较大,优先进行硬件压测,排查坏节点。

4800卡分成100组*(3*16卡)任务,跑同一个训练任务,固定随机性+开确定性计算,看最终loss曲线,有没有哪组异常,缩小到异常的机组再做dmi压测。

使用ascend-dmi -dg -i aicore -s -sc 60 -q命令进行机器压测,查看故障检测结果。

表1 故障检测结果含义

回显状态

含义

PASS

压力测试通过,结果无异常。

SKIP

当前设备不支持P2P压测。

EMERGENCY_WARN

紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。

FAIL

p2p压测执行失败,请联系华为工程师处理。

检测结果显示存在坏节点,将其排除后精度正常。如下图:

  • 排除硬件故障后loss不再有尖刺。
    图3 loss不对齐尖刺消失
  • 排除硬件故障后grad norm尖刺明显改善。
    图4 loss grad_norm尖刺减少