硬件压测案例
案例:某近5k卡大集群模型loss不对齐,grad_norm存在大量尖刺。
图1 loss不对齐尖刺


图2 loss grad_norm尖刺


由于集群较大,优先进行硬件压测,排查坏节点。
4800卡分成100组*(3*16卡)任务,跑同一个训练任务,固定随机性+开确定性计算,看最终loss曲线,有没有哪组异常,缩小到异常的机组再做dmi压测。
使用ascend-dmi -dg -i aicore -s -sc 60 -q命令进行机器压测,查看故障检测结果。
回显状态 |
含义 |
---|---|
PASS |
压力测试通过,结果无异常。 |
SKIP |
当前设备不支持P2P压测。 |
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。 |
FAIL |
p2p压测执行失败,请联系华为工程师处理。 |
检测结果显示存在坏节点,将其排除后精度正常。如下图:
- 排除硬件故障后loss不再有尖刺。图3 loss不对齐尖刺消失
- 排除硬件故障后grad norm尖刺明显改善。图4 loss grad_norm尖刺减少
父主题: 精度定位案例