特殊情况排查案例 案例1:某多模态模型。 开启流同步前训练NaN,开启流同步后无NaN正常收敛,最终定位为并发计算时的内存踩踏。 案例2:某MOE模型出现NAN问题。 去掉overlap-param-gather超参之后,问题规避。 父主题: 精度定位案例