配置项不一致 案例:某语音识别模型,从GPU迁移到NPU训练后,下游指标WER差异较大。 定位方法:根据启动脚本或训练日志对比NPU和标杆的训练配置。 比对发现NPU用的FSDP配置,GPU用的DDP配置,训练loss差异不大但下游指标差异大,如下图。 图1 NPU GPU配置对比 解决方案:同步GPU配置。 结果:修复后WER下降,与GPU对齐。 父主题: Checklist不一致案例