配置项不一致
案例:某语音识别模型,从GPU迁移到NPU训练后,下游指标WER差异较大。
定位方法:根据启动脚本或训练日志对比NPU和标杆的训练配置。
比对发现NPU用的FSDP配置,GPU用的DDP配置,训练loss差异不大但下游指标差异大,如下图。
图1 NPU GPU配置对比


解决方案:同步GPU配置。
结果:修复后WER下降,与GPU对齐。
父主题: Checklist不一致案例
案例:某语音识别模型,从GPU迁移到NPU训练后,下游指标WER差异较大。
定位方法:根据启动脚本或训练日志对比NPU和标杆的训练配置。
比对发现NPU用的FSDP配置,GPU用的DDP配置,训练loss差异不大但下游指标差异大,如下图。
解决方案:同步GPU配置。
结果:修复后WER下降,与GPU对齐。