昇腾社区首页
中文
注册

配置项不一致

案例:某语音识别模型,从GPU迁移到NPU训练后,下游指标WER差异较大。

定位方法:根据启动脚本或训练日志对比NPU和标杆的训练配置。

比对发现NPU用的FSDP配置,GPU用的DDP配置,训练loss差异不大但下游指标差异大,如下图。

图1 NPU GPU配置对比

解决方案:同步GPU配置。

结果:修复后WER下降,与GPU对齐。