模型结构不一致
案例:某MOE模型,从GPU迁移到NPU后,loss对不齐。
图1 loss对不齐


定位方法:可以通过查看具体代码实现或打印模型结构比较。
查看代码发现,NPU中residual是input_layernorm后的,GPU上是input_layernorm前的,两者模型顺序结构不一致。
图2 模型结构比较


解决方案:在NPU中的input_layernorm也放到residual后面。
结果:对齐模型结构后loss对齐。
图3 loss对齐


父主题: Checklist不一致案例