昇腾社区首页
中文
注册

模型结构不一致

案例:某MOE模型,从GPU迁移到NPU后,loss对不齐。

图1 loss对不齐

定位方法:可以通过查看具体代码实现或打印模型结构比较。

查看代码发现,NPU中residual是input_layernorm后的,GPU上是input_layernorm前的,两者模型顺序结构不一致。

图2 模型结构比较

解决方案:在NPU中的input_layernorm也放到residual后面。

结果:对齐模型结构后loss对齐。

图3 loss对齐