昇腾社区首页
中文
注册

读取数据不一致

案例:某大语言模型,从llamafactory NPU(标杆)迁移到modellink NPU训练,loss对不齐,如下图。

图1 loss对不齐

定位方法:打印比较输入的tokens等信息,具体位置需结合训练代码(如modellink可直接在modellink/pretrain_gpt.py的forward_step函数中加打印),如下图。

图2 forward_step函数中加打印

可以看到读取的token_id的末尾存在数据不一致的问题,如下图。

图3 读取token_id的末尾数据不一致

解决方案:修复数据预处理代码,使其输入一致。

结果:修复后loss对齐。

图4 loss对齐