读取数据不一致
案例:某大语言模型,从llamafactory NPU(标杆)迁移到modellink NPU训练,loss对不齐,如下图。
图1 loss对不齐


定位方法:打印比较输入的tokens等信息,具体位置需结合训练代码(如modellink可直接在modellink/pretrain_gpt.py的forward_step函数中加打印),如下图。
图2 forward_step函数中加打印


可以看到读取的token_id的末尾存在数据不一致的问题,如下图。
图3 读取token_id的末尾数据不一致


解决方案:修复数据预处理代码,使其输入一致。
结果:修复后loss对齐。
图4 loss对齐


父主题: Checklist不一致案例