Checklist检查 检查配置项,具体包括:训练超参和环境变量可使用Beyond Compare软件比对双方训练日志或启动脚本中的训练超参和环境变量 三方库版本通过git分支检查Megatron、DeepSpeed等版本,通过pip list检查torch、PTA等版本 检查从数据集中读取的输入数据一般可通过精度采集工具采集最开始的输入数据或直接在代码中调用model forward时保存或打印传入的具体tensor来进行数据集检查 检查模型结构通过在双方训练中直接打印模型结构并进行比对 检查权重初始化需要确认训练前的初始化权重是否一致,保证加载同一个预训练模型或使用一样的初始化随机种子 环境版本更新这一项仅在条件允许的情况下进行,根据之前的精度问题定位经验,很多问题都是旧版本上的问题,在新的版本上已经解决。因此,在条件允许的情况下,推荐安装最新商发版本的CANN、驱动以及PTA包。 父主题: 问题定位方法