环境检查 检查配置项,具体包括:训练超参和环境变量可使用Beyond Compare软件比对双方训练日志或启动脚本中的训练超参和环境变量。 三方库版本通过git分支检查Megatron、DeepSpeed等版本,通过pip list检查torch、PyTorch等版本。 检查从数据集中读取的输入数据一般可通过精度采集工具采集最开始的输入数据,或直接在代码中调用model forward时,保存或打印传入的具体tensor来进行数据集检查。 检查模型结构通过在双方训练中直接打印模型结构并进行比对。 检查权重初始化需要确认训练前的初始化权重是否一致,保证加载同一个预训练模型或使用一样的初始化随机种子。 环境版本更新在条件允许的情况下,推荐安装最新版本的CANN、驱动以及PyTorch包。 父主题: 问题定位方法