昇腾社区首页
中文
注册
开发者
下载

环境检查

  • 检查配置项,具体包括:
    • 训练超参和环境变量

      可使用Beyond Compare软件比对双方训练日志或启动脚本中的训练超参和环境变量。

    • 三方库版本

      通过git分支检查Megatron、DeepSpeed等版本,通过pip list检查torch、PyTorch等版本。

  • 检查从数据集中读取的输入数据

    一般可通过精度采集工具采集最开始的输入数据,或直接在代码中调用model forward时,保存或打印传入的具体tensor来进行数据集检查。

  • 检查模型结构

    通过在双方训练中直接打印模型结构并进行比对。

  • 检查权重初始化

    需要确认训练前的初始化权重是否一致,保证加载同一个预训练模型或使用一样的初始化随机种子。

  • 环境版本更新

    在条件允许的情况下,推荐安装最新版本的CANN、驱动以及PyTorch包。