执行PyTorch框架的训练任务时,提示找不到amp_C

问题现象描述

开启watchdog功能后,下发PyTorch框架的训练任务,报错提示找不到amp_C。

原因分析

镜像中找不到megatron_npu路径。

解决措施

在train_start.sh中新增以下加粗的环境变量,设置megatron_npu在Python中的环境变量。
...
# env for breakpoint ckpt
export RESUME_MODE_ENABLE=1

export PYTHONPATH=$PYTHONPATH:MEGATRON_LM的路径/megatron_npu