执行PyTorch框架的训练任务时,提示找不到amp_C
问题现象描述
开启watchdog功能后,下发PyTorch框架的训练任务,报错提示找不到amp_C。
原因分析
镜像中找不到megatron_npu路径。
解决措施
在train_start.sh中新增以下加粗的环境变量,设置megatron_npu在Python中的环境变量。
... # env for breakpoint ckpt export RESUME_MODE_ENABLE=1 export PYTHONPATH=$PYTHONPATH:MEGATRON_LM的路径/megatron_npu
父主题: 使用时出现的故障