开启watchdog功能后,下发PyTorch框架的训练任务,报错提示找不到amp_C。
镜像中找不到megatron_npu路径。
... # env for breakpoint ckpt export RESUME_MODE_ENABLE=1 export PYTHONPATH=$PYTHONPATH:MEGATRON_LM的路径/megatron_npu