使用时出现的故障
故障定位流程
kubelet重启后,NPU Exporter无法获取当前容器信息
hccl.json文件没有生成
K8s配置CPU绑核后无法使用npu-smi info
训练任务处于Pending状态,原因:nodes are unavailable
df -h执行失败,NFS启动失败
手动删除vcjob后Pod一直处于Terminating状态
资源不足时,任务处于Pending状态
任务容器未成功挂载NPU
配置正确情况下,NPU芯片故障不能触发重调度特性
任务被重调度后Pod状态不一致
使用动态虚拟化时,以普通用户运行推理业务容器失败
使用Volcano v1.7.0版本,无法查询Pod状态
执行.sh脚本,报$'\r': command not found异常
运行GPT-3模型时,出现Megatron requires CUDA的报错提示
使用Volcano和Ascend Operator组件场景下,业务面故障的任务所有Pod的Status全部变为Failed,任务无法触发无条件重试重调度
制作镜像时找不到对应的安装包
执行盘古模型的训练任务时,报错提示No module named '_sqlite3'
执行PyTorch框架的训练任务时,提示找不到amp_C
同一芯片故障反复出现,导致训练任务中断反复进行重调度
hostNetwork设置为true后,通信阻塞超时,任务失败
ClusterD不上报ConfigMap
启用进程级在线恢复后,报错There is unsafe data in the input tensor,恢复失败
执行MindSpore框架的模型训练任务,在编译时报错The pointer[origin_node_output_addr] is null
NPU Exporter组件的Pod状态为CrashLoopBackOff
执行kubectl命令报错:Error from server (Forbidden), can only create tokens for individual service accounts
下发任务失败,未生成Pod
vcjob任务未正常拉起,get event提示tasks in gang unschedulable: pod group is not ready, 1 minAvailable
查看Pod日志出现报错:NPU is busy, check again
公共故障的恢复消息丢失,导致故障芯片一直处于隔离状态
任务申请的总芯片数量为32,sp-block设置为32可以正常训练,sp-block设置为16无法完成训练,训练容器报错提示初始化连接失败
工作节点无训练任务执行,一直无法下发新的训练任务
父主题:
FAQ