使用时出现的故障

故障定位流程
kubelet重启后，NPU Exporter无法获取当前容器信息
hccl.json文件没有生成
K8s配置CPU绑核后无法使用npu-smi info
训练任务处于Pending状态，原因：nodes are unavailable
df -h执行失败，NFS启动失败
手动删除vcjob后Pod一直处于Terminating状态
资源不足时，任务处于Pending状态
任务容器未成功挂载NPU
配置正确情况下，NPU芯片故障不能触发重调度特性
任务被重调度后Pod状态不一致
使用动态虚拟化时，以普通用户运行推理业务容器失败
使用Volcano v1.7.0版本，无法查询Pod状态
执行.sh脚本，报$'\r': command not found异常
运行GPT-3模型时，出现Megatron requires CUDA的报错提示
使用Volcano和Ascend Operator组件场景下，业务面故障的任务所有Pod的Status全部变为Failed，任务无法触发无条件重试重调度
制作镜像时找不到对应的安装包
执行盘古模型的训练任务时，报错提示No module named '_sqlite3'
执行PyTorch框架的训练任务时，提示找不到amp_C
同一芯片故障反复出现，导致训练任务中断反复进行重调度
hostNetwork设置为true后，通信阻塞超时，任务失败
ClusterD不上报ConfigMap
启用进程级在线恢复后，报错There is unsafe data in the input tensor，恢复失败
执行MindSpore框架的模型训练任务，在编译时报错The pointer[origin_node_output_addr] is null
NPU Exporter组件的Pod状态为CrashLoopBackOff
执行kubectl命令报错：Error from server (Forbidden)， can only create tokens for individual service accounts
下发任务失败，未生成Pod
vcjob任务未正常拉起，get event提示tasks in gang unschedulable: pod group is not ready, 1 minAvailable
查看Pod日志出现报错：NPU is busy, check again
公共故障的恢复消息丢失，导致故障芯片一直处于隔离状态
任务申请的总芯片数量为32，sp-block设置为32可以正常训练，sp-block设置为16无法完成训练，训练容器报错提示初始化连接失败
工作节点无训练任务执行，一直无法下发新的训练任务

父主题： FAQ