常见故障处理
组件Pod状态不为Running
集群调度组件Pod处于ContainerCreating状态
用户uid或gid被占用
启动集群调度组件失败,日志打印“get sem errno =13”
设置KMC的so路径到ldconf后,可能和操作系统本身的libcrypto.so冲突
集群调度组件连接K8s异常
组件启动yaml执行成功,但看不到组件对应的Pod
NPU-Exporter的Pod状态为CrashLoopBackOff
日志出现connecting to container runtime failed
Volcano手动安装后,Pod状态为:CrashLoopBackOff
Volcano组件工作异常,日志出现Failed to get plugin volcano-npu_xxx_linux-aarch64.
HCCL-Controller日志打印Failed to watch *v1alpha1.Job
父主题:
组件状态确认