当启动一个训练任务后,训练任务容器内部hccl.json文件处于initializing状态(文件默认路径:“/user/serverid/devindex/config/hccl.json”)。
执行kubectl exec -it XXX bash命令进入容器,若Pod不在default命名空间,则需要加-n XXX指明命名空间,如:kubectl exec -it XXX -n XXX bash。
ps -ef | grep "device-plugin"
Get device ip failed
针对原因一:参考安装Ascend Operator章节,重新安装Ascend Operator。
针对原因二:参考Ascend Device Plugin章节,修改Ascend Device Plugin的启动参数“-volcanoType=true”之后再重新apply对应的yaml文件。
针对原因三:正确配置device ip,请参见《MindCluster Ascend Deployer用户指南》中的“使用HCCN Tool工具配置”章节。