开发者
资源

hccl.json文件没有生成

问题现象描述

当启动一个训练任务后,训练任务容器内部hccl.json文件处于initializing状态(文件默认路径:“/user/serverid/devindex/config/hccl.json”)。

执行kubectl exec -it XXX bash 进入容器,若Pod不在default命名空间,则需要加-n XXX指明命名空间,如:kubectl exec -it XXX -n XXX bash

原因分析

  • 原因一:MindCluster HCCL Controller没有正常启动。
  • 原因二:MindCluster Ascend Device Plugin启动参数配置了“-volcanoType=false”,可通过如下命令进行确认。
    ps -ef | grep "device-plugin"
  • 原因三:若MindCluster Ascend Device Plugin组件日志出现如下内容,表示MindCluster Ascend Device Plugin没有正确获取到device ip导致无法写Pod的Annotations。
    Get device ip failed

解决措施

原因一:参考HCCL Controller章节,重新安装MindCluster HCCL Controller

原因二:参考Ascend Device Plugin,修改MindCluster Ascend Device Plugin的启动参数“-volcanoType=true”之后再重新apply对应的yaml文件。

原因三:正确配置device ip,请参见《ascend-deployer用户指南》中的“使用HCCN Tool工具配置”章节。