昇腾故障案例详情页

hccl.json文件没有生成

更新时间: 2023/06/13

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署MindX DL训练任务、initializing、hccl.json、命名空间、annotation

问题现象描述

当启动一个训练任务后,训练任务容器内部hccl.json文件一致处于initializing状态(默认路径:/user/serverid/devindex/config/hccl.json)。

执行kubectl exec -it XXX bash 进入容器,若Pod不在default命名空间,则需要加-n XXX指明命名空间,如:kubectl exec -it XXX -n XXX bash

原因分析

  • 原因一:HCCL-Controller没有正常启动。
  • 原因二:HCCL-Controller版本和Ascend Device Plugin版本不匹配。
  • 原因三:Ascend Device Plugin没有正确生成Pod的annotation,查看方法,执行kubectl describe pod XXX -n XXX 查看Pod的annotation。

    正常情况应该有ascend.kubectl.kubernetes.io/ascend-910-configuration或者有20.1.0及之前版本的atlas.kubectl.kubernetes.io/ascend-910-configuration的内容。

解决措施

  • 原因一:参考安装HCCL-Controller,重新安装HCCL-Controller。
  • 原因二:参考表2 软件环境,重新安装HCCL-Controller和Ascend Device Plugin。
  • 原因三:没有对应的annotation,可能是因为Ascend Device Plugin没有正确获取到device ip导致的,请确保安装完驱动后,正确配置了device ip,请参见《CANN 软件安装指南》中“安装开发环境(训练) > 修改NPU卡IP地址”章节。

本页内容

该页面对您有帮助吗?
我要评分