(可选)使用Volcano交换机亲和性调度

MindCluster Volcano组件支持交换机的亲和性调度。使用该功能需要上传交换机与服务器节点的对应关系以供MindCluster Volcano使用,操作步骤如下。

当前只支持训练任务进行整卡的交换机亲和性调度,不支持推理任务,也不支持静态或动态vNPU调度。

操作步骤

  1. 准备部署环境的网络设计LLD文档,将其上传到K8s管理节点的任意目录(以“/home/tor-affinity”为例)。

    LLD文件名需要是lld.xlsx。

  2. 获取LLD文档解析脚本。

    进入MindXDL-deploy仓库,下载“training_toolkit/training_toolkit/utils”目录中的lld_to_cm.py文件,将该文件上传到管理节点步骤1中的目录下。

  3. 执行以下命令,启动“lld_to_cm.py”脚本。

    python ./lld_to_cm.py --num 32
    • 使用--num(或-n)子命令指定一个交换机下的节点个数,不指定该参数时默认取值为4。
    • 该脚本需要使用到openpyxl模块,如果安装环境缺少该模块,可以使用pip install openpyxl命令进行安装。

  4. 执行以下命令,检查ConfigMap是否创建成功。

    kubectl get cm -n kube-system basic-tor-node-cm

    回显示例如下,表示创建成功。

    NAME                DATA   AGE
    basic-tor-node-cm   1      8s