开发者
资源

ClusterD

  1. MindCluster ClusterD组件提供集群作业信息汇总功能,若要使用此功能,请确保任务yaml中已经为任务Pod打上相应产品形态的标签。如使用Atlas A2 训练系列产品的用户,标签为ring-controller.atlas=ascend-{xxx}b。{xxx}表示芯片的型号数值。
  2. 下发作业后MindCluster ClusterD会生成ConfigMap,该ConfigMap名称为job-summary-<任务名称>,命名空间与任务命名空间一致。Label为outside-job-info=true和ring-controller.atlas=ascend-910。该ConfigMap的示例如下,仅做参考,请以实际为准。ConfigMap的关键参数说明如表1所示。
    Name:         job-summary-mindx-dls-test
    Namespace:    vcjob
    Labels:       outside-job-info=true
                  ring-controller.atlas=ascend-910
    Annotations:  <none>
    Data
    ====
    delete
    time:
    ----
    1723093726
    deleteTime:
    ----
    1723097323
    framework:
    ----
    mindspore
    hccl.json:
    ----
    {"status":"complete","server_list":[{"device":[{"device_id":"0","device_ip":"192.168.100.xx","rank_id":"0"},{"device_id":"1","device_ip":"192.168.100.131","rank_id":"1"}],"server_id":"90.90.93.142","server_name":"cyyun22"}],"server_count":"1","version":"1.0"}
    job_id:
    ----
    f479a91a-25a6-4568-8c19-678c08ce8db8
    job_name:
    ----
    mindx-dls-test
    job_status:
    ----
    complete
    operator:
    ----
    delete
表1 参数说明

参数名

描述

job_id

任务uid信息。

job_name

任务名字。

job_status

任务当前状态,存在以下几种状态。

  • pending
  • running
  • complete
  • failed

operator

  • add:接收到添加任务命令后状态更新为add。
  • delete:接收到删除任务命令后状态更新为delete。

time

任务开始时间。

deleteTime

任务删除时间。

hccl.json

可转义为json格式,字段说明如下:

  • status:任务ranktable是否已经生成。
    • initializing:还在为任务分配设备,ranktable未生成。
    • complete:当ranktable生成后,状态会立即变为complete,同步出现server_list等其他字段。
  • server_list:任务设备分配情况。
    • device:记录NPU分配,NPU IP和rank_id信息。
    • server_id:节点的ID。
    • erver_name:节点名称。
  • server_count:任务使用的节点数量。
  • version:版本信息。