ClusterD
- MindCluster ClusterD组件提供集群作业信息汇总功能,若要使用此功能,请确保任务yaml中已经为任务Pod打上相应产品形态的标签。如使用Atlas A2 训练系列产品的用户,标签为ring-controller.atlas=ascend-{xxx}b。{xxx}表示芯片的型号数值。
- 下发作业后MindCluster ClusterD会生成ConfigMap,该ConfigMap名称为job-summary-<任务名称>,命名空间与任务命名空间一致。Label为outside-job-info=true和ring-controller.atlas=ascend-910。该ConfigMap的示例如下,仅做参考,请以实际为准。ConfigMap的关键参数说明如表1所示。
Name: job-summary-mindx-dls-test Namespace: vcjob Labels: outside-job-info=true ring-controller.atlas=ascend-910 Annotations: <none> Data ==== delete time: ---- 1723093726 deleteTime: ---- 1723097323 framework: ---- mindspore hccl.json: ---- {"status":"complete","server_list":[{"device":[{"device_id":"0","device_ip":"192.168.100.xx","rank_id":"0"},{"device_id":"1","device_ip":"192.168.100.131","rank_id":"1"}],"server_id":"90.90.93.142","server_name":"cyyun22"}],"server_count":"1","version":"1.0"} job_id: ---- f479a91a-25a6-4568-8c19-678c08ce8db8 job_name: ---- mindx-dls-test job_status: ---- complete operator: ---- delete
参数名 |
描述 |
|---|---|
job_id |
任务uid信息。 |
job_name |
任务名字。 |
job_status |
任务当前状态,存在以下几种状态。
|
operator |
|
time |
任务开始时间。 |
deleteTime |
任务删除时间。 |
hccl.json |
可转义为json格式,字段说明如下:
|