任务信息

job-summary-<任务名称>

表1 job-summary-任务名称

参数

说明

取值

hccl.json

任务使用的芯片通信信息。

可转义为json格式,字段说明如下:

  • status:任务ranktable是否已经生成。
    • initializing:还在为任务分配设备,ranktable未生成。
    • complete:当ranktable生成后,状态会立即变为complete,同步出现server_list等其他字段。
  • server_list:任务设备分配情况。
    • device:记录NPU分配,NPU IP和rank_id信息。
    • server_id:节点的ID。
    • server_name:节点名称。
  • server_count:任务使用的节点数量。
  • version:版本信息。

字符串

job_id

任务的K8s ID信息。

字符串

operator

  • add:接收到添加任务命令后状态更新为add。
  • delete:接收到删除任务命令后状态更新为delete。

字符串

deleteTime

任务被删除的时间。

字符串

sharedTorIp

任务使用的共享交换机信息。

字符串

masterAddr

pytorch训练时指定的MASTER_ADDR值。

字符串

total

ConfigMap的个数。

整数类型

time

任务开始时间。

字符串

framework

任务使用的框架。

字符串

job_status

任务状态,存在以下几种状态。

  • pending
  • running
  • complete
  • failed

字符串

job_name

任务名称

字符串

cm_index

当前configmap的序号。

字符串

current-job-statistic

用于展示集群中当前任务的统计信息,记录在/var/log/mindx-dl/clusterd/event_job.log日志文件中。由于K8s的ConfigMap容量大小限制,最大支持统计集群任务数量约为1w条。当日志文件达到20M时,触发自动转储,最多保存5份转储日志,转储日志最长保留时间为40天。

参数

说明

data

-

- ID

K8s集群分配的Job ID。

- customID

用户自定义的Job ID,如果内容为空则不展示。

- cardNum

任务使用的卡的数量,如果内容为空则不展示。

- podFirstRunTime

任务Pod第一次全部running的时间,如果内容为空则不展示。

- stopTime

任务Pod全部complete或者被强行删除的时间,如果内容为空则不展示。

- podLastRunTime

任务Pod上一次全部恢复running的时间,如果内容为空则不展示。

- podLastFaultTime

任务Pod上一次部分或者全部failed的时间,如果内容为空则不展示。

- podFaultTimes

任务故障导致pod重调度的次数,如果次数为0则不展示。

totalJob

当前集群中的总任务数。