昇腾社区首页
中文
注册

任务信息

job-summary-<任务名称>

表1 job-summary-任务名称

参数

说明

取值

hccl.json

任务使用的芯片通信信息。

可转义为json格式,字段说明如下:

  • status:任务ranktable是否已经生成。
    • initializing:还在为任务分配设备,ranktable未生成。
    • complete:当ranktable生成后,状态会立即变为complete,同步出现server_list等其他字段。
  • server_list:任务设备分配情况。
    • device:记录NPU分配,NPU IP和rank_id信息。
    • server_id:节点的ID。
    • server_name:节点名称。
  • server_count:任务使用的节点数量。
  • version:版本信息。

字符串

job_id

任务的k8s ID信息。

字符串

operator

  • add:接收到添加任务命令后状态更新为add。
  • delete:接收到删除任务命令后状态更新为delete。

字符串

deleteTime

任务被删除的时间。

字符串

sharedTorIp

任务使用的共享交换机信息。

字符串

MASTER_ADDR

masterAddr pytorch训练时指定的MASTER_ADDR值。

字符串

total

ConfigMap的个数。

整数类型

time

任务开始时间。

字符串

framework

任务使用的框架。

字符串

job_status

任务状态,存在以下几种状态。

  • pending
  • running
  • complete
  • failed

字符串

job_name

任务名称

字符串

cm_index

当前configmap的序号。

字符串