参数 |
说明 |
取值 |
---|---|---|
hccl.json |
任务使用的芯片通信信息。 可转义为json格式,字段说明如下:
|
字符串 |
job_id |
任务的K8s ID信息。 |
字符串 |
operator |
|
字符串 |
deleteTime |
任务被删除的时间。 |
字符串 |
sharedTorIp |
任务使用的共享交换机信息。 |
字符串 |
masterAddr |
pytorch训练时指定的MASTER_ADDR值。 |
字符串 |
total |
ConfigMap的个数。 |
整数类型 |
time |
任务开始时间。 |
字符串 |
framework |
任务使用的框架。 |
字符串 |
job_status |
任务状态,存在以下几种状态。
|
字符串 |
job_name |
任务名称 |
字符串 |
cm_index |
当前configmap的序号。 |
字符串 |
用于展示集群中当前任务的统计信息,记录在/var/log/mindx-dl/clusterd/event_job.log日志文件中。由于K8s的ConfigMap容量大小限制,最大支持统计集群任务数量约为1w条。当日志文件达到20M时,触发自动转储,最多保存5份转储日志,转储日志最长保留时间为40天。
参数 |
说明 |
---|---|
data |
- |
- ID |
K8s集群分配的Job ID。 |
- customID |
用户自定义的Job ID,如果内容为空则不展示。 |
- cardNum |
任务使用的卡的数量,如果内容为空则不展示。 |
- podFirstRunTime |
任务Pod第一次全部running的时间,如果内容为空则不展示。 |
- stopTime |
任务Pod全部complete或者被强行删除的时间,如果内容为空则不展示。 |
- podLastRunTime |
任务Pod上一次全部恢复running的时间,如果内容为空则不展示。 |
- podLastFaultTime |
任务Pod上一次部分或者全部failed的时间,如果内容为空则不展示。 |
- podFaultTimes |
任务故障导致pod重调度的次数,如果次数为0则不展示。 |
totalJob |
当前集群中的总任务数。 |