昇腾社区首页
中文
注册

SubscribeJobSummarySignal

功能说明

接收客户端的任务信息变更订阅,当任务状态改变时,向注册的客户端广播推送。当连接两分钟内无消息且无心跳时,服务端主动断开该连接,并释放订阅。

函数原型

rpc SubscribeJobSummarySignal(ClientInfo) returns (stream JobSummarySignal){}

输入参数说明

参数

类型(Protobuf定义)

说明

ClientInfo

message ClientInfo{

string role = 1;

string clientId = 3;

}

ClientInfo.role客户端角色

ClientInfo.clientId:客户端ID

返回值说明

返回值

类型(Protobuf定义)

说明

Stream

grpc stream

该接口返回gRPC stream(返回值的具体数据结构基于客户端选择的编程语言)。

客户端可以调用stream的Receive方法(具体方法名基于客户端选择的编程语言)接收服务端推送的数据。

发送数据说明

参数

类型(Protobuf定义)

说明

JobSummarySignal

message JobSummarySignal{

string uuid = 1;

string jobId = 2;

string jobName = 3;

string namespace =4;

string frameWork = 5;

string jobStatus = 6;

string time = 7;

string cmIndex = 8;

string total = 9;

string HcclJson = 10;

string deleteTime = 11;

string sharedTorIp = 12;

string masterAddr = 13;

string operator = 14;

}

uuid:本条消息ID

jobId:任务的K8s ID信息

jobName:当前任务的名称

namespace:任务所属命名空间

frameWork:任务框架

jobStatus:任务状态,存在以下几种状态。

  • pending
  • running
  • complete
  • failed

time:任务开始时间

cmIndex:序号

total:任务对应的jobsummary ConfigMap的数量总数

HcclJson:任务使用的芯片通信信息

可转义为JSON格式,字段说明如下:

  • status:任务RankTable是否已经生成
  • initializing:还在为任务分配设备,RankTable未生成
  • complete:当RankTable生成后,状态会立即变为complete,同步出现server_list等其他字段
  • server_list:任务设备分配情况
  • device:记录NPU分配,NPU IP和rank_id信息
  • server_id:节点的ID
  • server_name:节点名称
  • server_sn:节点的SN号。需要保证设备的SN存在。若不存在,请联系华为技术支持
  • server_count:任务使用的节点数量
  • version:版本信息

deleteTime:任务被删除的时间

sharedTorIp:任务使用的共享交换机信息

masterAddr:PyTorch训练时指定的MASTER_ADDR值

operator:接收到添加任务命令后状态更新为add

delete:接收到删除任务命令后状态更新为delete