SubscribeJobSummarySignal
功能说明
接收客户端的任务信息变更订阅,当任务状态改变时,向注册的客户端广播推送。当连接两分钟内无消息且无心跳时,服务端主动断开该连接,并释放订阅。
函数原型
rpc SubscribeJobSummarySignal(ClientInfo) returns (stream JobSummarySignal){}
输入参数说明
参数 |
类型(Protobuf定义) |
说明 |
---|---|---|
ClientInfo |
message ClientInfo{ string role = 1; string clientId = 3; } |
ClientInfo.role:客户端角色 ClientInfo.clientId:客户端ID |
返回值说明
返回值 |
类型(Protobuf定义) |
说明 |
---|---|---|
Stream |
grpc stream |
该接口返回gRPC stream(返回值的具体数据结构基于客户端选择的编程语言)。 客户端可以调用stream的Receive方法(具体方法名基于客户端选择的编程语言)接收服务端推送的数据。 |
发送数据说明
参数 |
类型(Protobuf定义) |
说明 |
---|---|---|
JobSummarySignal |
message JobSummarySignal{ string uuid = 1; string jobId = 2; string jobName = 3; string namespace =4; string frameWork = 5; string jobStatus = 6; string time = 7; string cmIndex = 8; string total = 9; string HcclJson = 10; string deleteTime = 11; string sharedTorIp = 12; string masterAddr = 13; string operator = 14; } |
uuid:本条消息ID jobId:任务的K8s ID信息 jobName:当前任务的名称 namespace:任务所属命名空间 frameWork:任务框架 jobStatus:任务状态,存在以下几种状态。
time:任务开始时间 cmIndex:序号 total:任务对应的jobsummary ConfigMap的数量总数 HcclJson:任务使用的芯片通信信息 可转义为JSON格式,字段说明如下:
deleteTime:任务被删除的时间 sharedTorIp:任务使用的共享交换机信息 masterAddr:PyTorch训练时指定的MASTER_ADDR值 operator:接收到添加任务命令后状态更新为add delete:接收到删除任务命令后状态更新为delete |