SwitchNicTrack
功能说明
接收运维平台的借轨请求,将训练任务的指定节点的Device下发借轨/回切操作,该接口需要等待训练任务已经成功运行,出迭代以后再调用,保证任务已经注册到ClusterD。借轨/回切接口属于人工运维操作,对于反复切换场景,若每次切换都失败,会导致频繁保存CKPT,存在磁盘爆盘的风险。

请在训练正常迭代后,再进行借轨或回切命令的下发。
函数原型
rpc SwitchNicTrack(SwitchNics) returns (Status) {}
输入参数说明
参数 |
类型(Protobuf定义) |
说明 |
---|---|---|
SwitchNics |
message SwitchNics{ string jobID; map<string, DeviceList> nicOps; } message DeviceList{ repeated string dev; repeated bool op; } |
SwitchNics.jobID:任务ID SwitchNics.nicOps:用户下发借轨/回切指令的设备与操作。Key为node name,value为该节点要操作的Device。 DeviceList.dev:该节点上的DeviceID列表,与DeviceList.op数量保持一致。 DeviceList.op:该节点的DeviceID对应设备要执行的借轨操作列表。true表示切换到备用链路,false表示使用主链路。 |
返回值说明
参数 |
类型(Protobuf定义) |
说明 |
---|---|---|
Status |
message Status{ int32 code = 1; string info = 2; } |
Status.code:返回码。
Status.info:返回信息描述。 |
父主题: 借轨回切接口