昇腾社区首页
中文
注册

SwitchNicTrack

功能说明

接收运维平台的借轨请求,将训练任务的指定节点的Device下发借轨/回切操作,该接口需要等待训练任务已经成功运行,出迭代以后再调用,保证任务已经注册到ClusterD。借轨/回切接口属于人工运维操作,对于反复切换场景,若每次切换都失败,会导致频繁保存CKPT,存在磁盘爆盘的风险。

请在训练正常迭代后,再进行借轨或回切命令的下发。

函数原型

rpc SwitchNicTrack(SwitchNics) returns (Status) {}

输入参数说明

参数

类型(Protobuf定义)

说明

SwitchNics

message SwitchNics{

string jobID;

map<string, DeviceList> nicOps;

}

message DeviceList{

repeated string dev;

repeated bool op;

}

SwitchNics.jobID:任务ID

SwitchNics.nicOps:用户下发借轨/回切指令的设备与操作。Key为node name,value为该节点要操作的Device。

DeviceList.dev该节点上的DeviceID列表,DeviceList.op数量保持一致。

DeviceList.op:该节点的DeviceID对应设备要执行的借轨操作列表。true表示切换到备用链路,false表示使用主链路。

返回值说明

参数

类型(Protobuf定义)

说明

Status

message Status{

int32 code = 1;

string info = 2;

}

Status.code返回码。

  • 取值为0:表示下发指令成功。
  • 其他值:表示下发失败。

Status.info返回信息描述。