昇腾社区首页
中文
注册

ModifyTrainingDataTraceSwitch

功能说明

外部调用修改各类数据动态打点开关能力。

如果通过ClusterD提供的gRPC接口这种方式开启或修改轻量profiling获取落盘数据,创建的date-trace-<任务名称> ConfigMap的生命周期会随着任务的删除而删除。当任务不存在的时候,该接口会调用失败。

函数原型

rpc ModifyTrainingDataTraceSwitch (DataTypeReq) returns (DataTypeRes)

输入参数说明

参数

类型(Protobuf定义)

说明

DataTypeReq

message DataTypeReq{

string jobNsName = 1;

ProfilingSwitch profilingSwitch = 2;

}

message ProfilingSwitch{

string CommunicationOperator = 1;

string Step = 2;

string SaveCheckpoint = 3;

string FP =4;

string DataLoader =5;

}

jobNsName:所需修改的任务的命名空间和任务名称,以’/’拼接,如:default/test-pytorch。

profilingSwitch:各类开关详情。
  • CommunicationOperator:通信算子开关。
  • Step:Step时延开关。
  • SaveCheckpoint:SaveCheckpoint耗时开关。
  • FP:前向传播数据开关。
  • DataLoader:DataLoader耗时开关。

返回值说明

参数

类型(Protobuf定义)

说明

DataTypeRes

message DataTypeRes{

string message = 1;

int32 code = 2;

}

message接口调用结果信息。

code接口调用返回码。

  • 1:300,入参不合法。
  • 2:404,无法查询ConfigMap。
  • 3:500,服务端异常。
  • 4:200,接口正常返回。