昇腾社区首页
中文
注册

tft_register_mindx_callback

接口功能

提供给MindCluster调用,向MindIO TFT注册修复流程回调函数接口。

接口格式

mindio_ttp.controller_ttp.tft_register_mindx_callback(action: str, func: Callable)

接口参数

参数

是否必选

说明

取值要求

action

必选

回调函数要注册的动作名。

str,支持的动作名如下:

  • report_fault_ranks
  • report_stop_complete
  • report_strategies
  • report_result

func

必选

要注册的函数。

回调函数,不为空,回调函数入参详情请参见表1 ~ 表4

表1 action为report_fault_ranks时回调函数参数

参数

是否必选

说明

取值要求

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号。
  • errorType为故障类型:
    • 0:UCE故障。
    • 1:非UCE故障。
表2 action为report_stop_complete时回调函数参数

参数

是否必选

说明

取值要求

code

-

action执行结果。

  • 0:成功。
  • 400:普通错误。
  • 401:MindCluster task id不存在。
  • 402:模型错误。
  • 403:顺序错误。
  • 404:Processor未全部准备就绪。

msg

-

训练是否停止消息。

str。

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号
  • errorType为故障类型:
    • 0:UCE故障。
    • 1:非UCE故障。
表3 action为report_strategies时回调函数参数

参数

是否必选

说明

取值要求

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号。
  • errorType为故障类型:
    • 0:UCE故障。
    • 1:非UCE故障。

strategy_list

-

基于当前可用的副本信息,MindIO TFT支持的修复策略列表。

list,支持的修复策略可选值如下(str):

  • retry:执行UCE修复。
  • recover:执行ARF修复。
  • dump:执行临终遗言。
  • exit:退出。
表4 action为report_result时回调函数参数

参数

是否必选

说明

取值要求

code

-

action的执行结果。

  • 0:修复成功。
  • 405:retry修复失败,支持做recover、dump、exit修复策略。
  • 406:修复失败,支持做dump或exit修复策略。
  • 499:修复失败,仅支持exit策略。

msg

-

修复成功或失败的消息。

str

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号。
  • errorType为故障类型:
    • 0:UCE故障。
    • 1:非UCE故障。

curr_strategy

-

本次修复策略。

str,支持的修复策略取值范围为表3中的strategy_list。

返回值

  • 0:调用成功
  • 1:调用失败