昇腾社区首页
中文
注册

tft_register_mindx_callback

接口功能

提供给MindCluster调用,向MindIO TFT注册修复流程回调函数接口。

接口格式

mindio_ttp.controller_ttp.tft_register_mindx_callback(action: str, func: Callable)

接口参数

参数

是否必选

说明

取值要求

action

必选

回调函数要注册的动作名。

str,支持的动作名如下:

  • report_fault_ranks
  • report_stop_complete
  • report_strategies
  • report_result

func

必选

要注册的函数。

回调函数,不为空,回调函数入参要求请参见下表。

表1 action为report_fault_ranks时回调函数参数

参数

是否必选

说明

取值要求

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号
  • errorType为故障类型:
    • 0:UCE故障
    • 1:非UCE故障
表2 action为report_stop_complete时回调函数参数

参数

是否必选

说明

取值要求

code

-

action执行结果。

  • 0:成功
  • 400:普通错误
  • 401:MindCluster task id不存在
  • 402:模型错误
  • 403:顺序错误
  • 404:Processor未全部准备好

msg

-

训练是否停止消息。

str

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号
  • errorType为故障类型:
    • 0:UCE故障
    • 1:非UCE故障
表3 action为report_strategies时回调函数参数

参数

是否必选

说明

取值要求

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号
  • errorType为故障类型:
    • 0:UCE故障
    • 1:非UCE故障

strategy_list

-

基于当前可用的副本信息,MindIO TFT支持的修复策略列表。

list,支持的修复策略可选值如下(str):

  • retry
  • recover
  • dump
  • exit
表4 action为report_result时回调函数参数

参数

是否必选

说明

取值要求

code

-

action的执行结果。

  • 0:修复成功。
  • 405:retry修复失败,支持做recover、dump、exit修复策略。
  • 406:修复失败,支持做dump或exit修复策略。
  • 499:修复失败,仅支持exit策略。

msg

-

修复成功或失败的消息。

str

error_rank_dict

-

发生故障的卡信息。

<int key, int errorType>字典:

  • key为故障卡的rank号
  • errorType为故障类型:
    • 0:UCE故障
    • 1:非UCE故障

curr_strategy

-

本次修复策略。

str,支持的修复策略取值范围为表3中的strategy_list。

返回值

  • 0:调用成功
  • 1:调用失败