昇腾社区首页
中文
注册

tft_register_repair_handler

接口功能

注册repair回调函数。

  • 对于MindSpeed-LLM和MindSpeed训练框架,回调函数已由MindIO TFT完成适配;其他框架,回调函数的安全性需由用户保证。
  • MindIO TFT已在回调函数中对模型优化器中的变量进行重建与覆写,用户在框架中自定义的其他参与计算的变量,需在repair中自行实现对其的重建与覆写。

接口格式

mindio_ttp.framework_ttp.tft_register_repair_handler(func: Callable, ctx = None)

接口参数

参数

是否必选

说明

取值要求

func

必选

repair回调函数,完成优化器修复等数据修复功能。

回调函数执行超时时间默认180秒,超时会导致流程执行失败,用户可通过设置环境变量TTP_NORMAL_ACTION_TIME_LIMIT设置超时时间。

回调函数,不为空,回调函数入参要求请参见表1,约定该回调函数无返回值,执行失败抛出异常。

ctx

可选

回调上下文。

默认为空。

表1 回调函数参数

参数

是否必选

说明

取值要求

step

-

修复时对应的step。

正整数。

need_rebuild

-

修复是否需要重建模型和优化器。

  • False:无需重建。
  • True:需要重建。

error_ranks

-

需要修复的故障卡list。

list。

repair_info

-

修复策略dict,其中优化器类型按照ATTENTION:0、MOE:1的关系对应。

{
"type": int,优化器类型
"repair_type": Enum,枚举类型取值参考5.34-RepairType
"src": list,优化器修复数据的来源卡列表
"dst": list,优化器修复数据的目的卡列表
"rank_list": list,修复通信组建立所需要的卡列表
}

args

-

tft_set_step_args设置的参数。

由注册方决定。

ctx

-

回调函数上下文。

由注册方决定。

返回值

无返回值,出错会打印ERROR日志、抛出异常。