昇腾社区首页
中文
注册

tft_register_rebuild_group_handler

接口功能

注册MindIO ARF重新建组的回调函数。

对于MindSpeed-LLM和MindSpeed训练框架,回调函数已由MindIO TFT完成适配;其他框架,回调函数的安全性需由用户保证。

接口格式

mindio_ttp.framework_ttp.tft_register_rebuild_group_handler(func: Callable, ctx = None)

接口参数

参数

是否必选

说明

取值要求

func

必选

MindIO ARF重新建组的回调函数,完成正常节点与重启节点清理旧通信组并重建新通信组的功能。

回调函数执行超时时间默认180秒,超时会导致流程执行失败,用户可通过环境变量TTP_NORMAL_ACTION_TIME_LIMIT设置超时时间。

回调函数,不为空,回调函数入参要求请参见表1,约定该回调函数无返回值,执行失败抛出异常。

ctx

可选

回调函数上下文。

默认为空。

表1 回调函数参数

参数

是否必选

说明

取值要求

fault_ranks

-

故障卡集合。

list。

args

-

tft_set_step_args设置的参数。

由注册方决定。

ctx

-

回调函数上下文。

由注册方决定。

返回值

无返回值,出错会打印ERROR日志、抛出异常。