tft_register_repair_handler
接口功能
注册repair回调函数。

- 对于MindSpeed-LLM和MindSpeed训练框架,回调函数已由MindIO TFT完成适配;其他框架,回调函数的安全性需由用户保证。
- MindIO TFT已在回调函数中对模型优化器中的变量进行重建与覆写,用户在框架中自定义的其他参与计算的变量,需在repair中自行实现对其的重建与覆写。
接口格式
mindio_ttp.framework_ttp.tft_register_repair_handler(func: Callable, ctx = None)
接口参数
参数 |
是否必选 |
说明 |
取值要求 |
---|---|---|---|
func |
必选 |
repair回调函数,完成优化器修复等数据修复功能。 回调函数执行超时时间默认180秒,超时会导致流程执行失败,用户可通过设置环境变量TTP_NORMAL_ACTION_TIME_LIMIT设置超时时间。 |
回调函数,不为空,回调函数入参要求请参见表1,约定该回调函数无返回值,执行失败抛出异常。 |
ctx |
可选 |
回调上下文。 |
默认为空。 |
参数 |
是否必选 |
说明 |
取值要求 |
---|---|---|---|
step |
- |
修复时对应的step。 |
正整数。 |
need_rebuild |
- |
修复是否需要重建模型和优化器。 |
|
error_ranks |
- |
需要修复的故障卡list。 |
list。 |
repair_info |
- |
修复策略dict,其中优化器类型按照ATTENTION:0、MOE:1的关系对应。 |
{ "type": int,优化器类型 "repair_type": Enum,枚举类型取值参考5.34-RepairType "src": list,优化器修复数据的来源卡列表 "dst": list,优化器修复数据的目的卡列表 "rank_list": list,修复通信组建立所需要的卡列表 } |
args |
- |
tft_set_step_args设置的参数。 |
由注册方决定。 |
ctx |
- |
回调函数上下文。 |
由注册方决定。 |
返回值
无返回值,出错会打印ERROR日志、抛出异常。
父主题: API接口参考