昇腾社区首页
中文
注册

对接第三方AI平台相关接口

功能说明

AI平台可通过Pod Group Annotation控制故障恢复的流程以及恢复策略。例如,平台写入Pod Group Annotation,当key取值为ProcessRecoverStrategy,且value为空时,故障恢复会被卡住,直到平台写入具体的恢复策略才会继续走恢复的流程。

Pod Group Annotation

表1 参数说明

参数

取值

说明

ProcessRecoverStrategy

retry

平台启动恢复,策略为进程级在线恢复。

recover

平台启动恢复,策略为在线恢复

dump

平台启动恢复,策略为保存临终遗言

空或none

等待平台决策

字段不存在

关闭进程级恢复

ProcessConfirmFault

string

ClusterD刷新后的故障键值对列表,格式为“id1:type1,id2:type2的字符串”。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。

ProcessResultFault

string

平台确认的故障键值对列表,格式为“id1:type1,id2:type2”的字符串。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。

RankTableReady

true

平台已生成完成ranktable

false或其他值

平台暂未生成完成ranktable

字段不存在

Ranktable模式

ProcessRecoverStatus

retry-success

进程级在线恢复成功。

retry-failed

进程级在线恢复失败。

recover-success

在线恢复成功

recover-failed

在线恢复失败

dump-success

保存临终遗言成功

dump-failed

保存临终遗言失败

exit-completed

-

空值或其他值

未恢复完成