对接第三方AI平台相关接口
功能说明
AI平台可通过Pod Group Annotation控制故障恢复的流程以及恢复策略。例如,平台写入Pod Group Annotation,当key取值为ProcessRecoverStrategy,且value为空时,故障恢复会被卡住,直到平台写入具体的恢复策略才会继续走恢复的流程。
Pod Group Annotation
参数 |
取值 |
说明 |
---|---|---|
ProcessRecoverStrategy |
retry |
平台启动恢复,策略为进程级在线恢复。 |
recover |
平台启动恢复,策略为在线恢复 |
|
dump |
平台启动恢复,策略为保存临终遗言 |
|
空或none |
等待平台决策 |
|
字段不存在 |
关闭进程级恢复 |
|
ProcessConfirmFault |
string |
ClusterD刷新后的故障键值对列表,格式为“id1:type1,id2:type2的字符串”。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。 |
ProcessResultFault |
string |
平台确认的故障键值对列表,格式为“id1:type1,id2:type2”的字符串。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。 |
RankTableReady |
true |
平台已生成完成ranktable。 |
false或其他值 |
平台暂未生成完成ranktable。 |
|
字段不存在 |
非Ranktable模式。 |
|
ProcessRecoverStatus |
retry-success |
进程级在线恢复成功。 |
retry-failed |
进程级在线恢复失败。 |
|
recover-success |
在线恢复成功。 |
|
recover-failed |
在线恢复失败。 |
|
dump-success |
保存临终遗言成功。 |
|
dump-failed |
保存临终遗言失败。 |
|
exit-completed |
- |
|
空值或其他值 |
未恢复完成。 |