对接第三方AI平台控制相关接口
功能说明
AI平台可通过Pod Group Annotation控制故障恢复的流程以及恢复策略。例如,平台写入Pod Group Annotation key:ProcessRecoverStrategy,且value为空时,故障恢复会被卡住,直到平台写入具体的恢复策略才会继续走恢复的流程。
Pod Group Annotation
参数  | 
取值  | 
说明  | 
|---|---|---|
ProcessRecoverStrategy  | 
retry  | 
平台启动恢复,策略为进程级在线恢复。  | 
recover  | 
平台启动恢复,策略为在线恢复  | 
|
dump  | 
平台启动恢复,策略为保存临终遗言  | 
|
空或none  | 
等待平台决策  | 
|
字段不存在  | 
关闭进程级恢复  | 
|
ProcessConfirmFault  | 
string  | 
ClusterD刷新后的故障键值对列表,格式为“id1:type1,id2:type2”的字符串。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。  | 
ProcessResultFault  | 
string  | 
平台确认的故障键值对列表,格式为“id1:type1,id2:type2”的字符串。id表示全局rankId,type表示故障类型。type为0表示故障卡只有片上内存故障,1表示至少有一个非片上内存故障。  | 
RankTableReady  | 
true  | 
平台已生成完成ranktable  | 
false或其他值  | 
平台暂未生成完成ranktable  | 
|
字段不存在  | 
非Ranktable模式  | 
|
ProcessRecoverStatus  | 
retry-success  | 
进程级在线恢复成功。  | 
retry-failed  | 
进程级在线恢复失败。  | 
|
recover-success  | 
在线恢复成功。  | 
|
recover-failed  | 
在线恢复失败  | 
|
dump-success  | 
保存临终遗言成功  | 
|
dump-failed  | 
保存临终遗言失败  | 
|
exit-completed  | 
-  | 
|
空值或其他值  | 
未恢复完成  |