推理卡故障恢复特性需要搭配整卡调度特性一起使用,开启推理卡故障恢复特性只需要将Ascend Device Plugin的启动参数“-hotReset”取值设置为“0”(默认为“-1”,不支持故障恢复功能)。具体使用方式请参考整卡调度或静态vNPU调度(推理)。
Atlas 800I A2 推理服务器、A200I A2 Box 异构组件使用推理卡故障恢复特性,仅支持下发单机单卡任务,不支持分布式任务,且需要单独使用infer-vcjob-910-hotreset.yaml示例下发任务。