昇腾社区首页
中文
注册

推理卡故障恢复

推理卡故障恢复特性需要搭配整卡调度特性一起使用,开启推理卡故障恢复特性只需要将Ascend Device Plugin的启动参数“-hotReset”取值设置为“0”(默认为“-1”,不支持故障恢复功能)。具体使用方式请参考整卡调度或静态vNPU调度(推理)

Atlas 800I A2 推理服务器A200I A2 Box 异构组件使用推理卡故障恢复特性,仅支持下发单机单卡任务,不支持分布式任务,且需要单独使用infer-vcjob-910-hotreset.yaml示例下发任务。

Atlas 800I A2 推理服务器存在以下两种故障恢复方式,一台Atlas 800I A2 推理服务器只能使用一种故障恢复方式,由集群调度组件自动识别使用哪种故障恢复方式。
  • 方式一:执行推理任务中,NPU出现故障,Ascend Device Plugin等待该NPU空闲后,将该NPU进行复位操作。
  • 方式二:执行推理任务中,Atlas 800I A2 推理服务器中出现一个或多个故障NPU,Ascend Device Plugin等待8个NPU全部空闲后,同时对8个NPU进行复位操作。