配置推理任务场景下的离线复位
当前仅支持Atlas 800I A2 推理服务器的离线复位,开启此功能,芯片发生故障后,会进行热复位操作,让芯片恢复健康。
开启MindIE Motor推理任务的离线复位功能只需要将Ascend Device Plugin的启动参数“-hotReset”取值设置为“0”或“2”。
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-hotReset |
int |
-1 |
设备热复位功能参数。开启此功能,芯片发生故障后,会进行热复位操作,让芯片恢复健康。
该参数支持的训练设备:
|

Atlas 800I A2 推理服务器存在以下两种故障恢复方式,一台Atlas 800I A2 推理服务器只能使用一种故障恢复方式,由集群调度组件自动识别使用哪种故障恢复方式。
- 方式一:若设备上不存在HCCS环,执行推理任务中,当NPU出现故障,Ascend Device Plugin等待该NPU空闲后,对该NPU进行复位操作。
- 方式二:若设备上存在HCCS环,执行推理任务中,当服务器出现一个或多个故障NPU,Ascend Device Plugin等待环上的NPU全部空闲后,一次性复位环上所有的NPU。
父主题: MindIE Motor推理任务最佳实践