配置推理任务场景下的离线复位
当前仅支持Atlas 800I A2 推理服务器、Atlas 800I A3 超节点服务器的离线复位,开启此功能,芯片发生故障后,Ascend Device Plugin会进行热复位操作,使芯片恢复健康。
开启MindIE Motor推理任务的离线复位功能只需要将Ascend Device Plugin的启动参数“-hotReset”取值设置为“0”或“2”。
参数 |
类型 |
默认值 |
说明 |
|---|---|---|---|
-hotReset |
int |
-1 |
设备热复位功能参数。开启此功能,芯片发生故障后,Ascend Device Plugin会进行热复位操作,使芯片恢复健康。
说明:
取值为1对应的功能已经日落,请配置其他取值。 该参数支持的训练设备:
|
Atlas 800I A2 推理服务器存在以下两种故障恢复方式,一台Atlas 800I A2 推理服务器只能使用一种故障恢复方式,由集群调度组件自动识别使用哪种故障恢复方式。
- 方式一:若设备上不存在HCCS环,在执行推理任务时,当NPU出现故障,Ascend Device Plugin等待该NPU空闲后,对该NPU进行复位操作。
- 方式二:若设备上存在HCCS环,在执行推理任务时,当服务器出现一个或多个故障NPU,Ascend Device Plugin等待环上的NPU全部空闲后,一次性复位环上所有的NPU。
父主题: MindIE Motor推理任务最佳实践