开发者
资源

特性说明

在无K8s的场景下,训练或推理进程异常后,没有有效的恢复手段。为了解决上述问题,可以配置容器恢复特性。若要支持容器恢复特性,需要安装Container Manager组件。Container Manager组件的安装操作详细请参见安装部署

功能名称

说明

原理介绍及配置步骤

故障检测

该特性具有故障检测功能,支持实时监测350+硬件类故障的故障检测。

故障检测

故障处理

该特性具有故障处理功能,针对故障级别配置为RestartRequestCodes、RestartBusinessCodes、FreeRestartNPUCodes和RestartNPUCodes的故障,故障发生后不需要人工介入就可自动恢复故障设备。

故障处理

容器恢复

该特性具有容器恢复功能,用户可配置容器启停的策略,针对故障级别配置为RestartRequestCodes、RestartBusinessCodes、FreeRestartNPUCodes和RestartNPUCodes的故障,故障发生时将容器停止,故障恢复后重新将容器拉起。

容器恢复

本特性不适用于算力虚拟化场景,不支持共享设备特性及混插模式。