本章节将指导用户了解配置优雅容错的关键步骤。优雅容错的特性介绍、使用约束、支持的产品型号及原理请参见(可选)优雅容错。
修改Ascend Device Plugin组件的启动YAML,设置 -hotReset=1开启热复位,使用优雅容错模式。注意:优雅容错和进程级别重调度、进程级在线恢复不可同时开启。
... containers: - image: ascend-k8sdeviceplugin:v7.0.RC1 name: device-plugin-01 resources: requests: memory: 500Mi cpu: 500m limits: memory: 500Mi cpu: 500m command: [ "/bin/bash", "-c", "--"] args: [ "device-plugin -useAscendDocker=true -volcanoType=true # 重调度场景下必须使用Volcano -autoStowing=true # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealthy变为healthy后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品 -listWatchPeriod=5 # 健康状态检查周期,范围[3,60];默认秒 -hotReset=1 # 使用断点续训时,可以在重调度的基础上,开启热复位功能,使用优雅容错模式 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log -logLevel=0" ] securityContext: privileged: true readOnlyRootFilesystem: true ...