配置优雅容错
本章节将指导用户了解配置优雅容错的关键步骤。优雅容错的特性介绍、使用约束、支持的产品型号及原理请参见(可选)优雅容错。
配置启动YAML
修改Ascend Device Plugin组件的启动YAML,设置 -hotReset=1开启热复位,使用优雅容错模式。注意:优雅容错和进程级别重调度、进程级在线恢复不可同时开启。
...
containers:
- image: ascend-k8sdeviceplugin:v7.0.RC1
name: device-plugin-01
resources:
requests:
memory: 500Mi
cpu: 500m
limits:
memory: 500Mi
cpu: 500m
command: [ "/bin/bash", "-c", "--"]
args: [ "device-plugin
-useAscendDocker=true
-volcanoType=true # 重调度场景下必须使用Volcano
-autoStowing=true # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealthy变为healthy后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品
-listWatchPeriod=5 # 健康状态检查周期,范围[3,60];默认秒
-hotReset=1 # 使用断点续训时,可以在Job级或Pod级重调度的基础上,开启热复位功能,使用优雅容错模式
-logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log
-logLevel=0" ]
securityContext:
privileged: true
readOnlyRootFilesystem: true
...
父主题: 配置故障处理