配置优雅容错

本章节将指导用户了解配置优雅容错的关键步骤。优雅容错的特性介绍、使用约束、支持的产品型号及原理请参见(可选)优雅容错

配置启动YAML

修改Ascend Device Plugin组件的启动YAML,设置 -hotReset=1开启热复位,使用优雅容错模式。注意:优雅容错和进程级别重调度、进程级在线恢复不可同时开启。

...
      containers:
      - image: ascend-k8sdeviceplugin:v7.0.RC1
        name: device-plugin-01
        resources:
          requests:
            memory: 500Mi
            cpu: 500m
          limits:
            memory: 500Mi
            cpu: 500m
        command: [ "/bin/bash", "-c", "--"]
        args: [ "device-plugin  
                 -useAscendDocker=true 
                 -volcanoType=true                    # 重调度场景下必须使用Volcano
                 -autoStowing=true                    # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealthy变为healthy后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品
                 -listWatchPeriod=5                   # 健康状态检查周期,范围[3,60];默认秒
                 -hotReset=1      # 使用断点续训时,可以在重调度的基础上,开启热复位功能,使用优雅容错模式
                 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log 
                 -logLevel=0" ]
        securityContext:
          privileged: true
          readOnlyRootFilesystem: true
...