昇腾社区首页
中文
注册

配置优雅容错

本章节将指导用户了解配置优雅容错的关键步骤。优雅容错的特性介绍、使用约束、支持的产品型号及原理请参见(可选)优雅容错

构建镜像

使用Dockerfile构建容器镜像,新增启动命令。

# MindCluster断点续训适配脚本,MINDIO_TTP_PKG为MindIO的whl安装包的路径,请根据实际情况填写
RUN pip3 install $MINDIO_TTP_PKG 

配置启动YAML

修改Ascend Device Plugin组件的启动YAML,设置 -hotReset=1开启热复位,使用优雅容错模式。注意:优雅容错和进程级别重调度、进程级在线恢复不可同时开启。

...
      containers:
      - image: ascend-k8sdeviceplugin:v{version}
        name: device-plugin-01
        resources:
          requests:
            memory: 500Mi
            cpu: 500m
          limits:
            memory: 500Mi
            cpu: 500m
        command: [ "/bin/bash", "-c", "--"]
        args: [ "device-plugin  
                 -useAscendDocker=true 
                 -volcanoType=true                    # 重调度场景下必须使用Volcano
                 -autoStowing=true                    # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealthy变为healthy后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品
                 -listWatchPeriod=5                   # 设置健康状态检查周期,范围[3,1800];单位为秒
                 -hotReset=1      # 使用断点续训时,可以在Job级或Pod级重调度的基础上,开启热复位功能,使用优雅容错模式
                 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log 
                 -logLevel=0" ]
        securityContext:
          privileged: true
          readOnlyRootFilesystem: true
...