用户需要对断点续训的Ascend Device Plugin和NodeD进行相关配置。

配置MindCluster Ascend Device Plugin

只支持以容器化方式启动MindCluster Ascend Device Plugin。

根据所使用的故障处理模式，修改

MindCluster Ascend Device Plugin组件的启动yaml，修改如下所示加粗部分。

重调度模式

在重调度模式下，MindCluster Ascend Device Plugin的异常也会触发故障重调度。

...
      containers:
      - image: ascend-k8sdeviceplugin:v6.0.RC1
        name: device-plugin-01
        resources:
          requests:
            memory: 500Mi
            cpu: 500m
          limits:
            memory: 500Mi
            cpu: 500m
        command: [ "/bin/bash", "-c", "--"]
        args: [ "device-plugin  
                 -useAscendDocker=true 
                 -volcanoType=true                    # 重调度场景下必须使用MindCluster Volcano
                 -autoStowing=true                    # 是否开启自动纳管开关，默认为true；设置为false代表关闭自动纳管，当芯片健康状态由unhealth变为health后，不会自动加入到可调度资源池中；关闭自动纳管，当芯片参数面网络故障恢复后，不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品
                 -listWatchPeriod=5                   # 健康状态检查周期，范围[3,60]；默认5秒
                 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log 
                 -logLevel=0" ]
        securityContext:
          privileged: true
          readOnlyRootFilesystem: true
...

（可选）优雅容错模式：在重调度配置的基础上，新增“-hotReset”字段。

...
      containers:
      - image: ascend-k8sdeviceplugin:v6.0.RC1
        name: device-plugin-01
        resources:
          requests:
            memory: 500Mi
            cpu: 500m
          limits:
            memory: 500Mi
            cpu: 500m
        command: [ "/bin/bash", "-c", "--"]
        args: [ "device-plugin  
                 -useAscendDocker=true 
                 -volcanoType=true                    # 重调度场景下必须使用MindCluster Volcano
                 -autoStowing=true                    # 是否开启自动纳管开关，默认为true；设置为false代表关闭自动纳管，当芯片健康状态由unhealth变为health后，不会自动加入到可调度资源池中；关闭自动纳管，当芯片参数面网络故障恢复后，不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品
                 -hotReset=1 # 开启优雅容错模式
                 -listWatchPeriod=5                   # 健康状态检查周期，范围[3,60]；默认5秒
                 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log 
                 -logLevel=0" ]
        securityContext:
          privileged: true
          readOnlyRootFilesystem: true
...

在K8s管理节点执行以下命令，启动MindCluster Ascend Device Plugin。
```
kubectl apply -f device-plugin-xxx-v{version}.yaml
```
如在Atlas 训练系列产品环境下启动该组件，示例如下。
```
kubectl apply -f device-plugin-volcano-v6.0.RC1.yaml
```

配置MindCluster NodeD

配置标签。
MindCluster NodeD需要安装到所有的计算节点，因此在安装MindCluster NodeD之前需要给所有计算节点打上标签workerselector=dls-worker-node，命令如下所示。其中“nodeName”表示K8s集群中节点的名称。
```
kubectl label node nodename workerselector=dls-worker-node --overwrite
```
（可选）配置心跳发送间隔时间。用户可以通过手动修改MindCluster NodeD的启动yaml，配置发送心跳的间隔时间。
- K8s默认40秒未收到节点响应时将该节点置为NotReady，如未修改K8s的该配置，MindCluster NodeD的“心跳发送间隔时间”使用默认值“5”即可，无需修改。
- 当K8s APIServer请求压力变大时，可根据实际情况增大间隔时间，以减轻APIServer压力。
1. 进入组件解压目录，执行以下命令，打开MindCluster NodeD组件的启动yaml文件。
```
vi noded-v{version}.yaml
```
2. 在yaml文件的“args”行增加“-heartbeatInterval”参数，如下所示：
```
...
          env:
            - name: NODE_NAME
              valueFrom:
                fieldRef:
                  fieldPath: spec.nodeName
          imagePullPolicy: Never
          command: [ "/bin/bash", "-c", "--"]
          args: [ "/usr/local/bin/noded -logFile=/var/log/mindx-dl/noded/noded.log -logLevel=0 -heartbeatInterval=5" ]
          securityContext:
            readOnlyRootFilesystem: true
            allowPrivilegeEscalation: true
          volumeMounts:
            - name: log-noded
...
```
配置节点使用MindCluster NodeD的监测开关。
MindCluster NodeD组件会定期上报节点状态。通过配置“nodeDEnable=on/off”参数开关来控制是否获取节点的状态信息并用于判断节点故障（获取信息需先安装MindCluster NodeD）。在管理节点上执行命令如下：
```
kubectl label nodes nodeName nodeDEnable=on --overwrite
```
其中“nodeName”表示需要使用MindCluster NodeD上报信息的节点。“on”表示开启MindCluster NodeD对本节点的信息获取，使用获取的信息判断节点是否故障，“off”或无该参数表示仅上报节点信息但不判断节点故障。

配置组件

配置MindCluster Ascend Device Plugin

配置MindCluster NodeD