用户需要对断点续训的Ascend Device Plugin和NodeD进行相关配置。
只支持以容器化方式启动MindCluster Ascend Device Plugin。
在重调度模式下,MindCluster Ascend Device Plugin的异常也会触发故障重调度。
... containers: - image: ascend-k8sdeviceplugin:v6.0.RC1 name: device-plugin-01 resources: requests: memory: 500Mi cpu: 500m limits: memory: 500Mi cpu: 500m command: [ "/bin/bash", "-c", "--"] args: [ "device-plugin -useAscendDocker=true -volcanoType=true # 重调度场景下必须使用MindCluster Volcano -autoStowing=true # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealth变为health后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品 -listWatchPeriod=5 # 健康状态检查周期,范围[3,60];默认5秒 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log -logLevel=0" ] securityContext: privileged: true readOnlyRootFilesystem: true ...
... containers: - image: ascend-k8sdeviceplugin:v6.0.RC1 name: device-plugin-01 resources: requests: memory: 500Mi cpu: 500m limits: memory: 500Mi cpu: 500m command: [ "/bin/bash", "-c", "--"] args: [ "device-plugin -useAscendDocker=true -volcanoType=true # 重调度场景下必须使用MindCluster Volcano -autoStowing=true # 是否开启自动纳管开关,默认为true;设置为false代表关闭自动纳管,当芯片健康状态由unhealth变为health后,不会自动加入到可调度资源池中;关闭自动纳管,当芯片参数面网络故障恢复后,不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品 -hotReset=1 # 开启优雅容错模式 -listWatchPeriod=5 # 健康状态检查周期,范围[3,60];默认5秒 -logFile=/var/log/mindx-dl/devicePlugin/devicePlugin.log -logLevel=0" ] securityContext: privileged: true readOnlyRootFilesystem: true ...
kubectl apply -f device-plugin-xxx-v{version}.yaml
kubectl apply -f device-plugin-volcano-v6.0.RC1.yaml
MindCluster NodeD需要安装到所有的计算节点,因此在安装MindCluster NodeD之前需要给所有计算节点打上标签workerselector=dls-worker-node,命令如下所示。其中“nodeName”表示K8s集群中节点的名称。
kubectl label node nodename workerselector=dls-worker-node --overwrite
vi noded-v{version}.yaml
... env: - name: NODE_NAME valueFrom: fieldRef: fieldPath: spec.nodeName imagePullPolicy: Never command: [ "/bin/bash", "-c", "--"] args: [ "/usr/local/bin/noded -logFile=/var/log/mindx-dl/noded/noded.log -logLevel=0 -heartbeatInterval=5" ] securityContext: readOnlyRootFilesystem: true allowPrivilegeEscalation: true volumeMounts: - name: log-noded ...
MindCluster NodeD组件会定期上报节点状态。通过配置“nodeDEnable=on/off”参数开关来控制是否获取节点的状态信息并用于判断节点故障(获取信息需先安装MindCluster NodeD)。在管理节点上执行命令如下:
kubectl label nodes nodeName nodeDEnable=on --overwrite
其中“nodeName”表示需要使用MindCluster NodeD上报信息的节点。“on”表示开启MindCluster NodeD对本节点的信息获取,使用获取的信息判断节点是否故障,“off”或无该参数表示仅上报节点信息但不判断节点故障。