在制作NodeD镜像时,会将故障级别配置文件NodeDConfiguration.json内置在镜像中,启动NodeD时会读取这两个文件的默认配置,作为当前故障处理依据。
如果用户想要自定义故障级别,可以在集群中创建ConfigMap文件(mindx-dl-node-fault-config)。
以故障码0100001D为例。将当前故障的处理策略NotHandleFault(无需处理)修改为PreSeparateFault(该节点上有任务则不处理,后续不调度任务到该节点)的操作示例如下。
kubectl create cm mindx-dl-node-fault-config -n mindx-dl --from-file=./NodeDConfiguration.json
1 | configmap/mindx-dl-node-fault-config created |
参数名称 |
说明 |
---|---|
mindx-dl-node-fault-config |
创建的ConfigMap文件名称,不能修改该文件名称。 |
mindx-dl |
命名空间名称,不能修改该命名空间。 |
NodeDConfiguration.json |
用于配置故障码以及对应的故障级别,必须与NodeDConfiguration.json文件名称保持一致。 |
kubectl edit cm -n mindx-dl mindx-dl-node-fault-config
"FaultTypeCode": { "NotHandleFaultCodes":[ "0100001D","03000009","03000013","0300000D","03000011" ], ... ], ...
"FaultTypeCode": { "NotHandleFaultCodes":[ "03000009","03000013","0300000D","03000011" ], "PreSeparateFaultCodes":[ "28000037","00000011", "0100001D" ... ], ...
kubectl get pods -A | grep noded
1 | mindx-dl noded-c5f52 1/1 Running 0 2m16s |
kubectl logs noded-c5f52 -n mindx-dl -f
若日志出现“update fault config success”,表示动态配置故障码操作成功。