解决的问题

Ascend-Faultdiag

问题描述	增加日志维测信息。条件：必现现象：组件命令执行失败时，部分场景维测信息不足，无法直观定界。影响：易用性
严重级别	提示
根因分析	命令执行失败时，部分场景维测信息不足。
解决方案	增加维测信息。
修改影响	无其他问题影响。

问题描述	当前不指定plog，对device_log进行清洗时，会对所有文件进行清洗，而不是只清洗最新的两个文件。条件：必现现象：当不指定plog时，会对全量device日志清洗，可能会耗时较长，直到触发超时。影响：易用性
严重级别	提示
根因分析	当不指定plog时，无法区分当前训练作业的时间区间，无法筛选出对应时间的device日志，只能全量清洗。
解决方案	优化机制，当不指定plog时，仅对时间最近的2个device日志文件进行清洗。
修改影响	无其他问题影响。

问题描述	新增NPU日志关键字，兼容24.1.RC1版本后的驱动日志打印。条件：必现现象：驱动24.1.RC1版本后的部分故障事件，日志关键字打印变更，需要兼容。影响：兼容性
严重级别	提示
根因分析	驱动24.1.RC1版本后的部分故障事件，日志关键字打印变更。
解决方案	新增故障事件匹配规则，兼容24.1.RC1版本。
修改影响	无其他问题影响。

集群调度组件

问题描述	NPU-Exporter无法获取当前容器信息问题条件：概率现象：设置1秒间隔上报信息后，NPU-Exporter运行一段时间后无法获取当前容器信息。影响：功能性
严重级别	一般
根因分析	同时超时处理逻辑存在错误，导致协程被阻塞
解决方案	处理协程异常场景代码逻辑修复
修改影响	无其他问题影响。

问题描述	修复大集群重调度场景下hccl-controller生成ranktable问题条件：概率现象：大规模集群发生故障时，在使用hccl-controller有ranktable的场景下，重调度失败。影响：影响断点续训特性
严重级别	严重
根因分析	hccl-controller生成rankIndex逻辑存在bug，导致hccl.json错误
解决方案	修复hccl-controller生成ranktable的逻辑，保障重调度场景的hccl.json正确性
修改影响	无其他问题影响。

问题描述	修复nodeD使用后，训练一段时间pod被驱逐问题条件：概率现象：nodeDEnable=on打开后，训练一段时间后pod会被驱逐。影响：影响任务错误发生重调度
严重级别	一般
根因分析	通过node annotation上报不及时，导致volcano读取心跳时间延迟，将节点视为不健康节点而发生了重调度
解决方案	nodeD通过confgimap上报节点心跳
修改影响	无其他问题影响。

父主题： MindX DL组件补丁说明