解决的问题
Ascend-Faultdiag
问题描述 |
增加日志维测信息。 条件:必现 现象:组件命令执行失败时,部分场景维测信息不足,无法直观定界。 影响:易用性 |
---|---|
严重级别 |
提示 |
根因分析 |
命令执行失败时,部分场景维测信息不足。 |
解决方案 |
增加维测信息。 |
修改影响 |
无其他问题影响。 |
问题描述 |
当前不指定plog,对device_log进行清洗时,会对所有文件进行清洗,而不是只清洗最新的两个文件。 条件:必现 现象:当不指定plog时,会对全量device日志清洗,可能会耗时较长,直到触发超时。 影响:易用性 |
---|---|
严重级别 |
提示 |
根因分析 |
当不指定plog时,无法区分当前训练作业的时间区间,无法筛选出对应时间的device日志,只能全量清洗。 |
解决方案 |
优化机制,当不指定plog时,仅对时间最近的2个device日志文件进行清洗。 |
修改影响 |
无其他问题影响。 |
问题描述 |
新增NPU日志关键字,兼容24.1.RC1版本后的驱动日志打印。 条件:必现 现象:驱动24.1.RC1版本后的部分故障事件,日志关键字打印变更,需要兼容。 影响:兼容性 |
---|---|
严重级别 |
提示 |
根因分析 |
驱动24.1.RC1版本后的部分故障事件,日志关键字打印变更。 |
解决方案 |
新增故障事件匹配规则,兼容24.1.RC1版本。 |
修改影响 |
无其他问题影响。 |
集群调度组件
问题描述 |
NPU-Exporter无法获取当前容器信息问题 条件:概率 现象:设置1秒间隔上报信息后,NPU-Exporter运行一段时间后无法获取当前容器信息。 影响:功能性 |
---|---|
严重级别 |
一般 |
根因分析 |
同时超时处理逻辑存在错误,导致协程被阻塞 |
解决方案 |
处理协程异常场景代码逻辑修复 |
修改影响 |
无其他问题影响。 |
问题描述 |
修复大集群重调度场景下hccl-controller生成ranktable问题 条件:概率 现象:大规模集群发生故障时,在使用hccl-controller有ranktable的场景下,重调度失败。 影响:影响断点续训特性 |
---|---|
严重级别 |
严重 |
根因分析 |
hccl-controller生成rankIndex逻辑存在bug,导致hccl.json错误 |
解决方案 |
修复hccl-controller生成ranktable的逻辑,保障重调度场景的hccl.json正确性 |
修改影响 |
无其他问题影响。 |
问题描述 |
修复nodeD使用后,训练一段时间pod被驱逐问题 条件:概率 现象:nodeDEnable=on打开后,训练一段时间后pod会被驱逐。 影响:影响任务错误发生重调度 |
---|---|
严重级别 |
一般 |
根因分析 |
通过node annotation上报不及时,导致volcano读取心跳时间延迟,将节点视为不健康节点而发生了重调度 |
解决方案 |
nodeD通过confgimap上报节点心跳 |
修改影响 |
无其他问题影响。 |