昇腾社区首页
中文
注册

解决的问题

Ascend-Faultdiag

问题描述

增加日志维测信息。

条件必现

现象组件命令执行失败时,部分场景维测信息不足,无法直观定界。

影响易用性

严重级别

提示

根因分析

命令执行失败时,部分场景维测信息不足。

解决方案

增加维测信息。

修改影响

无其他问题影响。

问题描述

当前不指定plog,对device_log进行清洗时,会对所有文件进行清洗,而不是只清洗最新的两个文件。

条件必现

现象当不指定plog时,会对全量device日志清洗,可能会耗时较长,直到触发超时。

影响易用性

严重级别

提示

根因分析

当不指定plog时,无法区分当前训练作业的时间区间,无法筛选出对应时间的device日志,只能全量清洗。

解决方案

优化机制,当不指定plog时,仅对时间最近的2个device日志文件进行清洗。

修改影响

无其他问题影响。

问题描述

新增NPU日志关键字,兼容24.1.RC1版本后的驱动日志打印。

条件必现

现象驱动24.1.RC1版本后的部分故障事件,日志关键字打印变更,需要兼容。

影响兼容性

严重级别

提示

根因分析

驱动24.1.RC1版本后的部分故障事件,日志关键字打印变更。

解决方案

新增故障事件匹配规则,兼容24.1.RC1版本。

修改影响

无其他问题影响。

集群调度组件

问题描述

NPU-Exporter无法获取当前容器信息问题

条件概率

现象设置1秒间隔上报信息后,NPU-Exporter运行一段时间后无法获取当前容器信息

影响功能性

严重级别

一般

根因分析

同时超时处理逻辑存在错误,导致协程被阻塞

解决方案

处理协程异常场景代码逻辑修复

修改影响

无其他问题影响。

问题描述

修复大集群重调度场景下hccl-controller生成ranktable问题

条件概率

现象大规模集群发生故障时,在使用hccl-controller有ranktable的场景下,重调度失败。

影响影响断点续训特性

严重级别

严重

根因分析

hccl-controller生成rankIndex逻辑存在bug,导致hccl.json错误

解决方案

修复hccl-controller生成ranktable的逻辑,保障重调度场景的hccl.json正确性

修改影响

无其他问题影响。

问题描述

修复nodeD使用后,训练一段时间pod被驱逐问题

条件概率

现象nodeDEnable=on打开后,训练一段时间后pod会被驱逐。

影响影响任务错误发生重调度

严重级别

一般

根因分析

通过node annotation上报不及时,导致volcano读取心跳时间延迟,将节点视为不健康节点而发生了重调度

解决方案

nodeD通过confgimap上报节点心跳

修改影响

无其他问题影响。