开发者
资源

已解决的问题

问题描述

集群出现events风暴

条件驱动频繁上报故障

现象K8s出现events风暴,影响K8s可用性。

影响稳定性

严重级别

严重

根因分析

驱动上报故障频繁,业务流程未限制。

解决方案

驱动上报故障回调接口限流。

修改影响

无其他问题影响。

问题描述

大规模集群出现性能问题,导致进程级恢复失败。

条件大集群下任务数量较多

现象进程级恢复超时恢复失败。

影响可靠性

严重级别

一般

根因分析

数据结构深拷贝次数较多。

解决方案

代码内部减少深拷贝次数和规模无关。

修改影响

无其他问题影响。

问题描述

Ascend-Device-Plugin组件的kubelet通信异常时影响capacity。

条件:非K8s容器占用芯片

现象:capacity值不为物理卡数量

影响功能性

严重级别

一般

根因分析

设计问题,非K8s容器占卡会扣除capacity值。

解决方案

非K8s容器占卡不扣除capacity值。

修改影响

无其他问题影响。

问题描述

ClusterD在大集群概率panic

条件:集群多任务下发

现象ClusterD在大集群概率panic

影响可靠性

严重级别

一般

根因分析

map类型的数据多线程并发访问,导致panic。

解决方案

数据做深拷贝,避免多线程访问。

修改影响

无其他问题影响。

问题描述

Ascend-FaultDiag组件同网段检查项误报。

条件:用户真实网络链路环境

现象:Ascend-FaultDiag组件同网段检查项出现误报

影响功能性

严重级别

一般

根因分析

设计问题,同一个节点上的卡可以不在同一网段。

解决方案

经过评审,下掉同网段自定义检查项。

修改影响

无其他问题影响。