已解决的问题
问题描述 |
集群出现events风暴。 条件:驱动频繁上报故障 现象:K8s出现events风暴,影响K8s可用性。 影响:稳定性 |
|---|---|
严重级别 |
严重 |
根因分析 |
驱动上报故障频繁,业务流程未限制。 |
解决方案 |
驱动上报故障回调接口限流。 |
修改影响 |
无其他问题影响。 |
问题描述 |
大规模集群出现性能问题,导致进程级恢复失败。 条件:大集群下任务数量较多 现象:进程级恢复超时恢复失败。 影响:可靠性 |
|---|---|
严重级别 |
一般 |
根因分析 |
数据结构深拷贝次数较多。 |
解决方案 |
代码内部减少深拷贝次数和规模无关。 |
修改影响 |
无其他问题影响。 |
问题描述 |
Ascend-Device-Plugin组件的kubelet通信异常时影响capacity。 条件:非K8s容器占用芯片 现象:capacity值不为物理卡数量。 影响:功能性 |
|---|---|
严重级别 |
一般 |
根因分析 |
设计问题,非K8s容器占卡会扣除capacity值。 |
解决方案 |
非K8s容器占卡不扣除capacity值。 |
修改影响 |
无其他问题影响。 |
问题描述 |
ClusterD在大集群概率panic。 条件:集群多任务下发 现象:ClusterD在大集群概率panic。 影响:可靠性 |
|---|---|
严重级别 |
一般 |
根因分析 |
map类型的数据多线程并发访问,导致panic。 |
解决方案 |
数据做深拷贝,避免多线程访问。 |
修改影响 |
无其他问题影响。 |
问题描述 |
Ascend-FaultDiag组件同网段检查项误报。 条件:用户真实网络链路环境 现象:Ascend-FaultDiag组件同网段检查项出现误报。 影响:功能性 |
|---|---|
严重级别 |
一般 |
根因分析 |
设计问题,同一个节点上的卡可以不在同一网段。 |
解决方案 |
经过评审,下掉同网段自定义检查项。 |
修改影响 |
无其他问题影响。 |
父主题: 更新说明