开发者
资源

解决的问题

Ascend-dmi

ascend-operator

问题描述

worker副本数为0时,任务可被正常调度,未做拦截。

条件必现

现象worker副本数配置为0时,任务可被正常调度,实际无法训练。

影响功能性

严重级别

一般

根因分析

未做对应参数校验。

解决方案

校验worker副本为0的异常场景报错,并拦截。

修改影响

无其他问题影响。

device-plugin

问题描述

pod被删除后,device-plugin偶现不能正确上报device-info cm

条件必现

现象pod被删除后,device-plugin偶现不能正确上报device-info cm,导致后续该节点无法被使用

影响功能性

严重级别

一般

根因分析

device-plugin informer在大集群环境下,可能出现pod信息丢失现象,导致缓存中pod不能更新,进而使得节点的芯片情况更新错误。

解决方案

周期性检查缓存中的pod,如果当前pod超过1h没有被更新,且不存在于etcd中,则将其从本地删除。

修改影响

无其他问题影响。