解决的问题
Ascend-dmi
ascend-operator
问题描述 |
worker副本数为0时,任务可被正常调度,未做拦截。 条件:必现 现象:worker副本数配置为0时,任务可被正常调度,实际无法训练。 影响:功能性 |
|---|---|
严重级别 |
一般 |
根因分析 |
未做对应参数校验。 |
解决方案 |
校验worker副本为0的异常场景报错,并拦截。 |
修改影响 |
无其他问题影响。 |
device-plugin
问题描述 |
pod被删除后,device-plugin偶现不能正确上报device-info cm 条件:必现 现象:pod被删除后,device-plugin偶现不能正确上报device-info cm,导致后续该节点无法被使用。 影响:功能性 |
|---|---|
严重级别 |
一般 |
根因分析 |
device-plugin informer在大集群环境下,可能出现pod信息丢失现象,导致缓存中pod不能更新,进而使得节点的芯片情况更新错误。 |
解决方案 |
周期性检查缓存中的pod,如果当前pod超过1h没有被更新,且不存在于etcd中,则将其从本地删除。 |
修改影响 |
无其他问题影响。 |
父主题: MindX DL组件补丁说明