已解决的问题
问题描述 |
MindCluster Elastic Agent 安装后,非安装用户使用时加载日志文件配置校验错误导致训练无法正常拉起。 条件:必现 现象:训练拉起失败。 影响:易用性 |
---|---|
严重级别 |
一般 |
根因分析 |
Elastic Agent组件对日志文件用户权限校验过于严格。 |
解决方案 |
权限校验失败等异常场景使用默认日志配置。 |
修改影响 |
无其他问题影响。 |
问题描述 |
MindCluster Elastic Agent默认拉起grpc客户端和mindio线程,用户未开启快恢功能时拉起训练失败。 条件:安装Elastic Agent,未开启进程级在线恢复和进程级重调度特性 现象:训练拉起失败。 影响:易用性 |
---|---|
严重级别 |
一般 |
根因分析 |
Elastic Agent默认会起grpc客户端通信,没开启进程级恢复相关特性下,通信相关注册流程失败,报错退出影响训练进程。 |
解决方案 |
新增开关ELASTIC_PROCESS_RECOVER_ENABLE,控制Elastic Agent gprc进程恢复功能启动。 |
修改影响 |
无其他问题影响。 |
问题描述 |
MindCluster Elastic Agent安装时未提示需要安装openssl,导致安装后训练失败。 条件:安装Elastic Agent,未安装响应的openssl依赖软件 现象:训练拉起失败。 影响:易用性 |
---|---|
严重级别 |
一般 |
根因分析 |
Elastic Agent依赖openssl库,安装时没有强校验。 |
解决方案 |
在setup中添加依赖包列表,安装whl包检测相关依赖。 |
修改影响 |
无其他问题影响。 |
问题描述 |
Volcano动态切分未支持Atlas A2 训练系列产品。 条件:必现 现象:部分训练设备的硬件无法使用动态算力切分特性。 影响:可用性 |
---|---|
严重级别 |
一般 |
根因分析 |
功能未适配。 |
解决方案 |
相关功能适配对应芯片类型。 |
修改影响 |
无其他问题影响。 |
问题描述 |
Ascend Device Plugin给kubelet上报的NPU资源与device-info 不一致。 条件:kubelet多次重启或者Ascend Device Plugin通信异常 现象:K8s感知的卡数量和Ascend Device Plugin内存数据不一致,可能导致调度资源不可用。 影响:可用性 |
---|---|
严重级别 |
一般 |
根因分析 |
Ascend Device Plugin协程泄漏且消息重试机制不健全。 |
解决方案 |
1、添加DP keepalive机制; 2、监听K8s连接是否断开,检测断开则重注册; 3、协程泄漏问题修复。 |
修改影响 |
无其他问题影响。 |
问题描述 |
MindCluster Elastic Agent卸载后patch未卸载,导致训练拉起失败。 条件:Elastic Agent卸载后重新拉起训练 现象:训练拉起失败。 影响:可用性 |
---|---|
严重级别 |
一般 |
根因分析 |
Elastic Agent卸载后相关patch功能未卸载。 |
解决方案 |
使用Elastic Agent函数patch能力,Elastic Agent卸载后功能自动卸载。 |
修改影响 |
无其他问题影响。 |