昇腾社区首页
中文
注册

已解决的问题

问题描述

MindCluster Elastic Agent 安装后,非安装用户使用时加载日志文件配置校验错误导致训练无法正常拉起

条件必现

现象训练拉起失败。

影响易用性

严重级别

一般

根因分析

Elastic Agent组件对日志文件用户权限校验过于严格。

解决方案

权限校验失败等异常场景使用默认日志配置。

修改影响

无其他问题影响。

问题描述

MindCluster Elastic Agent默认拉起grpc客户端和mindio线程,用户未开启快恢功能时拉起训练失败

条件安装Elastic Agent,未开启进程级在线恢复和进程级重调度特性

现象训练拉起失败。

影响易用性

严重级别

一般

根因分析

Elastic Agent默认会起grpc客户端通信,没开启进程级恢复相关特性下,通信相关注册流程失败,报错退出影响训练进程。

解决方案

新增开关ELASTIC_PROCESS_RECOVER_ENABLE,控制Elastic Agent gprc进程恢复功能启动。

修改影响

无其他问题影响。

问题描述

MindCluster Elastic Agent安装时未提示需要安装openssl,导致安装后训练失败

条件安装Elastic Agent,未安装响应的openssl依赖软件

现象训练拉起失败。

影响易用性

严重级别

一般

根因分析

Elastic Agent依赖openssl库,安装时没有强校验。

解决方案

在setup中添加依赖包列表,安装whl包检测相关依赖。

修改影响

无其他问题影响。

问题描述

Volcano动态切分未支持Atlas A2 训练系列产品

条件必现

现象:部分训练设备的硬件无法使用动态算力切分特性。

影响可用性

严重级别

一般

根因分析

功能未适配。

解决方案

相关功能适配对应芯片类型。

修改影响

无其他问题影响。

问题描述

Ascend Device Plugin给kubelet上报的NPU资源与device-info 不一致。

条件kubelet多次重启或者Ascend Device Plugin通信异常

现象:K8s感知的卡数量和Ascend Device Plugin内存数据不一致,可能导致调度资源不可用。

影响可用性

严重级别

一般

根因分析

Ascend Device Plugin协程泄漏且消息重试机制不健全。

解决方案

1、添加DP keepalive机制;

2、监听K8s连接是否断开,检测断开则重注册;

3、协程泄漏问题修复。

修改影响

无其他问题影响。

问题描述

MindCluster Elastic Agent卸载后patch未卸载,导致训练拉起失败。

条件Elastic Agent卸载后重新拉起训练

现象:训练拉起失败。

影响可用性

严重级别

一般

根因分析

Elastic Agent卸载后相关patch功能未卸载。

解决方案

使用Elastic Agent函数patch能力,Elastic Agent卸载后功能自动卸载

修改影响

无其他问题影响。