[object Object][object Object]
[object Object][object Object]
病毒扫描通过。
MindCluster各组件需要配套使用,请勿跨版本混用各组件。
表 1 软件版本兼容性说明
无
MindCluster基础组件:
- ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
- 支持集群维度下的反复故障芯片的自动强制隔离和自动释放。
- Atlas 350 标卡场景下:
- 任务申请资源“huawei.com/Ascend910”变更为“huawei.com/npu”。
- 底层dcmi接口调用变更为dcmiV2接口调用。
- mindio processor等资源已释放且程序崩溃时,taskd agent无法退出,需增加退出兜底措施
- 训练结束后,taskd worker调用mspti_activity_flush_all方法时,报double free错误
- taskd manager并发读写map导致进程崩溃
- clusterd的pg cache更新不及时
- 强制要求mindie实例间的roce网络健康导致mindie任务调度失败
- 用户定义torch日志文件场景训练完成后Pod不退出
- 安装noded的前提下,集群规模>1024时会超过clusterd的grpc连接上限,导致其他连接无法接入
无
无
无
无