开发者
资源
[object Object][object Object][object Object]

[object Object][object Object]

[object Object]
[object Object]
[object Object][object Object]undefined
[object Object]

病毒扫描通过。

[object Object]

MindCluster各组件需要配套使用,请勿跨版本混用各组件。

表 1 软件版本兼容性说明

[object Object]undefined
[object Object]

[object Object][object Object][object Object]undefined
[object Object]

MindCluster基础组件:

  • ClusterD的gRPC心跳检测周期从默认的5分钟调整为5秒。
  • 支持集群维度下的反复故障芯片的自动强制隔离和自动释放。
  • Atlas 350 标卡场景下:
    • 任务申请资源“huawei.com/Ascend910”变更为“huawei.com/npu”。
    • 底层dcmi接口调用变更为dcmiV2接口调用。
[object Object][object Object]undefined
[object Object]
  • mindio processor等资源已释放且程序崩溃时,taskd agent无法退出,需增加退出兜底措施
  • 训练结束后,taskd worker调用mspti_activity_flush_all方法时,报double free错误
  • taskd manager并发读写map导致进程崩溃
  • clusterd的pg cache更新不及时
  • 强制要求mindie实例间的roce网络健康导致mindie任务调度失败
  • 用户定义torch日志文件场景训练完成后Pod不退出
  • 安装noded的前提下,集群规模>1024时会超过clusterd的grpc连接上限,导致其他连接无法接入
[object Object]

[object Object][object Object]

[object Object]

[object Object][object Object]undefined
[object Object]