返回顶部 解决的问题 MindCluster基础组件修复Volcano在x86和Arm的混合集群上部署时,发生Volcano重调度,Volcano拉起失败的问题。修复在业务的init容器中无法生成hccl.json的问题。修复Atlas A2和A3场景下,如果OS启动时NPU RoCE网卡损坏,Ascend Device Plugin无法上报该NPU的网络故障信息,影响业务使用的问题。 MindCluster Ascend FaultDiag优化重传超次根因节点分析,更新重传超次故障模式的关键字。