功能及对应组件 支持平台集成的功能和每个功能所需组件如表1所示;其中√表示该功能需要集成该组件使用;-表示该功能不需要集成该组件使用。 表1 支持集成的功能及对应组件功能名称 MindCluster Volcano MindCluster HCCL Controller或MindCluster Ascend Operator MindCluster Ascend Device Plugin MindCluster NodeD 故障发现 节点故障 √ √ - √ 芯片故障 √ √ √ - 参数面网络故障 √ √ √ - 业务故障 √ √ - - 故障处理 - √ √ √ - 训练重启 由框架实现保存和加载checkpoint,用户只需修改自己的训练模型脚本即可。 父主题: 集成指导