功能及对应组件 支持平台集成的功能和每个功能所需组件如表1所示;其中√表示该功能需要集成该组件使用;-表示该功能不需要集成该组件使用。 表1 支持集成的功能及对应组件功能名称 Volcano Ascend Operator Ascend Device Plugin NodeD ClusterD 故障发现 节点故障 √ √ - √ √ 芯片故障 √ √ √ - √ 参数面网络故障 √ √ √ - √ 业务故障 √ √ - - - 故障处理 - √ √ √ - - 训练重启 由框架实现保存和加载checkpoint,用户只需修改自己的训练模型脚本即可。 父主题: 集成指导