支持平台集成的功能和每个功能所需组件如表1所示;其中√表示该功能需要集成该组件使用;-表示该功能不需要集成该组件使用。
表1 支持集成的功能及对应组件功能名称
|
Volcano
|
Ascend Operator
|
Ascend Device Plugin
|
NodeD
|
ClusterD
|
故障发现
|
节点故障
|
√
|
√
|
-
|
√
|
√
|
芯片故障
|
√
|
√
|
√
|
-
|
√
|
参数面网络故障
|
√
|
√
|
√
|
-
|
√
|
业务故障
|
√
|
√
|
-
|
-
|
-
|
故障处理
|
-
|
√
|
√
|
√
|
-
|
-
|
训练重启
|
由框架实现保存和加载checkpoint,用户只需修改自己的训练模型脚本即可。
|