使用前必读

当出现硬件故障,且无备用设备时,集群调度组件将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。

前提条件

使用方式

弹性训练特性的使用方式如下:

使用说明

支持的产品形态

支持Atlas 800 训练服务器产品使用弹性训练。

使用流程

通过命令行使用弹性训练特性流程可以参见图1

图1 使用流程