Resilience Controller 组件应用场景训练任务遇到故障,且无充足的健康资源替换故障资源时,可使用动态缩容的方式保证训练任务继续进行,待资源充足后,再通过动态扩容的方式恢复训练任务。集群调度提供了Resilience Controller组件,用于训练任务过程中的动态扩缩容。 组件功能提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。 组件上下游依赖无。 父主题: 组件介绍