Resilience Controller
组件应用场景
训练任务遇到故障,且无充足的健康资源替换故障资源时,可使用动态缩容的方式保证训练任务继续进行,待资源充足后,再通过动态扩容的方式恢复训练任务。集群调度提供了Resilience Controller组件,用于训练任务过程中的动态扩缩容。
组件功能
提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。
组件上下游依赖
无。
父主题: 组件介绍
训练任务遇到故障,且无充足的健康资源替换故障资源时,可使用动态缩容的方式保证训练任务继续进行,待资源充足后,再通过动态扩容的方式恢复训练任务。集群调度提供了Resilience Controller组件,用于训练任务过程中的动态扩缩容。
提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。
无。