昇腾社区首页
中文
注册

Resilience Controller

组件应用场景

训练任务遇到故障,且无充足的健康资源替换故障资源时,可使用动态缩容的方式保证训练任务继续进行,待资源充足后,再通过动态扩容的方式恢复训练任务。集群调度提供了Resilience Controller组件,用于训练任务过程中的动态扩缩容。

组件功能

提供弹性缩容训练服务。在训练任务使用的硬件发生故障时,剔除该硬件并继续训练。

组件上下游依赖

无。