K8s性能优化

断点续训特性的故障恢复流程与K8s平台存在大量交互,K8s相关请求响应的性能将影响断点续训整体性能。因此,在大规模K8s集群场景下,需要针对K8s性能调优以达到断点续训性能优化。本章节提供K8s集群配置的参数修改说明,以下提供的推荐参数配置均以万卡规模K8s集群为例。

如下配置仅供参考,请根据实际环境酌情调整配置。

API Server启动参数修改

API Server资源配置修改

API Server配置的cpu资源。

etcd启动参数修改

etcd资源配置修改

etcd配置的cpu和内存资源。

Volcano资源配置修改

Volcano配置的cpu和内存资源。