准备K8s和共享存储 断点续训特性是基于MindCluster集群调度组件的高阶特性,结合昇腾软硬件全栈实现训练故障恢复,使用断点续训特性前需要满足以下前置条件。 完成K8s集群基础性能调优,详情请参见K8s集群基础性能调优。 具备共享存储系统断点续训特性的部分流程依赖读取存储数据,如加载CKPT、拉起训练和编译缓存加载等,存储性能会影响断点续训整体恢复时间。为避免训练恢复时间劣化,建议进行存储性能配置优化,以下提供的推荐配置以万卡规模集群为例。 8K IO读IOPS:>1024W8K IO写IOPS:>128W大文件顺序读带宽:>288GB/s大文件创建写带宽:>173GB/s 父主题: 断点续训特性指南