存储性能优化 断点续训特性的部分流程依赖读取存储数据,如加载CKPT、拉起训练和编译缓存加载等,存储性能会影响断点续训整体恢复时间。为避免训练恢复时间劣化,建议进行存储性能配置优化,以下提供的推荐配置以万卡规模集群为例。 推荐配置: 8K IO读IOPS:>1024W8K IO写IOPS:>128W大文件顺序读带宽:>288GB/s 大文件创建写带宽:>173GB/s 父主题: 性能优化