存储性能优化
断点续训特性的部分流程依赖读取存储数据,如加载CKPT、拉起训练和编译缓存加载等,存储性能会影响断点续训整体恢复时间。为避免训练恢复时间劣化,建议进行存储性能配置优化,以下提供的推荐配置以万卡规模集群为例。
推荐配置:
- 8K IO读IOPS:>1024W
- 8K IO写IOPS:>128W
- 大文件顺序读带宽:>288GB/s
- 大文件创建写带宽:>173GB/s
父主题: 性能优化
断点续训特性的部分流程依赖读取存储数据,如加载CKPT、拉起训练和编译缓存加载等,存储性能会影响断点续训整体恢复时间。为避免训练恢复时间劣化,建议进行存储性能配置优化,以下提供的推荐配置以万卡规模集群为例。
推荐配置: