昇腾社区首页
中文
注册
开发者
下载

准备K8s和共享存储

断点续训特性是基于MindCluster集群调度组件的高阶特性,结合昇腾软硬件全栈实现训练故障恢复,使用断点续训特性前需要满足以下前置条件。

  • 具备共享存储系统

    断点续训特性的部分流程依赖读取存储数据,如加载CKPT、拉起训练和编译缓存加载等,存储性能会影响断点续训整体恢复时间。为避免训练恢复时间劣化,建议进行存储性能配置优化,以下提供的推荐配置以万卡规模集群为例。

    • 8K IO读IOPS:>1024W
    • 8K IO写IOPS:>128W
    • 大文件顺序读带宽:>288GB/s
    • 大文件创建写带宽:>173GB/s