恢复时间优化(MindSpore)

断点续训特性在使用MindSpore框架场景时,可以使用以下功能,缩短断点续训整体恢复时间,包括故障检测时间优化重调度时间优化训练回滚及加载CheckPoint时间优化编译缓存时间优化

故障检测时间优化

由于集群中出现的参数面网络故障不一定会影响训练任务,因此集群调度组件不会强制中断任务;当参数面网络故障影响训练任务时,会触发集合通信的网络超时等待机制,在等待时间(通常默认为30分钟)后,集群调度组件才能感知到该故障,从而触发断点续训。针对该问题,MindSpore提供watchdog故障检测功能,可用于检测训练任务是否受到影响,缩短故障检测时间,该功能的详细说明请参考表1

表1 watchdog故障检测功能说明

功能名称

watchdog故障检测。

功能特点

训练启动时,同时启动一个监测线程不断获取通信异常以及task执行异常。监测到故障发生后,快速抛出异常并终止训练任务进程,触发重调度。

使用说明

仅支持MindSpore 2.4版本以上

关键操作

MindSpore默认开启watchdog故障检测,无需手动配置

...
mindspore.set_context(hccl_watchdog=False) // 如果需要关闭可设置该参数关闭

重调度时间优化

断点续训故障处理的重调度模式默认使用Job级别重调度,需要在每次故障时销毁所有Pod,重新创建和调度全部Pod。销毁、创建和调度Pod的过程将浪费大量时间。针对该问题,集群调度组件提供Pod级别重调度功能,该功能的详细说明请参考表2

表2 Pod级别重调度功能说明

功能名称

Pod级别重调度。

功能特点

每次故障只停止故障相关的Pod,重新创建并重调度故障相关的Pod后,重启训练任务。

使用说明

仅支持6.0.RC2及以上版本的集群调度组件。

关键操作

  1. 使用Dockerfile构建容器镜像,新增启动命令。
    ...
    # MindCluster无损失断点续训适配脚本
    RUN pip install $MINDX_ELASTIC_PKG
    ...
  2. 下载管理进程脚本,放置和训练启动脚本train_start.sh同一路径。
    ...
    scripts/
    └── train_start.sh
           reset_process.py
    ...
  3. 在训练启动脚本中添加以下字段,启动reset_process管理训练进程。
    ...
    python ${ROOT_PATH}/../train.py --distribute=true --device_num=${device_each_server} --data_url=${data_path} --run_type=train --param_init_type=fp16 --mode=2.6B &> log &           train_pids[$i]=$!   // 训练启动命令中获取训练进程pid
    python -u "${ROOT_PATH}"/reset_process.py -p "${train_pids[@]}" & reset_pid=$!  // 启动管理进程reset_process
    wait ${train_pids[0]}
    exit_code=$?
    if [ ${exit_code} -eq 0 ]; then  
        kill -15 ${reset_pid}  
        echo "training finished."  
        exit ${exit_code}
    ...
  4. 在任务yaml中,新增以下字段,开启Pod级别重调度。
    ...
      labels:
        ...
        pod-rescheduling: "on"
    ...

训练回滚及加载CheckPoint时间优化

编译缓存时间优化

断点续训过程中拉起训练时需要构建计算图,在大模型场景下,构建计算图并编译需要消耗大量时间。针对该问题,MindSpore支持在首次编译时将编译缓存文件进行存储,进行故障恢复时可以直接读取存储中的图编译缓存,降低图编译时间,详细说明请参考表5

表5 图编译缓存功能说明

功能名称

图编译缓存。

功能特点

图编译时加载存储上保存的图编译缓存文件,加载后可降低图编译时间。

使用说明

仅支持MindSpore2.3.0及以上版本。

关键操作

在训练的shell启动脚本中(例如train_start.sh),添加如下环境变量。
export MS_COMPILER_CACHE_ENABLE=1
export MS_COMPILER_CACHE_PATH=export ASCEND_CACHE_PATH=xxx   # 添加共享存储路径