配置临终CKPT保存
本章节将指导用户了解临终CheckPoint保存的关键步骤。临终CheckPoint保存的特性介绍请参见临终CKPT保存。
构建镜像
使用Dockerfile构建容器镜像,新增启动命令。
...
# MindCluster无损失断点续训适配脚本
RUN pip3 install $MINDX_ELASTIC_PKG
RUN pip3 install $MINDIO_TTP_PKG
# 可选,使用优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令
RUN sed -i '/import logging/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py
准备任务YAML
在训练任务YAML中,新增以下字段,开启进程级别恢复。其中process-recover-enable是训练进程恢复的统一开关,打开后训练进程恢复才生效。recover-strategy是训练进程恢复使用的策略,其中的dump代表开启临终CKPT。容器启动命令中增加--enable-high-availability,在ports中增加ttp-port为8000。
临终CKPT保存可以作为进程级别恢复流程中的一个策略,名为“dump”策略,设置到recover-strategy中。示例如下。
... metadata: labels: ... process-recover-enable: "on" ... ... annotations: ... recover-strategy: "dump" # 任务可用恢复策略为保存临终遗言 ... ... spec: replicaSpecs: Master: template: spec: containers: env: - name: TTP_PORT value: "8000" - name: PROCESS_RECOVER value: "on" args: […;export ELASTIC_PROCESS_RECOVER_ENABLE=1; --enable-high-availability…] ports: - containerPort: 8000 name: ttp-port ... Worker: template: spec: containers: env: - name: TTP_PORT value: "8000" - name: PROCESS_RECOVER value: "on" args: […export ELASTIC_PROCESS_RECOVER_ENABLE=1;...; --enable-high-availability…] ports: - containerPort: 8000 name: ttp-port ...
临终CKPT保存也可以单独配置,不作为进程级恢复流程中的策略。
... spec: replicaSpecs: Master: template: spec: containers: env: - name: TTP_PORT value: "8000" - name: PROCESS_RECOVER value: "on" args: […;export ELASTIC_PROCESS_RECOVER_ENABLE=1;--enable-high-availability…] ports: - containerPort: 8000 name: ttp-port ... Worker: template: spec: containers: env: - name: TTP_PORT value: "8000" - name: PROCESS_RECOVER value: "on" args: […;export ELASTIC_PROCESS_RECOVER_ENABLE=1; --enable-high-availability…] ports: - containerPort: 8000 name: ttp-port ...
适配训练脚本
用户可以在启动训练的shell脚本(例如train_start.sh)中,新增max_restarts和monitor_interval参数,示例如下。
... logger "server id is: ""${server_id}" if [ "${framework}" == "PyTorch" ]; then get_env_for_pytorch_multi_node_job DISTRIBUTED_ARGS="--nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT --monitor_interval 10" ...
参数说明:
- max_restarts:配置容器内最大允许触发的故障次数,取值为整数。超出次数后PyTorch训练进程会直接退出训练,不配置该参数时默认为32767次。
- monitor_interval:配置监测训练进程状态的时间间隔,单位为秒,取值为整数。不配置该参数时默认为30秒。
父主题: 配置训练恢复