配置亚健康热切
本章节将指导用户了解配置亚健康热切的关键步骤。亚健康热切的特性介绍、使用约束、支持的产品型号及原理请参见亚健康热切。
构建镜像
使用Dockerfile构建容器镜像,新增启动命令。示例如下。
# MindCluster断点续训适配脚本,MINDX_ELASTIC_PKG为Elastic Agent whl安装包的路径,请根据实际情况填写 RUN pip install $MINDX_ELASTIC_PKG # 可选,使用亚健康热切、优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令 RUN sed -i '/import os/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py # 可选,使用PyTorch 2.6.0及以上版本,并使用优雅容错、Pod级别重调度或进程级别重调度时需要配置以下命令 RUN sed -i '/if _torchelastic_use_agent_store():/i\ \if _torchelastic_use_agent_store():\n\ from torch.distributed import PrefixStore\n\ attempt = os.environ["TORCHELASTIC_RESTART_COUNT"]\n\ tcp_store = TCPStore(hostname, port, world_size, False, timeout)\n\ return PrefixStore(f"\/worker\/attempt_{attempt}", tcp_store)' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/rendezvous.py
准备任务YAML
在任务YAML中,新增以下加粗字段,配置亚健康热切。
...
metadata:
labels:
...
subHealthyStrategy: "hotSwitch"
父主题: 配置故障处理