昇腾社区首页
中文
注册
开发者
下载

配置亚健康热切

本章节将指导用户了解配置亚健康热切的关键步骤。亚健康热切的特性介绍、使用约束、支持的产品型号及原理请参见亚健康热切

构建镜像

使用Dockerfile构建容器镜像,新增启动命令。示例如下。

# MindCluster断点续训适配脚本,MINDX_ELASTIC_PKG为Elastic Agent whl安装包的路径,请根据实际情况填写
RUN pip install $MINDX_ELASTIC_PKG

# 可选,使用亚健康热切、优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令
RUN sed -i '/import os/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py
# 可选,使用PyTorch 2.6.0及以上版本,并使用优雅容错、Pod级别重调度或进程级别重调度时需要配置以下命令
RUN sed -i '/if _torchelastic_use_agent_store():/i\    \if _torchelastic_use_agent_store():\n\        from torch.distributed import PrefixStore\n\        attempt = os.environ["TORCHELASTIC_RESTART_COUNT"]\n\        tcp_store = TCPStore(hostname, port, world_size, False, timeout)\n\        return PrefixStore(f"\/worker\/attempt_{attempt}", tcp_store)' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/rendezvous.py

准备任务YAML

在任务YAML中,新增以下加粗字段,配置亚健康热切。

... 
metadata:  
   labels:  
     ... 
     subHealthyStrategy: "hotSwitch"