昇腾社区首页
中文
注册
开发者
下载

在线压测

MindCluster支持训练在线压测特性,即在训练过程中可以调用在线压测接口,暂停指定训练任务,对任务使用的节点进行硬件P2P或AIC压力测试。若不存在故障则恢复训练;若存在故障则隔离故障节点,触发断点续训。

使用约束

  • 对于PyTorch训练框架,需配合MindSpeed-LLM master版本使用,版本配套请参见MindSpeed-LLM
  • 对于MindSpore训练框架,需配合MindFormers master版本使用,版本配套请参见MindSpore MindFormers
  • 请在训练正常迭代后,再进行在线压测指令的下发。
  • 确保已开启进程级恢复相关功能特性。
  • 压测过程中不支持重启ClusterD,如果ClusterD异常重启,需要重启训练下发压测任务。
  • 压测过程中,需要关闭热复位功能。
  • P2P压测需确保device侧有10G以上的空闲内存。
  • 需要在节点增加nodeDEnable=on标签,保证出现压测的节点可以隔离。
  • 对于MindSpore训练框架,需要在启动TaskD Manager前设置export TASKD_PROCESS_ENABLE="on"。

支持的产品型号和AI框架

表1 在线压测支持的产品和框架

产品类型

硬件形态

训练框架

Atlas A2 训练系列产品

Atlas 800T A2 训练服务器

  • MindSpore
  • PyTorch

Atlas A3 训练系列产品

Atlas 900 A3 SuperPoD 超节点

  • MindSpore
  • PyTorch