昇腾社区首页
中文
注册

系统约束与限制

  • 集合通信不支持应用于算力切分场景。
  • 容器场景下部署集合通信相关业务时,各服务器仅支持单容器多进程部署,不支持多容器部署。
  • 集合通信业务不支持多进程共用同一个昇腾AI处理器
  • 针对Atlas 训练系列产品:单Server场景下,要求实际参与集合通信的昇腾AI处理器数目只能为1/2/4/8,且0-3卡和4-7卡各为一个组网,使用2张卡或4张卡训练时,不支持跨组网创建设备集群;Server集群场景,要求参与集合通信的昇腾AI处理器数目只能为1*n、2*n、4*n、8*n(n为参与训练的Server个数),且n为2的指数倍情况下,集群性能最好,建议用户优先采用此种方式进行集群组网。
  • 针对Atlas A2 训练系列产品,单Server场景,对参与集合通信的昇腾AI处理器数量无限制;Server集群场景要求参与集合通信的昇腾AI处理器数量为(1~8)*n(n为参与训练的Server个数)。建议每个Sever中参与集合通信的昇腾AI处理器数量保持一致,若不一致,会造成性能劣化。
  • 针对Atlas 300I Duo 推理卡,仅支持单Server场景,且单Sever中最多支持部署4张Atlas 300I Duo 推理卡