昇腾社区首页
中文
注册

系统约束与限制

  • 集合通信不支持应用于昇腾虚拟化实例场景。

    昇腾虚拟化实例是指通过资源虚拟化的方式将物理机或虚拟机配置的NPU切分成多个vNPU(虚拟NPU实例)挂载到目标环境使用,虚拟化管理方式能够实现统一不同规格资源的分配和回收处理,满足多用户反复申请/释放的资源操作请求。

  • 容器场景下部署集合通信相关业务时,各服务器仅支持单容器多进程部署,不支持多容器部署。
  • 针对 Atlas A3 训练系列产品 / Atlas A3 推理系列产品
    • 若您的驱动固件是25.0.RC1或更高版本,支持单卡多进程的业务场景,即支持多个业务进程同时共用一个NPU。需要注意,多进程会对资源开销、通信性能有一定的影响,若同一个NPU上进程过多,可能会由于资源不足造成业务运行失败。若您的驱动固件不满足版本要求,会使用单进程运行。

      若通信算法的编排展开位置为AI_CPU(默认值),单卡进程并发数量不建议超过6个;若通信算法的编排展开位置为AIV,不建议单卡多进程并发执行,多个进程之间建议串行执行。请参考以上建议配置,否则存在任务死锁的风险。 Atlas A3 训练系列产品 / Atlas A3 推理系列产品 的算法编排展开位置可通过环境变量“HCCL_OP_EXPANSION_MODE”设置。

    • 建议每个超节点中的Server数量一致,每个Server中的昇腾AI处理器数量一致,若不一致,会造成性能劣化。
    • 当通信算法采用默认的AI CPU模式时,单卡上的并发通信域数量不能超过6个,否则可能会因AI CPU核被占满而导致通信阻塞。
  • 针对 Atlas A2 训练系列产品
    • 若您的驱动固件是25.0.RC1或更高版本,支持单卡多进程的业务场景,即支持多个业务进程同时共用一个NPU。若网络中存在MC²通算融合算子(计算和通信融合的算子,例如AllGatherMatmul、MatmulReduceScatter、AlltoAllAllGatherBatchMatMul等),则不支持单卡多进程的业务场景。需要注意,多进程会对资源开销、通信性能有一定的影响,若同一个NPU上进程过多,可能会由于资源不足造成业务运行失败。若您的驱动固件不满足版本要求,会使用单进程运行。

      若通信算法的编排展开位置为HOST(默认值),单卡进程并发数量不建议超过8个;若通信算法的编排展开位置为AIV,不建议单卡多进程并发执行,多个进程之间建议串行执行。请参考以上建议配置,否则存在任务死锁的风险。 Atlas A2 训练系列产品 的算法编排展开位置可通过环境变量“HCCL_OP_EXPANSION_MODE”设置。

    • 单Server场景,对参与集合通信的昇腾AI处理器数量无限制;Server集群场景要求参与集合通信的昇腾AI处理器数量为(1~8)*n(n为参与训练的Server个数)。建议每个Server中参与集合通信的昇腾AI处理器数量保持一致,若不一致,会造成性能劣化。
  • 针对 Atlas 训练系列产品
    • 不支持单卡多进程的业务场景,即不支持多个业务进程同时共用一个NPU。
    • 单Server场景下,要求实际参与集合通信的昇腾AI处理器数目只能为1/2/4/8,且0-3卡和4-7卡各为一个组网,使用2张卡或4张卡训练时,不支持跨组网创建设备集群;Server集群场景,要求参与集合通信的昇腾AI处理器数目只能为1*n、2*n、4*n、8*n(n为参与训练的Server个数),且n为2的指数倍情况下,集群性能最好,建议用户优先采用此种方式进行集群组网。
  • 针对Atlas 300I Duo 推理卡
    • 不支持单卡多进程的业务场景,即不支持多个业务进程同时共用一个NPU。
    • 仅支持单Server场景,每个集合通信操作支持的最大NPU数量详见具体API