模型训练任务说明

使用其他调度器时,根据服务器类型,对训练任务的约束如下。当使用集群调度组件的Volcano作为调度器时,调度任务时已经满足如下使用约束。

表1 训练任务使用说明

产品名称

训练场景

使用说明

Atlas 800 训练服务器(NPU满配)

单机场景

可申请NPU的数量为数目为1、2、4、8。

当申请NPU数目为2、4时,根据亲和性约束分配的NPU只能在同一台服务器同一个环内(0~3号NPU为一个环,4~7号NPU为一个环)。

例如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~3号上或者都在4~7号上。不能出现一个在0~3号上,另一个在4~7号上。

分布式场景

可申请NPU数目为1N、2N、4N、8N。

N表示节点个数,其中每个节点的NPU调度约束同单机场景。

Atlas 800 训练服务器(NPU半配)

单机场景

可申请NPU的数量为数目为1、2、4。

分布式场景

可申请NPU数目为1N、2N、4N。N表示节点个数。

Atlas 200T A2 Box16 异构子框

单机场景

可申请NPU的数量为数目为1、2、3、4、5、6、7、8、10、12、14、16。

  • 当申请NPU数目小于8时,根据亲和性约束分配的NPU只能在同一台服务器同一个环内(0~7号NPU为一个环,8~16号NPU为一个环)。
  • 当申请NPU数目为10、12、14时,需要将所需的NPU平均分配到两个环,相对的物理地址也一致。例如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~7号上或者都在8~16号上。不能出现一个在0~7号上,另一个在8~16号上。

分布式场景

可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、10N、12N、14N、16N。

  • N表示节点个数,其中每个节点的NPU调度约束同单机场景。
  • 申请NPU的数目为10N、12N、14N时,需要将所需的NPU平均分配到两个环,相对的物理地址可以不一致。

Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元

单机场景

可申请NPU的数目为1、2、3、4、5、6、7、8。

分布式场景

可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、16N。N表示节点个数。

Atlas 900 A3 SuperPoD 超节点

单机场景

可申请NPU的数目为1、2、4、6、8、10、12、14、16。

分布式场景

可申请NPU的数目为16N。N表示节点个数。

注:

对不使用NPU的Pod,不做NPU数量的要求。