使用其他调度器时,根据服务器类型,对训练任务的约束如下。当使用集群调度组件的Volcano作为调度器时,调度任务时已经满足如下使用约束。
产品名称 |
训练场景 |
使用说明 |
---|---|---|
Atlas 800 训练服务器(NPU满配) |
单机场景 |
可申请NPU的数量为数目为1、2、4、8。 当申请NPU数目为2、4时,根据亲和性约束分配的NPU只能在同一台服务器同一个环内(0~3号NPU为一个环,4~7号NPU为一个环)。 例如申请了2个NPU进行训练,则分配2个的NPU要么都在同一台服务器的0~3号上或者都在4~7号上。不能出现一个在0~3号上,另一个在4~7号上。 |
分布式场景 |
可申请NPU数目为1N、2N、4N、8N。 N表示节点个数,其中每个节点的NPU调度约束同单机场景。 |
|
Atlas 800 训练服务器(NPU半配) |
单机场景 |
可申请NPU的数量为数目为1、2、4。 |
分布式场景 |
可申请NPU数目为1N、2N、4N。N表示节点个数。 |
|
Atlas 200T A2 Box16 异构子框 |
单机场景 |
可申请NPU的数量为数目为1、2、3、4、5、6、7、8、10、12、14、16。
|
分布式场景 |
可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、10N、12N、14N、16N。
|
|
Atlas 800T A2 训练服务器或Atlas 900 A2 PoD 集群基础单元 |
单机场景 |
可申请NPU的数目为1、2、3、4、5、6、7、8。 |
分布式场景 |
可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、16N。N表示节点个数。 |
|
Atlas 900 A3 SuperPoD 超节点 |
单机场景 |
可申请NPU的数目为1、2、4、6、8、10、12、14、16。 |
分布式场景 |
可申请NPU的数目为16N。N表示节点个数。 |
|
注: 对不使用NPU的Pod,不做NPU数量的要求。 |