模型训练任务说明
使用其他调度器时,根据服务器类型,对训练任务的约束如下。当使用集群调度组件的Volcano作为调度器时,调度任务时已经满足如下使用约束。
产品名称  | 
训练场景  | 
使用说明  | 
|---|---|---|
Atlas 800 训练服务器(NPU满配)  | 
单机场景  | 
可申请NPU的数目为1、2、4、8。 当申请NPU数目为2、4时,根据亲和性约束分配的NPU只能在同一台服务器同一个环内(0~3号NPU为一个环,4~7号NPU为一个环)。 例如申请了2个NPU进行训练,则分配的2个NPU要么都在同一台服务器的0~3号上或者都在4~7号上。不能出现一个在0~3号上,另一个在4~7号上。  | 
分布式场景  | 
可申请NPU的数目为1N、2N、4N、8N。 N表示节点个数,其中每个节点的NPU调度约束同单机场景。  | 
|
Atlas 800 训练服务器(NPU半配)  | 
单机场景  | 
可申请NPU的数目为1、2、4。  | 
分布式场景  | 
可申请NPU的数目为1N、2N、4N。N表示节点个数。  | 
|
Atlas 200T A2 Box16 异构子框  | 
单机场景  | 
可申请NPU的数目为1、2、3、4、5、6、7、8、10、12、14、16。 
  | 
分布式场景  | 
可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、10N、12N、14N、16N。 
  | 
|
Atlas 800T A2 训练服务器或Atlas 900 A2 PoD 集群基础单元  | 
单机场景  | 
可申请NPU的数目为1、2、3、4、5、6、7、8。  | 
分布式场景  | 
可申请NPU的数目为1N、2N、3N、4N、5N、6N、7N、8N、16N。N表示节点个数。  | 
|
Atlas 900 A3 SuperPoD 超节点  | 
单机场景  | 
可申请NPU的数目为1、2、4、6、8、10、12、14、16。  | 
分布式场景  | 
可申请NPU的数目为16N。N表示节点个数。  | 
|
注: 对不使用NPU的Pod,不做NPU数量的要求。  | 
||