Atlas 900 A3 SuperPoD 集群算力系统
Atlas 900 A3 SuperPoD 集群算力系统是华为研发的高性能AI计算集群,由多个Atlas 900 RCK A3 计算节点组成。每个Atlas 900 RCK A3 计算节点上,2个昇腾AI处理器之间通过SIO互助连接形成一个HiAM模组,例如0号和1号昇腾AI处理器形成一个HiAM模组;每个Atlas 900 RCK A3 计算节点包含8个HiAM模组。HiAM模组之间采用HCCS-L1互联的方式连接;Atlas 900 RCK A3 计算节点之间采用HCCS-L2互联的方式连接。通过L1端口级联和L2交换互联可以扩展多种规格的超节点。
任务可申请昇腾AI处理器的数量为1、2、4、6、8、10、12、14、16,申请的昇腾AI处理器需要优先占满整个Atlas 900 RCK A3 计算节点;申请的昇腾AI处理器个数为偶数时,需要占满整个HiAM模组。例如任务申请的昇腾AI处理器数量为2,Atlas 900 RCK A3 计算节点剩余的昇腾AI处理器序号为0、2、3和4时,由于只有2号和3号处于一个HiAM模组中,则该任务只能使用2号和3号昇腾AI处理器。分布式任务可申请的昇腾AI处理器的数量只能为16。
父主题: 亲和性规则