准备资源配置文件

进行训练之前,需要准备昇腾AI处理器资源配置文件(即Rank table文件),并上传到当前运行环境,该文件用于定义训练的昇腾AI处理器资源信息。

使用前须知

  1. 在ranktable文件中配置需要参与训练的昇腾AI处理器数目,当前支持两种配置模板,全新场景推荐使用模板一,模板二用于兼容部分已有场景。
  2. 如果使用1台训练服务器(Server),要求实际参与集合通信的昇腾AI处理器数目只能为1/2/4/8,且0-3卡和4-7卡各为一个组网,使用2张卡或4张卡训练时,不支持跨组网创建设备集群。
  3. 如果使用Server集群,即由集群管理主节点+一组训练服务器(Server)组成训练服务器集群,要求参与集合通信的的昇腾AI处理器数目只能为8*n(其中n为参与训练的Server个数,上限为512)。且n为2的指数倍情况下,集群性能最好,建议用户优先采用此种方式进行集群组网。
  4. Atlas 300T 训练卡(型号 9000)场景下,要求配置的昇腾AI处理器数目不大于服务器上实际的数目,并且必须使用模板一配置。

准备配置文件

ranktable文件内容格式按照json格式要求,以2p场景为例,文件可以命名为rank_table_2p.json。

用户也可以在此处配置全量的昇腾AI处理器资源信息,后续训练进程启动时仅使用其中的指定的几个昇腾AI处理器资源。

配置示例

以包含两个Device的资源配置文件为例,假设命名为“rank_table_2p.json”,配置如下:

{
"server_count":"1",
"server_list":
[
   {
        "device":[
                       {
                        "device_id":"0", 
                        "device_ip":"192.168.1.8",
                        "rank_id":"0"
                        },
                        {
                         "device_id":"1",
                         "device_ip":"192.168.1.9",   // 两个Device需要处于同一网段,0卡和1卡为同一网段
                         "rank_id":"1"
                         }
                  ],
         "server_id":"10.0.0.10" 
    }
],
"status":"completed",
"version":"1.0"
}