昇腾社区首页
EN
注册
开发者
下载

rank table配置资源信息(Atlas 300I Duo 推理卡

针对Atlas 300I Duo 推理卡,以包含两个AI Server,每个AI Server内2个Device为例,rank table文件配置示例如下:

本节所示JSON文件示例中的注释仅为方便理解,实际使用时,请删除JSON文件中的注释。

{
    "status":"completed",   // rank table可用标识,completed为可用
    "version":"1.0",        // rank table模板版本信息,配置为:1.0
    "server_count":"2",     // 参与训练的AI Server数目,此例中,有两个AI Server
    "server_list":
    [
        {
            "server_id":"node_0",  //AI Server标识,String类型,请确保全局唯一
            "device":[             // AI Server中的Device列表
                {
                    "device_id":"0",   // 处理器的物理ID
                    "device_ip":"192.168.1.8",   // 处理器真实网卡IP
                    "rank_id":"0"                // rank的标识,从0开始配置,请确保全局唯一
                },
                {
                    "device_id":"1",
                    "device_ip":"192.168.1.9", 
                    "rank_id":"1"
                }
            ]
        },
        {
            "server_id":"node_1",
            "device":[
                {
                    "device_id":"0",
                    "device_ip":"192.168.2.8",
                    "rank_id":"2"
                },
                {
                    "device_id":"1",
                    "device_ip":"192.168.2.9", 
                    "rank_id":"3"
                }
            ]
        }
    ]
}
表1 rank table文件说明

一级配置项

二级配置项

三级配置项

配置说明

status

     

必选。

rank table可用标识。

  • completed:表示rank table可用。
  • initializing:表示rank table不可用。

version

     

必选。

rank table模板版本信息。

配置为:1.0。

server_count

     

必选。

参与集合通信的AI Server个数。

server_list

     

必选。

参与集合通信的AI Server列表。

  

server_id

  

必选。

AI Server标识,字符串类型,长度小于等于64,请确保全局唯一。

配置示例:node_0。

  

device

  

必选。

AI Server中的Device列表。

     

device_id

必选。

昇腾AI处理器的物理ID,即Device在AI Server上的序列号。

可通过执行“ls /dev/davinci*”命令获取昇腾AI处理器的物理ID。

例如:显示/dev/davinci0,表示昇腾AI处理器的物理ID为0。

取值范围:[0,实际Device数量-1]。

须知:

“device_id”配置项的优先级高于环境变量“ASCEND_DEVICE_ID”。

     

device_ip

必选。

昇腾AI处理器集成网卡IP,全局唯一,要求为常规IPv4或IPv6格式。

可以在当前AI Server执行指令“cat /etc/hccn.conf”获取网卡IP,例如:

address_0=xx.xx.xx.xx
netmask_0=xx.xx.xx.xx
netdetect_0=xx.xx.xx.xx
address_1=xx.xx.xx.xx
netmask_1=xx.xx.xx.xx
netdetect_1=xx.xx.xx.xx
...

查询到的address_xx即为网卡IP,address后的序号为昇腾AI处理器的物理ID,即device_id,后面的ip地址即为需要用户填入的该device对应的网卡IP。

     

rank_id

必选。

rank唯一标识,请配置为整数,从0开始配置,且全局唯一,取值范围:[0, 总Device数量-1]

为方便管理,建议rank_id按照Device物理连接顺序进行排序,即将物理连接上较近的Device编排在一起。

例如,若device_ip按照物理连接从小到大设置,则rank_id也建议按照从小到大的顺序设置。