昇腾社区首页
中文
注册

global-ranktable说明

ClusterD侦听MS Controller、MS Coordinator任务Pod信息以及各个hccl.json对应ConfigMap的变化,实时生成global-ranktable。global-ranktable中部分字段来自于hccl.json文件,关于hccl.json文件的详细说明请参见hccl.json文件说明

  • Atlas A2 训练系列产品global-ranktable示例如下。
    {
        "version": "1.0",
        "status": "completed",
        "server_group_list": [
            {
                "group_id": "2",
                "deploy_server": "0",
                "server_count": "1",
                "server_list": [
                    {
                        "device": [
                            {
                                "device_id": "x",
                                "device_ip": "xx.xx.xx.xx",
                                "device_logical_id": "x",
                                "rank_id": "x"
                            }
                        ],
                        "server_id": "xx.xx.xx.xx",
                        "server_ip": "xx.xx.xx.xx"
                    }
                ]
            }
        ]
    }
  • Atlas A3 训练系列产品global-ranktable示例如下。
    {
        "version": "1.2",
        "status": "completed",
        "server_group_list": [
            {
                "group_id": "2",
                "deploy_server": "1",
                "server_count": "1",
                "server_list": [
                    {
                        "device": [
                            {
                                "device_id": "0",
                                "device_ip": "xx.xx.xx.xx",
                                "super_device_id": "xxxxx",
                                "device_logical_id": "0",
                                "rank_id": "0"
                            }
                        ],
                        "server_id": "xx.xx.xx.xx",
                        "server_ip": "xx.xx.xx.xx"
                    }
                ],
                "super_pod_list": [
                    {
                        "super_pod_id": "0",
                        "server_list": [
                            {
                                "server_id": "xx.xx.xx.xx"
                            }
                        ]
                    }
                ]
            }
        ]
    }
表1 global-ranktable字段说明

字段

说明

version

版本

status

状态

server_group_list

服务组列表

group_id

任务组编号

server_count

服务器数量

server_list

服务器列表

server_id

节点的IP

server_ip

Pod IP

device_id

NPU的设备ID

device_ip

NPU的设备IP

super_device_id

Atlas A3 训练系列产品NPU的设备ID

rank_id

NPU对应的训练rank ID

device_logical_id

NPU的逻辑ID

super_pod_list

超节点列表

super_pod_id

逻辑超节点ID