global-ranktable说明
ClusterD侦听MS Controller、MS Coordinator任务Pod信息以及各个hccl.json对应ConfigMap的变化,实时生成global-ranktable。global-ranktable中部分字段来自于hccl.json文件,关于hccl.json文件的详细说明请参见hccl.json文件说明。
- Atlas A2 训练系列产品global-ranktable示例如下。
{ "version": "1.0", "status": "completed", "server_group_list": [ { "group_id": "2", "deploy_server": "0", "server_count": "1", "server_list": [ { "device": [ { "device_id": "x", "device_ip": "xx.xx.xx.xx", "device_logical_id": "x", "rank_id": "x" } ], "server_id": "xx.xx.xx.xx", "server_ip": "xx.xx.xx.xx" } ] } ] }
- Atlas A3 训练系列产品global-ranktable示例如下。
{ "version": "1.2", "status": "completed", "server_group_list": [ { "group_id": "2", "deploy_server": "1", "server_count": "1", "server_list": [ { "device": [ { "device_id": "0", "device_ip": "xx.xx.xx.xx", "super_device_id": "xxxxx", "device_logical_id": "0", "rank_id": "0" } ], "server_id": "xx.xx.xx.xx", "server_ip": "xx.xx.xx.xx" } ], "super_pod_list": [ { "super_pod_id": "0", "server_list": [ { "server_id": "xx.xx.xx.xx" } ] } ] } ] }
字段 |
说明 |
---|---|
version |
版本 |
status |
状态 |
server_group_list |
服务组列表 |
group_id |
任务组编号 |
server_count |
服务器数量 |
server_list |
服务器列表 |
server_id |
节点的IP |
server_ip |
Pod IP |
device_id |
NPU的设备ID |
device_ip |
NPU的设备IP |
super_device_id |
Atlas A3 训练系列产品NPU的设备ID |
rank_id |
NPU对应的训练rank ID |
device_logical_id |
NPU的逻辑ID |
super_pod_list |
超节点列表 |
super_pod_id |
逻辑超节点ID |
父主题: 通过命令行使用