样例准备
安装配置MPI
HcclCommInitClusterInfoConfig通信域初始化方式依赖MPI分别在每个Device上拉起进程,所以编写HCCL的代码样例前,需要先安装配置MPI软件包。
准备ranktable文件
该样例通过获取ranktable的方式进行初始化,所以需准备一份ranktable文件配置集群信息,供后续调用接口时使用。
配置“RANK_TABLE_FILE”环境变量,指定ranktable文件所在路径,如下所示,文件名称为“ranktable.json”。
1
|
export RANK_TABLE_FILE=/home/test/ranktable.json |
以
Atlas A2 训练系列产品
,组网为单机8卡为例,ranktable.json配置示例如下,不同产品形态ranktable文件的配置示例及详细参数说明可参见ranktable文件配置资源信息。

以下json文件仅为配置示例,使用时请根据实际组网信息进行配置,并删除注释。
{ "status":"completed", // ranktable可用标识,completed为可用 "version": "1.0", "server_count": "1", // 参与训练的AI Server数目 "server_list": [ { "server_id": "SERVER_ID_SV1", // AI Server标识,String类型,请确保全局唯一 "device": [ // AI Server中的Device列表 { "device_id": "0", "device_ip": "192.168.1.8", "rank_id": "0" }, { "device_id": "1", "device_ip": "192.168.1.9", "rank_id": "1" }, { "device_id": "2", "device_ip": "192.168.1.10", "rank_id": "2" }, { "device_id": "3", "device_ip": "192.168.1.11", "rank_id": "3" }, { "device_id": "4", "device_ip": "192.168.1.12", "rank_id": "4" }, { "device_id": "5", "device_ip": "192.168.1.13", "rank_id": "5" }, { "device_id": "6", "device_ip": "192.168.1.14", "rank_id": "6" }, { "device_id": "7", "device_ip": "192.168.1.15", "rank_id": "7" } ] } ] }