昇腾社区首页
中文
注册
开发者
下载

总体流程

图1 通信域初始化阶段流程

HCCL在通信域初始化阶段会经历上图所示的多个流程,首先进行环境变量初始化和资源初始化,接着获取整个通信域的集群信息,其过程一般有两种方式:

  • 基于rank table文件:通过其他途径生成rank table(集群信息配置文件),调用HCCL创建通信域的接口读取对应文件,这种方式对于rank table本身的格式要求请参照集群信息配置

    通过rank table文件配置通信域信息,请确保文件路径、权限正确,并保证文件在集群中各rank保持一致,HCCL会在后续算子的参数面建链过程中进行彼此之间的rank table一致性校验,如果不满足要求会终止业务。

  • 基于root节点信息创建通信域:又称为集群协商方式创建通信域,通过HCCL提供的通信域创建接口基于Host侧网卡向root节点建立socket连接,从而进行信息的汇聚和分发,以此生成集群信息。

基于root节点信息创建通信域的场景下,请确保配置的网卡、端口正确,同时如果出现某种故障导致部分rank未及时将信息传递给root节点,也会导致此阶段运行失败。

不管用户是基于哪种方式创建通信域,HCCL最终都会对生成的集群信息进行校验,校验集群硬件配置是否异常,如IP是否重复、IPv4/IPv6是否混编,以及TLS配置是否一致等。