昇腾社区首页
中文
注册

环境准备

支持的产品形态:Atlas 800I A2 推理产品

请参考CANN软件安装指南安装好驱动固件以及CANN软件。

使用hccn_tool查询device ip,并且进行卡间网络检测,要求各个集群上的卡间有RDMA链路连接,否则无法使能LLM-DataDist能力。hccn_tool详细介绍请参考HCCN Tool 接口参考

使用LLM-DataDist过程中,还涉及到如下环境变量,具体请参见环境变量参考

表1 环境变量

名称

使用场景

HCCL_RDMA_TC

当客户对参数面网络做了自己的规划时,对各种业务流量规定了类型,优先级。通过这两个环境变量设置参数面集合通信流量在网络上的流量类型和优先级,以适配客户网络流量规划的要求。

HCCL_RDMA_SL

HCCL_RDMA_TIMEOUT

对应RDMA硬件重传超次特性的配置值,分别对应重试次数和重试超时时间。设置太大导致对网络异常反应不敏感,不能感知到网络故障。设置太小则容易造成网络闪断直接造成业务中断,不能被网卡硬件屏蔽。

用户可根据自身网络情况,来设置合适的值。例如,可以根据大部分闪断的时间范围进行配置。

HCCL_RDMA_RETRY_CNT