环境准备

支持的产品形态如下:

请参考CANN 软件安装指南安装好驱动固件以及CANN软件。

使用hccn_tool查询device ip,并且进行卡间网络检测,要求各个集群上的卡间有RDMA链路连接,否则无法使能LLM-DataDist能力。hccn_tool详细介绍请参考《HCCN Tool 接口参考》。

使用LLM-DataDist过程中,还涉及到如下环境变量,具体请参见环境变量参考

名称

使用场景

HCCL_RDMA_TC、HCCL_RDMA_SL

当客户对参数面网络做了自己的规划时,对各种业务流量规定了类型,优先级。通过这两个环境变量设置参数面集合通信流量在网络上的流量类型和优先级,以适配客户网络流量规划的要求。

HCCL_RDMA_RETRY_CNT、HCCL_RDMA_TIMEOUT

对应RDMA硬件重传超次特性的配置值,分别对应重试次数和重试超时时间。设置太大导致对网络异常反应不敏感,不能感知到网络故障。设置太小则容易造成网络闪断直接造成业务中断,不能被网卡硬件屏蔽。用户可根据自身网络情况设置合适的值。例如,可以根据大部分闪断的时间范围进行配置。

推荐按照如下公式进行配置,以减少网络抖动带来的影响。

HCCL_RDMA_TIMEOUT=log2(pull kv超时时间 * 10^6 / (HCCL_RDMA_RETRY_CNT + 1) / 4.096),向上取整。
说明:

当pull kv超时时间和HCCL_RDMA_RETRY_CNT都等于默认值时,HCCL_RDMA_TIMEOUT建议配置成15。

AUTO_USE_UC_MEMORY

使用LLM-DataDist之前,如果没有配置该环境变量,使用LLM-DataDist过程中,会将其设置为0。