昇腾社区首页
中文
注册
开发者
下载

环境准备

支持的产品形态如下:

  • Atlas 800I A2 推理产品/A200I A2 Box 异构组件
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品。该场景下,采用HCCS传输协议时,不支持Host内存作为远端Cache。

请参考CANN 软件安装指南安装好驱动固件以及CANN软件。

使用hccn_tool查询Device IP,并且进行卡间网络检测,要求各个集群上的卡间有RDMA链路连接,否则无法使能LLM-DataDist能力。hccn_tool详细介绍请参考《HCCN Tool 接口参考》。以下是常用命令参考。

命令

使用场景

hccn_tool [-i %d] -link -g

获取指定Device网口Link状态。-i 指定Device。

样例如下:

hccn_tool -i 0 -link -g

hccn_tool [-i %d] -ip -g

获取IP地址和子网掩码-i 指定Device。

样例如下:

hccn_tool -i 0 -ip -g

hccn_tool [-i %d] -ping -g [address %s ]

获取指定设备到目的地址的ping结果。-i 指定当前server的某个Device, address指定ping的目的地址。

样例如下:

hccn_tool -i 0 -ping -g address 192.168.2.1

使用LLM-DataDist过程中,还涉及到如下环境变量,具体请参见环境变量参考

名称

使用场景

HCCL_RDMA_TC、HCCL_RDMA_SL

当客户对参数面网络做了自己的规划时,对各种业务流量规定了类型,优先级。通过这两个环境变量设置参数面集合通信流量在网络上的流量类型和优先级,以适配客户网络流量规划的要求。

HCCL_RDMA_RETRY_CNT、HCCL_RDMA_TIMEOUT

对应RDMA硬件重传超次特性的配置值,分别对应重试次数和重试超时时间。设置太大导致对网络异常反应不敏感,不能感知到网络故障。设置太小则容易造成网络闪断直接造成业务中断,不能被网卡硬件屏蔽。用户可根据自身网络情况设置合适的值。例如,可以根据大部分闪断的时间范围进行配置。

推荐按照如下公式进行配置,以减少网络抖动带来的影响。

HCCL_RDMA_TIMEOUT=log2(pull kv超时时间 * 10^6 / (HCCL_RDMA_RETRY_CNT + 1) / 4.096),向上取整。
说明:

当pull kv超时时间和HCCL_RDMA_RETRY_CNT都等于默认值时,HCCL_RDMA_TIMEOUT建议配置成15。

HCCL_INTRA_ROCE_ENABLE

用于配置Server内是否使用RoCE环路进行多卡间的通信

AUTO_USE_UC_MEMORY

控制系统是否允许算子搬移数据不经过L2 Cache的功能。

使用LLM-DataDist之前,如果没有配置该环境变量,使用LLM-DataDist过程中,会将其设置为0,表示所有算子搬移数据都必须经过L2 Cache。