开发者
资源

Initialize

产品支持情况

产品

是否支持

Atlas 350 加速卡

x

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 200I/500 A2 推理产品

x

Atlas 推理系列产品

x

Atlas 训练系列产品

x

说明:针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800I A2 推理服务器、Atlas 300I A2 推理卡、A200I A2 Box 异构组件。

函数功能

初始化LLM-DataDist。

函数原型

1
Status Initialize(const std::map<AscendString, AscendString> &options)

参数说明

参数名

输入/输出

描述

options

输入

初始化参数值。具体请参考表1

表1 options

参数名

可选/必选

描述

OPTION_LISTEN_IP_INFO

可选

配置当前option表示LLM-DataDist是Server,不配置表示Client。

当LLM-DataDist是Server时,需配置Host侧的IP地址和端口。

配置示例:如"192.168.1.1:26000",不支持传入多个IP地址和端口。

OPTION_DEVICE_ID

必选

设置当前进程的Device ID,如"0",不支持单进程多卡场景。

OPTION_SYNC_CACHE_WAIT_TIME

可选

kv相关操作的超时时间,单位:ms。不配置默认为1000ms。相关接口如下。

OPTION_LOCAL_COMM_RES

可选

配置本地通信资源信息,格式是json格式的字符串。

配置方法如下:

仅需配置ranktable中当前llm datadist所使用Device信息,无需配置ranktable中的server_count和rank_id字段,ranktable具体信息请参见HCCL集合通信库用户指南。该option可以不配置或配置为空串,为空将自动生成相关信息。该方法适用于如下型号:

  • Atlas A2 训练系列产品/Atlas A2 推理系列产品
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品

OPTION_TRANSFER_BACKEND

可选

配置LLM-DataDist使用的传输后端引擎,当前支持配置的后端为“hixl”。

hixl传输后端使用方法如下:

  • 初始化option需指定OPTION_LISTEN_IP_INFO:当配置使用hixl传输后端时,每个传输端既可作为client也可以作为server。
  • 与对端发起传输前需要调用LinkLlmClusters发起建链。

调用示例

单击Gitee,根据“标签名”下载配套版本的sample包,从“cplusplus/level1_single_api/11_llm_data_dist”目录中获取样例。

返回值

  • LLM_SUCCESS:成功
  • LLM_PARAM_INVALID:参数错误
  • 其他:失败

异常处理

约束说明

需要和Finalize配对使用,初始化成功后,任何退出前都需要调用Finalize保证资源释放,否则会出现资源释放顺序不符合预期而导致问题。