使用差异
Triton的使用差异点
- 拉起服务前需设置MindIE环境变量。(详见 •example/set_env.sh)
- 拉起服务的指令与原生一致,加上了一些与打印日志相关的环境变量。(详见•example/launch.sh)
- 模型仓的目录结构中需多添加一个MindIE LLM的config.json配置文件。(详见•example/tritonModels/co...)
- 模型仓中的模型配置文件config.pbtxt与原生相比,添加了几个parameters参数:
- engine_config_path:MindIE LLM的配置文件路径。
- model_instance_number:拉起的模型实例个数,目前仅支持一个。
- npu_device_ids:NPU上指定运行的卡号,比如要0和1号卡,设置为"01;"。
启动服务和发送请求的操作步骤

若环境中有多个python版本,pybind11因为triton多线程会找不到指定版本的python×××.so,需要在环境变量中导入python库路径。假设python安装目录是PYTHON_HOME,指令如下:
export LD_LIBRARY_PATH=$PYTHON_HOME/lib:$LD_LIBRARY_PATH
- 启动Triton Server。
// 设置环境变量 cd ${working_dir}/Triton_MindIE-LLM_Backend/example source set_env.sh // 启动triton服务 bash launch.sh
当出现如下打印时,表示启动成功。
I0807 03:28:54.018305 1434372 grpc_server.cc:2519] Started GRPCInferenceService at 0.0.0.0:8111 I0807 03:28:54.018602 1434372 http_server.cc:4637] Started HTTPService at 0.0.0.0:8110 I0807 03:28:54.060484 1434372 http_server.cc:320] Started Metrics Service at 0.0.0.0:8112
- 用Triton Client发送测试请求。
- 另启动一个窗口,进入和Triton server一样的容器,source与上文同样的环境变量。
- 如果运行单用例,修改client_stream.py中的模型名和权重路径,然后执行如下命令。
python client_stream.py
- 如果跑多用例数据集,执行如下命令。
python submit.py --name llama3_8b --model_path weights/llama3_8b --trace_dataset GSM8K.jsonl
必须配置的参数:
- --name 模型名
- --model_path 模型权重路径
- --trace_dataset 数据集名
父主题: Triton