昇腾社区首页
中文
注册

使用差异

Triton的使用差异点

  • 拉起服务前需设置MindIE环境变量。(详见 •example/set_env.sh
  • 拉起服务的指令与原生一致,加上了一些与打印日志相关的环境变量。(详见•example/launch.sh
  • 模型仓的目录结构中需多添加一个MindIE LLM的config.json配置文件。(详见•example/tritonModels/co...
  • 模型仓中的模型配置文件config.pbtxt与原生相比,添加了几个parameters参数:
    • engine_config_path:MindIE LLM的配置文件路径。
    • model_instance_number:拉起的模型实例个数,目前仅支持一个。
    • npu_device_ids:NPU上指定运行的卡号,比如要0和1号卡,设置为"01;"。

启动服务和发送请求的操作步骤

若环境中有多个python版本,pybind11因为triton多线程会找不到指定版本的python×××.so,需要在环境变量中导入python库路径。假设python安装目录是PYTHON_HOME,指令如下:

export LD_LIBRARY_PATH=$PYTHON_HOME/lib:$LD_LIBRARY_PATH
  1. 启动Triton Server
    // 设置环境变量
    cd ${working_dir}/Triton_MindIE-LLM_Backend/example
    source set_env.sh
    
    // 启动triton服务 
    bash launch.sh

    当出现如下打印时,表示启动成功。

    I0807 03:28:54.018305 1434372 grpc_server.cc:2519] Started GRPCInferenceService at 0.0.0.0:8111
    I0807 03:28:54.018602 1434372 http_server.cc:4637] Started HTTPService at 0.0.0.0:8110
    I0807 03:28:54.060484 1434372 http_server.cc:320] Started Metrics Service at 0.0.0.0:8112
  2. 用Triton Client发送测试请求
    • 另启动一个窗口,进入和Triton server一样的容器,source与上文同样的环境变量。
    • 如果运行单用例,修改client_stream.py中的模型名和权重路径,然后执行如下命令。
      python client_stream.py
    • 如果跑多用例数据集,执行如下命令。
      python submit.py --name llama3_8b --model_path weights/llama3_8b --trace_dataset GSM8K.jsonl

      必须配置的参数:

      • --name 模型名
      • --model_path 模型权重路径
      • --trace_dataset 数据集名