使用差异

Triton的使用差异点

启动服务和发送请求的操作步骤

若环境中有多个python版本,pybind11因为triton多线程会找不到指定版本的python×××.so,需要在环境变量中导入python库路径。假设python安装目录是PYTHON_HOME,指令如下:

export LD_LIBRARY_PATH=$PYTHON_HOME/lib:$LD_LIBRARY_PATH
  1. 启动Triton Server

    // 设置环境变量
    cd ${working_dir}/Triton_MindIE-LLM_Backend/example
    source set_env.sh
    
    // 启动triton服务 
    bash launch.sh

    当出现如下打印时,表示启动成功。

    I0807 03:28:54.018305 1434372 grpc_server.cc:2519] Started GRPCInferenceService at 0.0.0.0:8111
    I0807 03:28:54.018602 1434372 http_server.cc:4637] Started HTTPService at 0.0.0.0:8110
    I0807 03:28:54.060484 1434372 http_server.cc:320] Started Metrics Service at 0.0.0.0:8112

  2. 用Triton Client发送测试请求

    • 另启动一个窗口,进入和Triton server一样的容器,source与上文同样的环境变量。
    • 如果运行单用例,修改client_stream.py中的模型名和权重路径,然后执行如下命令。
      python client_stream.py
    • 如果跑多用例数据集,执行如下命令。
      python submit.py --name llama3_8b --model_path weights/llama3_8b --trace_dataset GSM8K.jsonl

      必须配置的参数:

      • --name 模型名
      • --model_path 模型权重路径
      • --trace_dataset 数据集名