昇腾社区首页
中文
注册
开发者
下载

模型性能测试

以ChatGLM3-6B为例,查看大语言模型列表该模型支持的卡数,使用命令“npu-smi info”可查看当前昇腾卡的占用情况。

  • 若为Atlas 800I A2 推理服务器请执行以下步骤。
  1. 进入容器后,执行以下命令,运行ChatGLM3-6B模型性能测试。“/home/weight/chatglm3-6b”为容器的模型权重路径。
    1
    2
    3
    4
    5
    source /usr/local/Ascend/ascend-toolkit/set_env.sh
    source /usr/local/Ascend/nnal/atb/set_env.sh
    source /usr/local/Ascend/atb-models/set_env.sh
    cd /usr/local/Ascend/llm_model/tests/modeltest
    bash run.sh pa_fp16 performance [[2048,2048]] 16 chatglm /home/weight/chatglm3-6b 8 -trust_remote_code
    
  2. 模型性能测试时间大概2分钟,结束后回显如图1所示,代表模型性能测试成功。
    图1 性能测试样例
  • 若为Atlas 800 推理服务器(型号:3000)配置Atlas 300I Duo 推理卡请执行以下步骤。
  1. 进入容器后,执行如下命令,运行ChatGLM3-6B模型性能测试。“/home/weight/chatglm3-6b”为容器的模型权重路径。
    1
    2
    3
    4
    5
    source /usr/local/Ascend/ascend-toolkit/set_env.sh
    source /usr/local/Ascend/nnal/atb/set_env.sh
    source /usr/local/Ascend/atb-models/set_env.sh
    cd /usr/local/Ascend/llm_model/tests/modeltest
    bash run.sh pa_fp16 performance [[2048,2048]] 16 chatglm /home/weight/chatglm3-6b 4 -trust_remote_code
    
  2. 模型性能测试时间大概5分钟,结束后回显如图2所示,代表模型性能测试成功。
    图2 性能测试样例