文本推理样例

执行样例前请使用以下命令配置环境变量。
source /usr/local/Ascend/ascend-toolkit/set_env.sh # CANN
source /usr/local/Ascend/nnal/atb/set_env.sh # ATB
source /home/package/atb_models/set_env.sh # ATB Models
source /usr/local/Ascend/mindie/set_env.sh # MindIE
后处理性能测试样例
SMPL_PARAM="{\"temperature\":0.5,\"top_k\":10,\"top_p\":0.9,\"typical_p\":0.9,\"seed\":1234,\"repetition_penalty\":1,\"watermark\":true,\"truncate\":10}" benchmark \ --DatasetPath "/{模型库安装路径}/tests/modeltest/dataset/full/GSM8K" \ --DatasetType "gsm8k" \ --ModelName llama_7b \ --ModelPath "/{data}/llama_7b" \ --TestType client \ --Http https://{ipAddress}:{port} \ --Concurrency 128 \ --TaskKind stream \ --Tokenizer True \ --MaxOutputLen 512 \ --DoSampling True \ --SamplingParams $SMPL_PARAM

Client目前不支持tokenids推理模式,所以--Tokenizer不能为False。
不带后处理性能测试样例
通过--TaskKind参数区分不同Client推理模式。
- 文本非流式推理:
benchmark \ --DatasetPath "/{模型库安装路径}/tests/modeltest/dataset/full/GSM8K" \ --DatasetType "gsm8k" \ --ModelName llama_7b \ --ModelPath "/{data}/llama_7b" \ --TestType client \ --Http https://{ipAddress}:{port} \ --Concurrency 128 \ --TaskKind text \ --Tokenizer True \ --MaxOutputLen 512
- 文本流式推理:
benchmark \ --DatasetPath "/{模型库安装路径}/tests/modeltest/dataset/full/GSM8K" \ --DatasetType "gsm8k" \ --ModelName llama_7b \ --ModelPath "/{data}/llama_7b" \ --TestType client \ --Http https://{ipAddress}:{port} \ --Concurrency 128 \ --TaskKind stream \ --Tokenizer True \ --MaxOutputLen 512
精度测试样例

- 需要开启确定性计算环境变量。
export LCCL_DETERMINISTIC=1 export HCCL_DETERMINISTIC=1 export ATB_MATMUL_SHUFFLE_K_ENABLE=0 export ATB_LLM_LCOC_ENABLE=0
- 并发数需设置为1,确保模型推理时是1batch输入,这样才可以和纯模型比对精度。
- 使用CEval比对精度时,MaxOutputLen应该设为20,MindIE Server的config.json文件中MaxSeqlen需要设置为3072。
- 使用MMLU比对精度时,MaxOutputLen应该设为20,MindIE Server的config.json文件中MaxSeqlen需要设置为3600,该数据集中有约为1.4w条数据,推理耗时会比较长。
benchmark \ --DatasetPath "/{模型库安装路径}/tests/modeltest/dataset/full/CEval" \ --DatasetType "ceval" \ --ModelName llama_7b \ --ModelPath "/{data}/llama_7b" \ --TestType client \ --Http https://{ipAddress}:{port} \ --Concurrency 1 \ --MaxOutputLen 20 \ --TaskKind stream \ --Tokenizer True \ --TestAccuracy True
父主题: Client推理模式