时延数据获取
当模型或者硬件环境未使用过该工具,且没有任何时延数据的场景,需要使用该工具从生产环境中获取时延拟合所需要的时延数据,提供两种方式进行获取:自动导入模式和手动导入模式。
自动导入模式
需要执行一次Benchmark性能测试。
- 在服务端进入容器。
- 在任意路径执行以下命令启用环境变量MINDIE_LLM_BENCHMARK_ENABLE。
启用该环境变量后,系统将在推理运行过程中自动生成时延数据文件;如该环境变量未激活,则无法记录推理过程中的时延数据,导致基于时延数据的模型拟合无法进行。
export MINDIE_LLM_BENCHMARK_ENABLE=2
- 在/{MindIE安装目录}/latest/mindie-service目录,执行以下命令启动MindIE Service。
./bin/mindieservice_daemon
启动MindIE Service之前,为保证更优性能,建议将config.json配置文件中的“supportSelectBatch”参数设置为“true”,其配置文件所在路径为:{MindIE安装目录}/latest/mindie-service/conf/。
回显如下所示则表示服务启动成功:
Daemon start success!
- 重开一个窗口,在/{MindIE安装目录}/latest/mindie-service目录下执行Benchmark命令,Benchmark命令详情请参见MindIE Benchmark。
执行Benchmark命令进行性能测试时,为保证更优性能,建议使用以频率发送请求(即Benchmark命令中使用--RequestRate参数)。
测试完成后,等待所有数据输出到指定文件路径(约30秒)。
- 在当前目录下执行以下命令导出时延数据。
simulator --RunType "latency_fit"
- 根据回显信息选择"y",然后将会自动从环境中导入。
导入完成后,会自动创建场景,场景信息包含:NPU型号、版本号、模型以及TP数。
手动导入模式
需要手动将时延文件放置在指定的custom文件夹中。
- 文件一:benchmark.jsonl
- 所在位置:/usr/local/Ascend/mindie/latest/mindie-llm/logs
- 获取方法:启动MindIE Service服务前,在容器内执行以下环境变量。
export MINDIE_LLM_BENCHMARK_ENABLE=2
每次启动MindIE Service服务时,都会复写该文件,请及时保存。
- 文件二:results_per_request_[时间戳].json
- 所在位置:在执行Benchmark命令路径下,生成的instance文件夹中。
- 获取方法:每次执行Benchmark命令后生成。
- 文件三:req_to_data_map.json
- 所在位置:在执行Benchmark命令路径下,生成的instance文件夹中。
- 获取方法:每次执行Benchmark命令后生成。
每次执行Benchmark命令时,都会复写该文件,请及时保存。
准备好以上三个文件后,将其放入simulator/scenario/custom目录中。然后在容器中任意路径中执行以下命令:
simulator --RunType "latency_fit"
选择不要从环境中自动导入,并选择不从场景库中选择。若想拟合的场景中已有自动/手动导入的情况,无需再次导入,可选择从场景库中选择。
父主题: 时延拟合