昇腾社区首页
中文
注册

时延数据获取

当模型或者硬件环境未使用过该工具,且没有任何时延数据的场景,需要使用该工具从生产环境中获取时延拟合所需要的时延数据,提供两种方式进行获取:自动导入模式和手动导入模式。

自动导入模式

需要执行一次Benchmark性能测试。

  1. 在服务端进入容器。
  2. 在任意路径执行以下命令启用环境变量MINDIE_LLM_BENCHMARK_ENABLE

    启用该环境变量后,系统将在推理运行过程中自动生成时延数据文件;如该环境变量未激活,则无法记录推理过程中的时延数据,导致基于时延数据的模型拟合无法进行。

    export MINDIE_LLM_BENCHMARK_ENABLE=2
  3. 在/{MindIE安装目录}/latest/mindie-service目录,执行以下命令启动MindIE Service。
    ./bin/mindieservice_daemon

    启动MindIE Service之前,为保证更优性能,建议将config.json配置文件中的“supportSelectBatch”参数设置为“true”,其配置文件所在路径为:{MindIE安装目录}/latest/mindie-service/conf/。

    回显如下所示则表示服务启动成功:

    Daemon start success!
  4. 重开一个窗口,在/{MindIE安装目录}/latest/mindie-service目录执行Benchmark命令,Benchmark命令详情请参见MindIE Benchmark

    执行Benchmark命令进行性能测试时,为保证更优性能,建议使用以频率发送请求(即Benchmark命令中使用--RequestRate参数)。

    测试完成后,等待所有数据输出到指定文件路径(约30秒)。

  5. 在当前目录下执行以下命令导出时延数据。
    simulator --RunType "latency_fit"
  6. 根据回显信息选择"y",然后将会自动从环境中导入。

    导入完成后,会自动创建场景,场景信息包含:NPU型号、版本号、模型以及TP数。

手动导入模式

需要手动将时延文件放置在指定的custom文件夹中。

  • 文件一:benchmark.jsonl
    • 所在位置:/usr/local/Ascend/mindie/latest/mindie-llm/logs
    • 获取方法:启动MindIE Service服务前,在容器内执行以下环境变量。
      export MINDIE_LLM_BENCHMARK_ENABLE=2

    每次启动MindIE Service服务时,都会复写该文件,请及时保存。

  • 文件二:results_per_request_[时间戳].json
    • 所在位置:在执行Benchmark命令路径下,生成的instance文件夹中。
    • 获取方法:每次执行Benchmark命令后生成。
  • 文件三:req_to_data_map.json
    • 所在位置:在执行Benchmark命令路径下,生成的instance文件夹中。
    • 获取方法:每次执行Benchmark命令后生成。

    每次执行Benchmark命令时,都会复写该文件,请及时保存。

准备好以上三个文件后,将其放入simulator/scenario/custom目录中。然后在容器中任意路径中执行以下命令:

simulator --RunType "latency_fit"

选择不要从环境中自动导入,并选择不从场景库中选择。若想拟合的场景中已有自动/手动导入的情况,无需再次导入,可选择从场景库中选择。