性能调优相关环境变量

当前MindIE Turbo中的部分性能调优特性有一定的场景限制,因此针对这部分特性,采用环境变量的方式控制是否开启。相关环境变量请参见表1

表1 性能调优相关环境变量

环境变量

默认值

功能说明

配置说明

USING_SAMPLING_TENSOR_CACHE

0(默认关闭)

是否启用vLLM后处理部分的张量缓存功能。

chunked-prefill和beam search场景下暂不支持。

  • 在greedy以及topk、topp后处理场景下,建议设为“1”开启,提升性能。
  • 在chunked-prefill以及beam search场景下请勿开启。

USING_LCCL_COM

1(默认开启)

是否启用LCCL通信库进行通信操作。

多机场景下的跨机通信暂不支持。

  • 单机场景下建议设为“1”开启,提升性能;
  • 多机场景下请设为“0”关闭。

USING_PP_MATMUL

0(默认关闭)

使用ping-pong Matmul算子进行浮点的矩阵乘计算,在长序列场景下性能更优。由于使用了不同的算子,可能会造成叠加MindIE Turbo后vllm-ascend的精度发生变化,如果需要精度和vllm-ascend完全对齐,请关闭该环境变量。

  • 在严格要求叠加MindIE Turbo后精度不发生变化的场景下,请设为“0”关闭。
  • 其他场景下建议设置为“1”开启。