当前MindIE Turbo中的部分性能调优特性有一定的场景限制,因此针对这部分特性,采用环境变量的方式控制是否开启。相关环境变量请参见表1。
环境变量 |
默认值 |
功能说明 |
配置说明 |
---|---|---|---|
USING_SAMPLING_TENSOR_CACHE |
0(默认关闭) |
是否启用vLLM后处理部分的张量缓存功能。 chunked-prefill和beam search场景下暂不支持。 |
|
USING_LCCL_COM |
1(默认开启) |
是否启用LCCL通信库进行通信操作。 多机场景下的跨机通信暂不支持。 |
|
USING_PP_MATMUL |
0(默认关闭) |
使用ping-pong Matmul算子进行浮点的矩阵乘计算,在长序列场景下性能更优。由于使用了不同的算子,可能会造成叠加MindIE Turbo后vllm-ascend的精度发生变化,如果需要精度和vllm-ascend完全对齐,请关闭该环境变量。 |
|