昇腾社区首页
中文
注册
开发者
下载

流水优化

使能说明

通过设置以下环境变量启用该特性,通常适用于Host Bound问题严重的网络场景。

export TASK_QUEUE_ENABLE=2

详细原理

task_queue算子下发队列支持三个配置级别(以add算子为例),用户可以根据需要自行配置,详细介绍请参见Ascend Extension for PyTorch 环境变量参考TASK_QUEUE_ENABLE章节。

注意事项

  • 配置 TASK_QUEUE_ENABLE=2 时,由于内存访问并发性增加,可能导致运行期间 NPU 内存峰值上升。