torch_npu.npu_prefetch

功能描述

提供网络weight预取功能,将需要预取的权重搬到L2 Cache中(当前仅支持权重的预取,暂不支持KV cache的预取)。尤其在做较大Tensor的MatMul计算且需要搬移到L2 Cache的操作时,可通过该接口提前预取权重,适当提高模型性能,具体效果基于用户对并行的处理。

接口原型

torch_npu.npu_prefetch(Tensor input, Tensor? dependency, int max_size) -> ()

参数说明

输出说明

无输出。

约束说明

无。

支持的型号

Atlas A2训练系列产品/Atlas 800I A2推理产品

调用示例