在进行attention计算时,Q∙KT的结果有可能溢出float16,导致算子输出tensor中间出现NAN值;此时可开启此功能,算子内部使用float32承载中间结果。
参数“kernelType”置为KERNELTYPE_HIGH_PRECISION。
开启此功能时,传入的mask中需把-inf换成1。
高精度功能只在Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品上才能生效。