又名mask-free。
在长序列场景下,由于seqLen较大,需要的mask的大小也会变大。此时可开启此功能,传入压缩后的mask,以减小显存占用。
参数“isTriuMask”置为1。
alibi压缩mask场景需传入slopes。
在
在
在
在
对应maskType为MASK_TYPE_NORM_COMPRESS。
mask为128 * 128的倒三角,其中:
alibi mask可以拆解为
其中,alibi coefficient为每个head各不相同的系数,triangularMask代表倒三角mask。压缩mask的场景下,输入tensor中的mask即为压缩后的alibi bias,slopes即为alibi coefficient。针对alibi bias的压缩有如下三种情况:
对应“maskType”为MASK_TYPE_ALIBI_COMPRESS。
如下图所示,为512 * 512的压缩前的alibi bias。
对应的压缩后的256 * 256的压缩后的alibi bias如下图所示。
对应“maskType”为MASK_TYPE_ALIBI_COMPRESS_SQRT。
对应“maskType”为MASK_TYPE_ALIBI_COMPRESS_LEFT_ALIGN。
压缩前的alibi bias如下图所示。
压缩后的alibi bias如下图所示。
注意:左对齐的压缩mask只支持