preprocess包含对q的缩放,其缩放系数由参数qScale给出,以及当开启clamp缩放时,对q做torch.clamp。
当开启压缩mask特性时preprocess会对mask进行压缩。
这一步会将k,v刷新到kvcache中,具体操作可以见KVCacheOperation。
其中,Zoom函数包括了对结果进行缩放,缩放系数由参数qkScale给出,一般为1 / sqrt(head_size),当开启logN缩放时,缩放系数由传入的intensor logN 给出。PostProcess函数包含对结果的reshape。