ReshapeAndCacheOmniOperation

功能

OmniAttention在Decode阶段通过对LLM特定的Layer的特定Head进行Attention稀疏计算达到节省KV Cache显存、降低片上内存搬运数据量到缓存、减少Attention计算量的性能增益。

算子上下文

定义

struct ReshapeAndCacheOmniParam{
    uint8_t rsv[8] = {0};
}

参数列表

成员名称

类型

默认值

取值范围

是否必选

描述

rsv[8]

uint8_t

{0}

[0]

预留参数。

Omni Head压缩功能