接口功能:RingAttentionUpdate算子功能是将两次FlashAttention的输出根据其不同的softmax的max和sum更新。
计算公式:
每个算子分为,必须先调用“aclnnRingAttentionUpdateGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnRingAttentionUpdate”接口执行计算。
[object Object]
[object Object]
参数说明:
[object Object]- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:当输入数据排布inputLayoutOptional为TND时,D限制为64的倍数。
返回值
第一段接口完成入参校验,出现以下场景时报错:
[object Object]
- 确定性计算:
- aclnnRingAttentionUpdate默认确定性实现。
- 当inputLayoutOptional为“TND”时,actualSeqQlenOptional为必填。
- 当inputLayoutOptional为“TND”时,其中:
- N:
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:N<=256。
- D:
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:D<=768且D为64的倍数。
- N:
[object Object]