MrgSort

函数功能

将已经排好序的最多4 条队列,合并排列成 1 条队列,结果按照 score 域由大到小排序。

MrgSort32指令处理的数据一般是经过Sort32指令处理后的数据,也就是Sort32指令的输出,队列的结构如下所示:
  • 数据类型为float,每个结构占据8Bytes。

  • 数据类型为half,每个结构也占据8Bytes,其中中间有2Bytes保留。

函数原型

template <typename T> __aicore__ inline void MrgSort(const LocalTensor<T>& dstLocal, const MrgSortSrcList<T>& srcLocal, const MrgSort4Info& params)

参数说明

表1 接口参数说明

参数名称

输入/输出

含义

dstLocal

输出

目的操作数,存储经过排序后的数据,类型为LocalTensor。LocalTensor数据结构的定义请参考LocalTensor

Atlas A2训练系列产品,支持的数据类型为:half/float

srcLocal

输入

源操作数,4个队列,并且每个队列都已经排好序,类型为MrgSortSrcList结构体,具体请参考表2

Atlas A2训练系列产品,支持的数据类型为:half/float

params

输入

排序所需参数,类型为MrgSort4Info结构体,具体请参考表3

表2 MrgSortSrcList参数说明

参数名称

输入/输出

含义

src1

输入

源操作数,第一个已经排好序的队列,类型为LocalTensor。LocalTensor数据结构的定义请参考LocalTensor。数据类型与目的操作数保持一致。

Atlas A2训练系列产品,支持的数据类型为:half/float

src2

输入

源操作数,第二个已经排好序的队列,类型为LocalTensor。LocalTensor数据结构的定义请参考LocalTensor。数据类型与目的操作数保持一致。

Atlas A2训练系列产品,支持的数据类型为:half/float

src3

输入

源操作数,第三个已经排好序的队列,类型为LocalTensor。LocalTensor数据结构的定义请参考LocalTensor。数据类型与目的操作数保持一致。

Atlas A2训练系列产品,支持的数据类型为:half/float

src4

输入

源操作数,第四个已经排好序的队列,类型为LocalTensor。LocalTensor数据结构的定义请参考LocalTensor。数据类型与目的操作数保持一致。

Atlas A2训练系列产品,支持的数据类型为:half/float

表3 MrgSort4Info参数说明

参数名称

输入/输出

含义

elementLengths

输入

四个源队列的长度(8Bytes结构的数目),类型为长度为4的uint16_t数据类型的数组,理论上每个元素取值范围[0, 4095],但不能超出UB的存储空间。

ifExhaustedSuspension

输入

某条队列耗尽后,指令是否需要停止,类型为bool,默认false。

validBit

输入

有效队列个数,取值如下:
  • 3:前两条队列有效
  • 7:前三条队列有效
  • 15:四条队列全部有效

repeatTimes

输入

迭代次数,每一次源操作数和目的操作数跳过四个队列总长度。取值范围:repeatTimes∈[1,255]。

repeatTimes参数生效是有条件的,需要同时满足以下四个条件:
  • srcLocal包含四条队列并且valid_bit=15
  • 四个源队列的长度一致
  • 四个源队列连续存储
  • ifExhaustedSuspension = False

返回值

支持的型号

Atlas A2训练系列产品

约束说明

调用示例