通用定义
功能说明
此为对归约指令的通用格式,指令对当前迭代的相邻内对(elements)源操作数进行统一处理。注:这不是真正的指令。
函数原型
instruction (mask, dst, src, repeat_times, dst_rep_stride, src_rep_stride)
参数说明
参数名称 |
输入/输出 |
含义 |
|---|---|---|
instruction |
输入 |
指令名称,TIK DSL中为全小写字符串。 |
mask |
输入 |
请参考表1中mask参数描述。 |
dst |
输出 |
目的操作数,tensor起始element。 Tensor的scope为Unified Buffer。 |
src |
输入 |
源操作数,tensor起始element。 Tensor的scope为Unified Buffer。 |
repeat_times |
输入 |
重复迭代次数 |
dst_rep_stride |
输入 |
相邻迭代间,目的操作数相同block地址步长。 |
src_rep_stride |
输入 |
相邻迭代间,源操作数相同block地址步长。 |
注意事项
- repeat_times∈[0,255]。支持的数据类型为:Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64)。当repeat_times为立即数时,不支持0。
- 每个repeat的并行度取决于数据精度、AI处理器版本,以下以PAR代表并行度。
- dst_rep_stride/src_rep_stride
,支持Scalar(int16/int32/int64/uint16/uint32/uint64)、立即数(int)、Expr(int16/int32/int64/uint16/uint32/uint64)。针对Atlas 200/300/500 推理产品,当dst_rep_stride传入0时,按照1处理。
针对Atlas 训练系列产品,当dst_rep_stride传入0时,按照1处理。
- 需注意dst_rep_stride的实现方式有所不同,单位为128B。
- 为了节省地址空间,开发者可以定义一个Tensor,供源操作数与目的操作数同时使用(即地址重叠),相关约束如下:
- 对于单次repeat(repeat_times=1),且源操作数与目的操作数之间要求100%完全重叠,不支持部分重叠。
- 对于多次repeat(repeat_times>1),若源操作数与目的操作数之间存在依赖,即第N次迭代的目的操作数是第N+1次的源操作数,这种情况是不支持地址重叠的。
- 操作数地址偏移对齐要求请见通用约束。
调用示例
tik_instance = tik.Tik()
dtype_size = {
"int8": 1,
"uint8": 1,
"int16": 2,
"uint16": 2,
"float16": 2,
"int32": 4,
"uint32": 4,
"float32": 4,
"int64": 8,
}
src_shape = (2, 128)
dst_shape = (3, 64)
dtype = "float16"
src_elements = 2 * 128
dst_elements = 3 * 64
# 单次迭代操作的数,当前示例一次迭代处理32个数
mask = 32
# 迭代次数,当前示例进行了2次迭代,可根据需要调整对应的迭代次数
repeat_times = 2
# 相邻迭代间,操作数头与头之间的步长,单位为block,当前表示第一次迭代的头与第二次迭代头间隔2个block, 注意此处dst_rep_stride一个block为128B
dst_rep_stride = 2
src_rep_stride = 3
src_gm = tik_instance.Tensor(dtype, src_shape, name="src_gm", scope=tik.scope_gm)
dst_gm = tik_instance.Tensor(dtype, dst_shape, name="dst_gm", scope=tik.scope_gm)
src_ub = tik_instance.Tensor(dtype, src_shape, name="src_ub", scope=tik.scope_ubuf)
dst_ub = tik_instance.Tensor(dtype, dst_shape, name="dst_ub", scope=tik.scope_ubuf)
# 将用户输入数据从gm搬运到ub
# 搬移的片段数
nburst = 1
# 每次搬运的片段长度,单位32B
burst = src_elements * dtype_size[dtype] // 32 // nburst
dst_burst = dst_elements * dtype_size[dtype] // 32 // nburst
# 前burst尾与后burst头的距离,单位32B
dst_stride, src_stride = 0, 0
tik_instance.data_move(src_ub, src_gm, 0, nburst, burst, dst_stride, src_stride)
# 给dst_ub赋初始值0,这样输出结果更加直观, 此处暂不对vec_dup 进行说明,详细内容请参考对应的章节
tik_instance.vec_dup(64, dst_ub, 0, 3, 4)
# 对相邻内的奇偶位求和
tik_instance.vec_cpadd(mask, dst_ub, src_ub, repeat_times, dst_rep_stride, src_rep_stride)
# 将计算结果从ub搬运到gm
tik_instance.data_move(dst_gm, dst_ub, 0, nburst, dst_burst, dst_stride, src_stride)
tik_instance.BuildCCE(kernel_name="vec_cpadd", inputs=[src_gm], outputs=[dst_gm])
示例结果
输入数据(src_gm):
[[ 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.
14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27.
28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41.
42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55.
56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69.
70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 83.
84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97.
98. 99. 100. 101. 102. 103. 104. 105. 106. 107. 108. 109. 110. 111.
112. 113. 114. 115. 116. 117. 118. 119. 120. 121. 122. 123. 124. 125.
126. 127.]
[128. 129. 130. 131. 132. 133. 134. 135. 136. 137. 138. 139. 140. 141.
142. 143. 144. 145. 146. 147. 148. 149. 150. 151. 152. 153. 154. 155.
156. 157. 158. 159. 160. 161. 162. 163. 164. 165. 166. 167. 168. 169.
170. 171. 172. 173. 174. 175. 176. 177. 178. 179. 180. 181. 182. 183.
184. 185. 186. 187. 188. 189. 190. 191. 192. 193. 194. 195. 196. 197.
198. 199. 200. 201. 202. 203. 204. 205. 206. 207. 208. 209. 210. 211.
212. 213. 214. 215. 216. 217. 218. 219. 220. 221. 222. 223. 224. 225.
226. 227. 228. 229. 230. 231. 232. 233. 234. 235. 236. 237. 238. 239.
240. 241. 242. 243. 244. 245. 246. 247. 248. 249. 250. 251. 252. 253.
254. 255.]]
输出数据(dst_gm):
[[ 1. 5. 9. 13. 17. 21. 25. 29. 33. 37. 41. 45. 49. 53.
57. 61. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0.]
[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0.]
[ 97. 101. 105. 109. 113. 117. 121. 125. 129. 133. 137. 141. 145. 149.
153. 157. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0. 0. 0.]]父主题: 对归约