Ascend C API列表
- 基础数据结构:kernel API中使用到的基础数据结构,比如GlobalTensor和LocalTensor。
- 语言扩展层 C API:开放芯片完备编程能力,支持数组分配内存,一般基于指针编程,提供与业界一致的C语言编程体验。
- 基础API:实现对硬件能力的抽象,开放芯片的能力,保证完备性和兼容性。标注为ISASI(Instruction Set Architecture Special Interface,硬件体系结构相关的接口)类别的API,不能保证跨硬件版本兼容。
- 高阶API:实现一些常用的计算算法,用于提高编程开发效率,通常会调用多种基础API实现。高阶API包括数学库、Matmul、Softmax等API。高阶API可以保证兼容性。
- SIMT API:单指令多线程API。以单条指令多个线程的形式来实现并行计算。SIMT编程主要用于向量计算,特别适合处理离散访问、复杂控制逻辑等场景。
- Utils API(公共辅助函数):丰富的通用工具类,涵盖标准库、平台信息获取、运行时编译及日志输出等功能,支持开发者高效实现算子开发与性能优化。

基础数据结构
|
接口名 |
功能描述 |
|---|---|
|
LocalTensor用于存放AI Core中Local Memory(内部存储)的数据,支持逻辑位置TPosition为VECIN、VECOUT、VECCALC、A1、A2、B1、B2、CO1、CO2。 |
|
|
GlobalTensor用来存放Global Memory(外部存储)的全局数据。 |
|
|
Coordinate本质上是一个元组(tuple),用于表示张量在不同维度的位置信息,即坐标值。 |
|
|
Layout<Shape, Stride>数据结构是描述多维张量内存布局的基础模板类,通过编译时的形状(Shape)和步长(Stride)信息,实现逻辑坐标空间到一维内存地址空间的映射,为复杂张量操作和硬件优化提供基础支持。 |
|
|
TensorTrait数据结构是描述Tensor相关信息的基础模板类,包含Tensor的数据类型、逻辑位置和Layout内存布局。 |
基础API
|
接口名 |
功能描述 |
|---|---|
|
数据搬运接口,包括普通数据搬运、增强数据搬运、切片数据搬运、随路格式转换。 |
|
|
VECIN、VECCALC、VECOUT之间的搬运指令,支持mask操作和DataBlock间隔操作。 |
|
分类 |
接口名 |
功能描述 |
|---|---|---|
|
基础算术 |
按元素取自然指数。 |
|
|
按元素取自然对数。 |
||
|
按元素取绝对值。 |
||
|
按元素取倒数。 |
||
|
按元素做开方。 |
||
|
按元素做开方后取倒数。 |
||
|
按元素做线性整流Relu。 |
||
|
按元素求和。 |
||
|
按元素求差。 |
||
|
按元素求积。 |
||
|
按元素求商。 |
||
|
按元素求最大值。 |
||
|
按元素求最小值。 |
||
|
矢量内每个元素与标量求和。 |
||
|
矢量内每个元素与标量求积。 |
||
|
源操作数矢量内每个元素与标量相比,如果比标量大,则取源操作数值,比标量的值小,则取标量值。 |
||
|
源操作数矢量内每个元素与标量相比,如果比标量大,则取标量值,比标量的值小,则取源操作数值。 |
||
|
按元素做带泄露线性整流Leaky ReLU。 |
||
|
基础算术 |
矢量内每个元素和标量间做减法,支持标量在前和标量在后两种场景,其中标量输入支持配置LocalTensor单点元素。 |
|
|
矢量内每个元素和标量间做除法,支持标量在前和标量在后两种场景,其中标量输入支持配置LocalTensor单点元素。 |
||
|
逻辑计算 |
按元素做按位取反。 |
|
|
针对每对元素执行按位与运算。 |
||
|
针对每对元素执行按位或运算。 |
||
|
对源操作数中的每个元素进行左移操作,左移的位数由输入参数scalarValue决定。 |
||
|
对源操作数中的每个元素进行右移操作,右移的位数由输入参数scalarValue决定。 |
||
|
逻辑计算 |
矢量内每个元素和标量间做与操作,支持标量在前和标量在后两种场景,其中标量输入支持配置LocalTensor单点元素。 |
|
|
矢量内每个元素和标量间做或操作,支持标量在前和标量在后两种场景,其中标量输入支持配置LocalTensor单点元素。 |
||
|
复合计算 |
源操作数中每个元素与标量求积后和目的操作数中的对应元素相加。 |
|
|
对输入做量化并进行精度转换。 |
||
|
按元素求和,结果和0对比取较大值。 |
||
|
按元素求和,结果和0对比取较大值,并根据源操作数和目的操作数Tensor的数据类型进行精度转换。 |
||
|
依次计算按元素求和、结果进行deq量化后再进行relu计算(结果和0对比取较大值)。 |
||
|
按元素求差,结果和0对比取较大值。 |
||
|
按元素求差,结果和0对比取较大值,并根据源操作数和目的操作数Tensor的数据类型进行精度转换。 |
||
|
按元素将src0Local和src1Local相乘并和dstLocal相加,将最终结果存放进dstLocal中。 |
||
|
按元素求积,并根据源操作数和目的操作数Tensor的数据类型进行精度转换。 |
||
|
按元素将src0Local和dstLocal相乘并加上src1Local,最终结果存放入dstLocal。 |
||
|
按元素将src0Local和dstLocal相乘并加上src1Local,将结果和0作比较,取较大值,最终结果存放进dstLocal中。 |
||
|
比较与选择 |
逐元素比较两个tensor大小,如果比较后的结果为真,则输出结果的对应比特位为1,否则为0。 |
|
|
逐元素比较两个tensor大小,如果比较后的结果为真,则输出结果的对应比特位为1,否则为0。Compare接口需要mask参数时,可以使用此接口。计算结果存放入寄存器中。 |
||
|
逐元素比较一个tensor中的元素和另一个Scalar的大小,如果比较后的结果为真,则输出结果的对应比特位为1,否则为0。 |
||
|
给定两个源操作数src0和src1,根据selMask(用于选择的Mask掩码)的比特位值选取元素,得到目的操作数dst。选择的规则为:当selMask的比特位是1时,从src0中选取,比特位是0时从src1选取。 |
||
|
以内置固定模式对应的二进制或者用户自定义输入的Tensor数值对应的二进制为gather mask(数据收集的掩码),从源操作数中选取元素写入目的操作数中。 |
||
|
精度转换指令 |
根据源操作数和目的操作数Tensor的数据类型进行精度转换。 |
|
|
归约计算 |
在所有的输入数据中找出最大值及最大值对应的索引位置。 |
|
|
在所有的输入数据中找出最小值及最小值对应的索引位置。 |
||
|
对所有的输入数据求和。 |
||
|
每个repeat内所有数据求最大值以及其索引index。 |
||
|
每个repeat内所有数据求最小值以及其索引index。 |
||
|
每个repeat内所有数据求和。 |
||
|
对每个repeat内所有元素求最大值。 |
||
|
对每个repeat内所有元素求最小值。 |
||
|
对每个repeat内所有元素求和。源操作数相加采用二叉树方式,两两相加。 |
||
|
PairReduceSum:相邻两个(奇偶)元素求和。 |
||
|
每个repeat内所有数据求和。和WholeReduceSum接口相比,不支持mask逐bit模式。建议使用功能更全面的WholeReduceSum接口。 |
||
|
数据转换 |
可实现16*16的二维矩阵数据块的转置和[N,C,H,W]与[N,H,W,C]互相转换。 |
|
|
数据格式转换,一般用于将NCHW格式转换成NC1HWC0格式。特别的,也可以用于二维矩阵数据块的转置。 |
||
|
数据填充 |
将一个变量或一个立即数,复制多次并填充到向量。 |
|
|
给定一个输入张量,每一次取输入张量中的8个数填充到结果张量的8个datablock(32Bytes)中去,每个数对应一个datablock。 |
||
|
以firstValue为起始值创建向量索引。 |
||
|
数据分散/数据收集 |
给定输入的张量和一个地址偏移张量,Gather指令根据偏移地址将输入张量按元素收集到结果张量中。 |
|
|
掩码操作 |
设置mask模式为Counter模式。该模式下,不需要开发者去感知迭代次数、处理非对齐的尾块等操作,可直接传入计算数据量,实际迭代次数由Vector计算单元自动推断。 |
|
|
设置mask模式为Normal模式。该模式为系统默认模式,支持开发者配置迭代次数。 |
||
|
用于在矢量计算时设置mask。 |
||
|
恢复mask的值为默认值(全1),表示矢量计算中每次迭代内的所有元素都将参与运算。 |
||
|
量化设置 |
设置DEQSCALE寄存器的值。 |
|
接口名 |
功能描述 |
|---|---|
|
获取一个uint64_t类型数字的二进制中0或者1的个数。 |
|
|
计算一个uint64_t类型数字前导0的个数(二进制从最高位到第一个1一共有多少个0)。 |
|
|
将一个scalar的类型转换为指定的类型。 |
|
|
计算一个uint64_t类型数字的二进制中,从最高数值位开始与符号位相同的连续比特位的个数。 |
|
|
获取一个uint64_t类型数字的二进制中第一个0或1出现的位置。 |
|
|
float类型标量数据转换成bfloat16_t类型标量数据。 |
|
|
bfloat16_t类型标量数据转换成float类型标量数据。 |
|
接口名 |
功能描述 |
|---|---|
|
TPipe是用来管理全局内存等资源的框架。通过TPipe类提供的接口可以完成内存等资源的分配管理操作。 |
|
|
获取框架当前管理全局内存的TPipe指针,用户获取指针后,可进行TPipe相关的操作。 |
|
|
TPipe可以管理全局内存资源,而TBufPool可以手动管理或复用Unified Buffer/L1 Buffer物理内存,主要用于多个stage计算中Unified Buffer/L1 Buffer物理内存不足的场景。 |
|
|
提供入队出队等接口,通过队列(Queue)完成任务间同步。 |
|
|
TQueBind绑定源逻辑位置和目的逻辑位置,根据源位置和目的位置,来确定内存分配的位置 、插入对应的同步事件,帮助开发者解决内存分配和管理、同步等问题。 |
|
|
使用Ascend C编程的过程中,可能会用到一些临时变量。这些临时变量占用的内存可以使用TBuf数据结构来管理。 |
|
|
初始化SPM Buffer。 |
|
|
将需要溢出暂存的数据拷贝到SPM Buffer中。 |
|
|
从SPM Buffer读回到local数据中。 |
|
|
获取用户使用的workspace指针。 |
|
|
在进行融合算子编程时,由于框架通信机制需要使用到workspace,也就是系统workspace,所以在该场景下,开发者要调用该接口,设置系统workspace的指针。 |
|
|
获取系统workspace指针。 |
|
接口名 |
功能描述 |
|---|---|
|
TQueSync类提供同步控制接口,开发者可以使用这类API来自行完成同步控制。 |
|
|
当不同核之间操作同一块全局内存且可能存在读后写、写后读以及写后写等数据依赖问题时,通过调用该函数来插入同步语句来避免上述数据依赖时可能出现的数据读写错误问题。调用IBSet设置某一个核的标志位,与IBWait成对出现配合使用,表示核之间的同步等待指令,等待某一个核操作完成。 |
|
|
当不同核之间操作同一块全局内存且可能存在读后写、写后读以及写后写等数据依赖问题时,通过调用该函数来插入同步语句来避免上述数据依赖时可能出现的数据读写错误问题。IBWait与IBSet成对出现配合使用,表示核之间的同步等待指令,等待某一个核操作完成。 |
|
|
当不同核之间操作同一块全局内存且可能存在读后写、写后读以及写后写等数据依赖问题时,通过调用该函数来插入同步语句来避免上述数据依赖时可能出现的数据读写错误问题。目前多核同步分为硬同步和软同步,硬件同步是利用硬件自带的全核同步指令由硬件保证多核同步,软件同步是使用软件算法模拟实现。 |
|
|
初始化GM共享内存的值,完成初始化后才可以调用WaitPreBlock和NotifyNextBlock。 |
|
|
通过读GM地址中的值,确认是否需要继续等待,当GM的值满足当前核的等待条件时,该核即可往下执行,进行下一步操作。 |
|
|
通过写GM地址,通知下一个核当前核的操作已完成,下一个核可以进行操作。 |
|
|
在SuperKernel的子Kernel中调用,调用后的指令可以和后续其他的子Kernel实现并行,提升整体性能。 |
|
|
在SuperKernel的子Kernel中调用,调用前的指令可以和前序其他的子Kernel实现并行,提升整体性能。 |
|
接口名 |
功能描述 |
|---|---|
|
从源地址所在的特定DDR地址预加载数据到data cache中。 |
|
|
该接口用来刷新Cache,保证Cache的一致性。 |
|
接口名 |
功能描述 |
|---|---|
|
设置接下来从VECOUT到GM,L0C到GM,L1到GM的数据传输是否进行原子累加,可根据参数不同设定不同的累加数据类型。 |
|
|
通过设置模板参数来设定原子操作不同的数据类型。 |
|
|
原子操作函数,清空原子操作的状态。 |
|
|
调用该接口后,可在指定GM地址上进行原子加操作。 |
|
|
调用该接口后,可在指定GM地址上进行原子比较取小操作。 |
|
|
调用该接口后,可在指定GM地址上进行原子取大操作。 |
|
|
调用该接口后,可在指定GM地址上进行原子比较,如果和value1相等,则把value2的值赋值到GM上;如果和value1不相等,则GM上的值不变。 |
|
|
在GM内存中执行原子交换操作。具体来说,它读取指定GM地址上的数据,并将新的值存储回同一地址。函数返回旧值。 |
|
接口名 |
功能描述 |
|---|---|
|
基于算子工程开发的算子,可以使用该接口Dump指定Tensor的内容。 |
|
|
基于算子工程开发的算子,可以使用该接口实现CPU侧/NPU侧调试场景下的格式化输出功能。 |
|
|
ascendc_assert提供了一种在CPU/NPU域实现断言功能的接口。当断言条件不满足时,系统会输出断言信息并格式化打印在屏幕上。 |
|
|
基于算子工程开发的算子,可以使用该接口实现CPU/NPU域assert断言功能。 |
|
|
基于算子工程开发的算子,可以使用该接口Dump指定Tensor的内容。该接口可以支持指定偏移位置的Tensor打印。 |
|
|
提供时间戳打点功能,用于在算子Kernel代码中标记关键执行点。 |
|
|
当软件产生异常后,使用该指令使kernel中止运行。 |
|
|
进行核函数的CPU侧运行验证时,用于创建共享内存:在/tmp目录下创建一个共享文件,并返回该文件的映射指针。 |
|
|
进行核函数的CPU侧运行验证时,CPU调测总入口,完成CPU侧的算子程序调用。 |
|
|
用于指定本次CPU调测使用的tilingKey。调测执行时,将只执行算子核函数中该tilingKey对应的分支。 |
|
|
进行核函数的CPU侧运行验证时,用于释放通过GmAlloc申请的共享内存。 |
|
|
CPU调测时,设置内核模式为单AIV模式,单AIC模式或者MIX模式,以分别支持单AIV矢量算子,单AIC矩阵算子,MIX混合算子的CPU调试。 |
|
|
通过CAModel进行算子性能仿真时,可对算子任意运行阶段打点,从而分析不同指令的流水图,以便进一步性能调优。 用于表示起始位置打点,一般与TRACE_STOP配套使用。 |
|
|
通过CAModel进行算子性能仿真时,可对算子任意运行阶段打点,从而分析不同指令的流水图,以便进一步性能调优。 用于表示终止位置打点,一般与TRACE_START配套使用。 |
|
|
用于设置性能数据采集信号启动,和MetricsProfStop配合使用。使用msProf工具进行算子上板调优时,可在kernel侧代码段前后分别调用MetricsProfStart和MetricsProfStop来指定需要调优的代码段范围。 |
|
|
设置性能数据采集信号停止,和MetricsProfStart配合使用。使用msProf工具进行算子上板调优时,可在kernel侧代码段前后分别调用MetricsProfStart和MetricsProfStop来指定需要调优的代码段范围。 |
|
接口名 |
功能描述 |
|---|---|
|
Async提供了一个统一的接口,用于在不同模式下(AIC或AIV)执行特定函数,从而避免代码中直接的硬件条件判断(如使用ASCEND_IS_AIV或ASCEND_IS_AIC)。 |
|
|
NumericLimits工具类,用于查询指定数据类型的最大值/最小值等属性。 |
|
|
适用于Cube/Vector分离模式,用来获取Cube/Vector的配比。 |
|
|
获取UB空间的大小,单位为byte。 |
|
|
获取运行时UB空间的大小,单位为byte。开发者根据UB的大小来计算循环次数等参数值。 |
|
接口名 |
功能描述 |
|---|---|
|
用于获取算子kernel入口函数传入的tiling信息,并填入注册的Tiling结构体中,此函数会以宏展开的方式进行编译。如果用户注册了多个TilingData结构体,使用该接口返回默认注册的结构体。 |
|
|
使用该接口指定结构体名称,可获取指定的tiling信息,并填入对应的Tiling结构体中,此函数会以宏展开的方式进行编译。 |
|
|
用于获取tiling结构体的成员变量。 |
|
|
在核函数中判断本次执行时的tiling_key是否等于某个key,从而标识tiling_key==key的一条kernel分支。 |
|
|
用于在kernel侧注册用户使用标准C++语法自定义的默认TilingData结构体。 |
|
|
用于在kernel侧注册与TilingKey相匹配的TilingData自定义结构体;该接口需提供一个逻辑表达式,逻辑表达式以字符串“TILING_KEY_VAR”代指实际TilingKey,表达TIlingKey所满足的范围。 |
|
|
在Kernel侧使用标准C++语法自定义的TilingData结构体时,若用户不确定需要注册哪些结构体,可使用该接口告知框架侧需使用未注册的标准C++语法来定义TilingData,并配套GET_TILING_DATA_WITH_STRUCT,GET_TILING_DATA_MEMBER,GET_TILING_DATA_PTR_WITH_STRUCT来获取对应的TilingData。 |
|
|
设置全局默认的kernel type,对所有的tiling key生效。 |
|
|
设置某一个具体的tiling key对应的kernel type。 |
|
分类 |
接口名 |
功能描述 |
|---|---|---|
|
标量计算 |
不经过DCache向GM地址上写数据。 |
|
|
不经过DCache从GM地址上读数据。 |
||
|
矢量计算 |
根据padMode(pad模式)与padSide(pad方向)对源操作数按照datablock进行填充操作。 |
|
|
双线性插值操作,分为垂直迭代和水平迭代。 |
||
|
获取Compare(结果存入寄存器)指令的比较结果。 |
||
|
为Select不传入mask参数的接口设置比较寄存器。 |
||
|
获取ReduceSum(针对tensor前n个数据计算)接口的计算结果。 |
||
|
将连续元素合入Region Proposal内对应位置,每次迭代会将16个连续元素合入到16个Region Proposals的对应位置里。 |
||
|
与ProposalConcat功能相反,从Region Proposals内将相应位置的单个元素抽取后重排,每次迭代处理16个Region Proposals,抽取16个元素后连续排列。 |
||
|
根据Region Proposals中的score域对其进行排序(score大的排前面),每次排16个Region Proposals。 |
||
|
将已经排好序的最多4 条region proposals队列,排列并合并成1条队列,结果按照score域由大到小排序。 |
||
|
排序函数,一次迭代可以完成32个数的排序。 |
||
|
将已经排好序的最多4 条队列,合并排列成 1 条队列,结果按照score域由大到小排序。 |
||
|
获取MrgSort或MrgSort4已经处理过的队列里的Region Proposal个数,并依次存储在四个List入参中。 |
||
|
给定一个输入的张量和一个地址偏移张量,Gatherb指令根据偏移地址将输入张量收集到结果张量中。 |
||
|
给定一个连续的输入张量和一个目的地址偏移张量,Scatter指令根据偏移地址生成新的结果张量后将输入张量分散到结果张量中。 |
||
|
矢量计算 |
源操作数src0大于0的情况下直接将src0写入目的操作数dst,否则将源操作数src0 * src1的结果写入dst。 |
|
|
对前count个输入数据src0、src1按元素相乘操作,将结果写入dst0Local,溢出部分写入dst1Local。 |
||
|
将src0Local与src1相减再求绝对值, 并将计算结果写入dst。 |
||
|
src0与src1相减,将差值作为指数计算自然常数e的幂次, 并将计算结果写入dst。 |
||
|
将矢量源操作数前count个数据与标量相乘再按照CAST_ROUND模式转换成half类型, 并将计算结果写入dst,此接口支持标量在前和标量在后两种场景。 |
||
|
将源操作数的浮点数元素截断到整数位,同时源操作数的数据类型保持不变。 |
||
|
给定源操作数src0和src1,将src0和src1中的元素交织存入结果操作数dst0和dst1中。 |
||
|
给定源操作数src0和src1,将src0和src1中的元素解交织存入结果操作数dst0和dst1中。 |
||
|
数据搬运 |
该接口提供数据非对齐搬运的功能。 |
|
|
设置DataCopyPad接口填充的数值。 |
||
|
矩阵计算 |
完成矩阵乘加操作。 |
|
|
完成矩阵乘加操作,传入的左矩阵A为稀疏矩阵, 右矩阵B为稠密矩阵 。 |
||
|
此接口同SetHF32TransMode、SetMMRowMajor以及SetMMColumnMajor一样,都用于设置寄存器的值。SetHF32Mode接口用于设置MMAD的HF32模式。 |
||
|
此接口同SetHF32Mode、SetMMRowMajor以及SetMMColumnMajor一样,都用于设置寄存器的值。SetHF32TransMode用于设置MMAD的HF32取整模式,仅在MMAD的HF32模式生效时有效。 |
||
|
此接口同SetHF32Mode、SetHF32TransMode一样,都用于设置寄存器的值,本接口用于设置MMAD计算时优先通过N方向。 |
||
|
此接口同SetHF32Mode、SetHF32TransMode一样,都用于设置寄存器的值,本接口用于设置MMAD计算时优先通过M方向。 |
||
|
计算给定输入张量和权重张量的2-D卷积,输出结果张量。Conv2d卷积层多用于图像识别,使用过滤器提取图像中的特征。 |
||
|
根据输入的切分规则,将给定的两个输入张量做矩阵乘,输出至结果张量。将A和B两个输入矩阵乘法在一起,得到一个输出矩阵C。 |
||
|
DataCopy(CO1->GM、CO1->A1)过程中进行随路量化时,通过调用该接口设置量化流程中tensor量化参数。 |
||
|
DataCopy(CO1->GM、CO1->A1)过程中进行随路格式转换(NZ2ND)时,通过调用该接口设置NZ2ND相关配置。 |
||
|
DataCopy(CO1->GM、CO1->A1)过程中进行随路量化时,通过调用该接口设置量化流程中scalar量化参数。 |
||
|
DataCopy(CO1->GM)过程中进行随路量化后,通过调用该接口设置ClipRelu操作的最大值。 |
||
|
DataCopy(CO1->GM)过程中进行随路量化后,通过调用该接口设置element-wise操作时LocalTensor的地址。 |
||
|
初始化LocalTensor(TPosition为A1/A2/B1/B2)为某一个具体的数值。 |
||
|
LoadData包括Load2D和Load3D数据加载功能。 |
||
|
该接口实现带转置的2D格式数据从A1/B1到A2/B2的加载。 |
||
|
设置图片预处理(AIPP,AI core pre-process)相关参数。 |
||
|
将图像数据从GM搬运到A1/B1。 搬运过程中可以完成图像预处理操作:包括图像翻转,改变图像尺寸(抠图,裁边,缩放,伸展),以及色域转换,类型转换等。 |
||
|
加载GM上的压缩索引表到内部寄存器。 |
||
|
将GM上的数据解压并搬运到A1/B1/B2上。 |
||
|
用于搬运存放在B1里的512B的稠密权重矩阵到B2里,同时读取128B的索引矩阵用于稠密矩阵的稀疏化。 |
||
|
用于调用Load3Dv1/Load3Dv2时设置FeatureMap的属性描述。 |
||
|
设置Load3D时A1/B1边界值。 |
||
|
用于设置Load3Dv2接口的repeat参数。设置repeat参数后,可以通过调用一次Load3Dv2接口完成多个迭代的数据搬运。 |
||
|
设置padValue,用于Load3Dv1/Load3Dv2。 |
||
|
矩阵计算完成后,对结果进行处理,例如对计算结果进行量化操作,并把数据从CO1搬迁到Global Memory中。 |
||
|
同步控制 |
同一核内不同流水线之间的同步指令。具有数据依赖的不同流水指令之间需要插此同步。 |
|
|
阻塞相同流水,具有数据依赖的相同流水之间需要插此同步。 |
||
|
用于阻塞后续的指令执行,直到所有之前的内存访问指令(需要等待的内存位置可通过参数控制)执行结束。 |
||
|
针对分离模式,AI Core上的Cube核(AIC)与Vector核(AIV)之间的同步设置指令。 |
||
|
针对分离模式,AI Core上的Cube核(AIC)与Vector核(AIV)之间的同步等待指令。 |
||
|
同步控制 |
Mutex用于核内异步流水指令之间的同步处理,其功能类似于传统CPU中的锁机制。通过锁定指定流水再释放流水来完成流水间的同步依赖。每个锁有固定的一个MutexID,该ID可通过用户自定义(范围为0-27)或者通过AllocMutexID/ReleaseMutexID进行申请释放。 |
|
|
从框架获取并占用一个MutexID,与ReleaseMutexID配合使用,管理MutexID的获取和释放。 |
||
|
从框架释放一个MutexID,与AllocMutexID配合使用。 |
||
|
缓存处理 |
从指令所在DDR地址预加载指令到ICache中。 |
|
|
获取ICACHE的PreLoad的状态。 |
||
|
系统变量访问 |
获取程序计数器的指针,程序计数器用于记录当前程序执行的位置。 |
|
|
获取AI Core上Vector核的数量。 |
||
|
获取AI Core上Vector核的ID。 |
||
|
获取当前系统cycle数,若换算成时间需要按照50MHz的频率,时间单位为us,换算公式为:time = (cycle数/50) us 。 |
||
|
系统变量访问 |
对CTRL寄存器(控制寄存器)的特定比特位进行设置。 |
|
|
读取CTRL寄存器(控制寄存器)特定比特位上的值。 |
||
|
对CTRL寄存器(控制寄存器)的特定比特位做重置。 |
||
|
原子操作 |
原子操作函数,设置后续从VECOUT传输到GM的数据是否执行原子比较,将待拷贝的内容和GM已有内容进行比较,将最大值写入GM。 |
|
|
原子操作函数,设置后续从VECOUT传输到GM的数据是否执行原子比较,将待拷贝的内容和GM已有内容进行比较,将最小值写入GM。 |
||
|
设置原子操作使能位与原子操作类型。 |
||
|
获取原子操作使能位与原子操作类型的值。 |
||
|
调试接口 |
监视设定范围内的UB读写行为,如果监视到有设定范围的读写行为则会出现EXCEPTION报错,未监视到设定范围的读写行为则不会报错。 |
|
|
Cube分组管理 |
CubeResGroupHandle用于在分离模式下通过软同步控制AIC和AIV之间进行通讯,实现AI Core计算资源分组。 |
|
|
当同一个CubeResGroupHandle中的两个AIV任务之间存在依赖关系时,可以使用GroupBarrier控制同步。 |
||
|
KfcWorkspace为通信空间描述符,管理不同CubeResGroupHandle的消息通信区划分,与CubeResGroupHandle配合使用。KfcWorkspace的构造函数用于创建KfcWorkspace对象。 |
高阶API
|
接口名 |
功能描述 |
|---|---|
|
按元素做反余弦函数计算。 |
|
|
按元素做双曲反余弦函数计算。 |
|
|
按元素做反正弦函数计算。 |
|
|
按元素做反双曲正弦函数计算。 |
|
|
按元素做三角函数反正切运算。 |
|
|
按元素做反双曲正切余弦函数计算。 |
|
|
源操作数中每个元素与标量求积后和目的操作数中的对应元素相加。 |
|
|
获取大于或等于x的最小的整数值,即向正无穷取整操作。 |
|
|
将srcTensor中大于scalar的数替换为scalar,小于等于scalar的数保持不变,作为dstTensor输出。 |
|
|
将srcTensor中小于scalar的数替换为scalar,大于等于scalar的数保持不变,作为dstTensor输出。 |
|
|
按元素做三角函数余弦运算。 |
|
|
按元素做双曲余弦函数计算。 |
|
|
对数据按行依次累加或按列依次累加。 |
|
|
按元素计算x的gamma函数的对数导数。 |
|
|
按元素做误差函数计算,也称为高斯误差函数。 |
|
|
返回输入x的互补误差函数结果,积分区间为x到无穷大。 |
|
|
按元素取自然指数。 |
|
|
获取小于或等于x的最小的整数值,即向负无穷取整操作。 |
|
|
按元素计算两个浮点数相除后的余数。 |
|
|
按元素做取小数计算。 |
|
|
按元素计算两个浮点数平方和的平方根。 |
|
|
按元素判断输入的浮点数是否非NAN、非±INF。 |
|
|
按元素计算x的gamma函数的绝对值并求自然对数。 |
|
|
按元素以e、2、10为底做对数运算。 |
|
|
实现按元素做幂运算功能。 |
|
|
将输入的元素四舍五入到最接近的整数。 |
|
|
按元素执行Sign操作,Sign是指返回输入数据的符号。 |
|
|
按元素做正弦函数计算。 |
|
|
按元素做双曲正弦函数计算。 |
|
|
按元素做正切函数计算。 |
|
|
按元素做逻辑回归Tanh。 |
|
|
按元素做浮点数截断操作,即向零取整操作。 |
|
|
按元素执行Xor(异或)运算。 |
|
|
按元素计算两个输入相乘后与第三个输入相加的结果。 |
|
|
按元素判断输入的浮点数是否为nan。 |
|
|
按元素判断输入的浮点数是否为±INF。 |
|
|
获取与输入数据最接近的整数。 |
|
|
按元素进行正弦计算和余弦计算,分别获得正弦和余弦的结果。 |
|
|
按元素进行取反操作。 |
|
|
按元素进行与操作。 |
|
|
输入矢量内的每个元素与标量进行与操作。 |
|
|
按元素进行或操作。 |
|
|
输入矢量内的每个元素与标量进行或操作。 |
|
|
按元素进行逻辑异或操作。 |
|
|
逐比特对输入进行取反。 |
|
|
逐比特对两个输入进行与操作。 |
|
|
逐比特对两个输入进行或操作。 |
|
|
逐比特对两个输入进行异或操作。 |
|
|
根据指定的条件,从两个源操作数中选择元素,生成目标操作数。 |
|
接口名 |
功能描述 |
|---|---|
|
按元素做伪量化计算,比如将int8_t数据类型伪量化为half数据类型。 |
|
|
按元素做伪量化计算,比如将int8_t数据类型伪量化为half数据类型。 |
|
|
按元素做反量化计算,比如将int32_t数据类型反量化为half/float等数据类型。 |
|
|
按元素做反量化计算,比如将int32_t数据类型反量化为half/float等数据类型。 |
|
|
按元素做量化计算,比如将half/float数据类型量化为int8_t数据类型。 |
|
|
按元素做量化计算,比如将half/float数据类型量化为int8_t数据类型。 |
|
接口名 |
功能描述 |
|---|---|
|
对于每个batch中的样本,对其输入的每个特征在batch的维度上进行归一化。 |
|
|
在深层神经网络训练过程中,可以替代LayerNorm的一种归一化方法。 |
|
|
将输入的C维度分为groupNum组,对每一组数据进行标准化。 |
|
|
将输入数据收敛到[0, 1]之间,可以规范网络层输入输出数据分布的一种归一化方法。 |
|
|
用于计算LayerNorm的反向传播梯度。 |
|
|
用于获取反向beta/gmma的数值,和LayerNormGrad共同输出pdx, gmma和beta。 |
|
|
LayerNorm中,已知均值和方差,计算shape为[A,R]的输入数据的标准差的倒数rstd和归一化输出y。 |
|
|
实现对shape大小为[B,S,H]的输入数据的RmsNorm归一化。 |
|
|
实现Welford算法的前处理。 |
|
|
实现Welford算法的后处理。 |
|
接口名 |
功能描述 |
|---|---|
|
用于对SoftMax相关计算结果做后处理,调整SoftMax的计算结果为指定的值。 |
|
|
FastGelu化简版本的一种激活函数。 |
|
|
实现FastGeluV2版本的一种激活函数。 |
|
|
采用GeLU作为激活函数的GLU变体。 |
|
|
GELU是一个重要的激活函数,其灵感来源于relu和dropout,在激活中引入了随机正则的思想。 |
|
|
对输入tensor做LogSoftmax计算。 |
|
|
一种GLU变体,使用Relu作为激活函数。 |
|
|
按元素做逻辑回归Sigmoid。 |
|
|
按元素做Silu运算。 |
|
|
使用计算好的sum和max数据对输入tensor做softmax计算。 |
|
|
对输入tensor按行做Softmax计算。 |
|
|
SoftMax增强版本,除了可以对输入tensor做softmaxflash计算,还可以根据上一次softmax计算的sum和max来更新本次的softmax计算结果。 |
|
|
SoftmaxFlash增强版本,对应FlashAttention-2算法。 |
|
|
SoftmaxFlash增强版本,对应Softmax PASA算法。 |
|
|
对输入tensor做grad反向计算的一种方法。 |
|
|
对输入tensor做grad反向计算的一种方法。 |
|
|
采用Swish作为激活函数的GLU变体。 |
|
|
神经网络中的Swish激活函数。 |
|
接口名 |
功能描述 |
|---|---|
|
获取最后一个维度的元素总和。 |
|
|
根据最后一轴的方向对各元素求平均值。 |
|
|
按照元素执行Xor(按位异或)运算,并将计算结果ReduceSum求和。 |
|
|
对一个多维向量按照指定的维度进行数据累加。 |
|
|
对一个多维向量按照指定的维度求平均值。 |
|
|
对一个多维向量在指定的维度求最大值。 |
|
|
对一个多维向量在指定的维度求最小值。 |
|
|
对一个多维向量在指定的维度求逻辑或。 |
|
|
对一个多维向量在指定的维度求逻辑与。 |
|
|
对一个多维向量在指定的维度求积。 |
|
接口名 |
功能描述 |
|---|---|
|
获取最后一个维度的前k个最大值或最小值及其对应的索引。 |
|
|
对数据进行预处理,将要排序的源操作数srcLocal一一对应的合入目标数据concatLocal中,数据预处理完后,可以进行Sort。 |
|
|
处理Sort的结果数据,输出排序后的value和index。 |
|
|
排序函数,按照数值大小进行降序排序。 |
|
|
将已经排好序的最多4条队列,合并排列成1条队列,结果按照score域由大到小排序。 |
|
接口名 |
功能描述 |
|---|---|
|
给定两个源操作数src0和src1,根据maskTensor相应位置的值(非bit位)选取元素,得到目的操作数dst。 |
|
|
提供根据MaskTensor对源操作数进行过滤的功能,得到目的操作数。 |
|
接口名 |
功能描述 |
|---|---|
|
对输入数据进行数据排布及Reshape操作。 |
|
|
将输入数据的排布格式转换为目标排布格式。 |
|
|
将输入按照输出shape进行广播。 |
|
|
对height * width的二维Tensor在width方向上pad到32B对齐。 |
|
|
对height * width的二维Tensor在width方向上进行unpad。 |
|
|
将Global Memory上的数据初始化为指定值。 |
|
接口名 |
功能描述 |
|---|---|
|
给定起始值,等差值和长度,返回一个等差数列。 |
|
接口名 |
功能描述 |
|---|---|
|
Matmul矩阵乘法的运算。 |
|
接口名 |
功能描述 |
|---|---|
|
在AI Core侧编排集合通信任务。 |
|
接口名 |
功能描述 |
|---|---|
|
3维卷积正向矩阵运算。 |
|
|
卷积的反向运算,求解特征矩阵的反向传播误差。 |
|
|
卷积的反向运算,求解权重的反向传播误差。 |
|
接口名 |
功能描述 |
|---|---|
|
基于Philox随机数生成算法,给定随机数种子,生成若干的随机数。 |
SIMT API
|
接口名 |
功能描述 |
|---|---|
|
启动SIMT VF(Vector Function)子任务,启动指定数目的线程,执行指定的SIMT核函数。 |
|
接口名 |
功能描述 |
|---|---|
|
等待当前thread block内所有thread代码都执行到该函数位置。 |
|
|
用于保证不同核对同一份全局、共享内存的访问过程中,写入操作的时序性。 |
|
|
用于协调同一线程块(Thread Block)内线程之间的内存操作顺序,确保某一线程在调用asc_threadfence_block()之前的所有内存读写操作对同一线程块内的其他线程可见。 |
|
接口名 |
功能描述 |
|---|---|
|
获取输入数据的三角函数正切值。 |
|
|
获取输入数据的三角函数双曲正切值。 |
|
|
获取输入数据的三角函数双曲正切值。 |
|
|
获取输入数据各元素的三角函数双曲正切值。 |
|
|
获取输入数据与π相乘的正切值。 |
|
|
获取输入数据的反正切值。 |
|
|
获取输入数据y/x的反正切值。 |
|
|
获取输入数据的反双曲正切值。 |
|
|
指定输入x,获取e的x次方。 |
|
|
指定输入x,获取e的x次方。 |
|
|
指定输入x,对x的各元素,获取e的该元素次方。 |
|
|
指定输入x,获取2的x次方。 |
|
|
指定输入x,获取2的x次方。 |
|
|
指定输入x,对x的各元素,获取2的该元素次方。 |
|
|
指定输入x,获取10的x次方。 |
|
|
指定输入x,获取10的x次方。 |
|
|
指定输入x,对x的各元素,获取10的该元素次方。 |
|
|
指定输入x,获取e的x次方减1。 |
|
|
获取以e为底,输入数据的对数。 |
|
|
获取以e为底,输入数据的对数。 |
|
|
获取以e为底,输入数据各元素的对数。 |
|
|
获取以2为底,输入数据的对数。 |
|
|
获取以2为底,输入数据的对数。 |
|
|
获取以2为底,输入数据各元素的对数。 |
|
|
获取以10为底,输入数据的对数。 |
|
|
获取以10为底,输入数据的对数。 |
|
|
获取以10为底,输入数据各元素的对数。 |
|
|
获取以e为底,输入数据加1的对数。 |
|
|
计算以2为底,输入数据的对数,并对结果向下取整,返回浮点数。 |
|
|
计算以2为底,输入数据的对数,并对结果向下取整,返回整数。 |
|
|
获取输入数据的三角函数余弦值。 |
|
|
获取输入数据的三角函数余弦值。 |
|
|
获取输入数据各元素的三角函数余弦值。 |
|
|
获取输入数据的双曲余弦值。 |
|
|
获取输入数据与π相乘的余弦值。 |
|
|
获取输入数据的反余弦值。 |
|
|
获取输入数据的双曲反余弦值。 |
|
|
获取输入数据的三角函数正弦值。 |
|
|
获取输入数据的三角函数正弦值。 |
|
|
获取输入数据各元素的三角函数正弦值。 |
|
|
获取输入数据的双曲正弦值。 |
|
|
获取输入数据与π相乘的正弦值。 |
|
|
获取输入数据的反正弦值。 |
|
|
获取输入数据的双曲反正弦值。 |
|
|
获取输入数据的三角函数正弦值和余弦值。 |
|
|
获取输入数据与π相乘的三角函数正弦值和余弦值。 |
|
|
将x转换为归一化[1/2, 1)的有符号数乘以2的积分幂。 |
|
|
获取输入x乘以2的exp次幂的结果。 |
|
|
获取输入数据x的平方根。 |
|
|
获取输入数据x的平方根。 |
|
|
获取输入数据x各元素的平方根。 |
|
|
获取输入数据x的平方根的倒数。 |
|
|
获取输入数据x的平方根的倒数。 |
|
|
获取输入数据x各元素的平方根的倒数。 |
|
|
获取输入数据x的倒数。 |
|
|
获取输入数据x各元素的倒数。 |
|
|
获取输入数据x、y的平方和x^2 + y^2的平方根。 |
|
|
获取输入数据x、y的平方和x^2 + y^2的平方根的倒数。 |
|
|
获取输入数据x的y次幂。 |
|
|
获取输入数据a、b、c的平方和a^2 + b^2 + c^2的平方根。 |
|
|
获取输入数据a、b、c的平方和a^2 + b^2 + c^2的平方根的倒数。 |
|
|
获取输入数据a、b、c、d的平方和a^2 + b^2+ c^2+ d^2的平方根。 |
|
|
获取输入数据a、b、c、d的平方和a^2 + b^2 + c^2 + d^2的平方根的倒数。 |
|
|
获取输入数据a中前n个元素的平方和a[0]^2 + a[1]^2 +...+ a[n-1]^2的平方根。 |
|
|
获取输入数据a中前n个元素的平方和a[0]^2 + a[1]^2 + ...+ a[n-1]^2的平方根的倒数。 |
|
|
获取输入数据x的立方根。 |
|
|
获取输入数据x的立方根的倒数。 |
|
|
获取输入数据的误差函数值。 |
|
|
获取输入数据的互补误差函数值。 |
|
|
获取输入数据的逆误差函数值。 |
|
|
获取输入数据的逆互补误差函数值。 |
|
|
获取输入数据的缩放互补误差函数值。 |
|
|
获取输入数据x的伽马函数值。 |
|
|
获取输入数据x伽马值的绝对值并求自然对数。 |
|
|
获取输入数据x的0阶常规修正圆柱贝塞尔函数的值。 |
|
|
获取输入数据x的1阶常规修正圆柱贝塞尔函数的值。 |
|
|
获取输入数据x的标准正态分布的累积分布函数值。 |
|
|
获取输入数据x的标准正态累积分布的逆函数 |
|
|
获取输入数据x的0阶第一类贝塞尔函数j0的值。 |
|
|
获取输入数据x的1阶第一类贝塞尔函数j1的值。 |
|
|
获取输入数据x的n阶第一类贝塞尔函数jn的值。 |
|
|
获取输入数据x的0阶第二类贝塞尔函数y0的值。 |
|
|
获取输入数据x的1阶第二类贝塞尔函数y1的值。 |
|
|
获取输入数据x的n阶第二类贝塞尔函数yn的值。 |
|
|
获取输入数据的绝对值。 |
|
|
获取输入数据的绝对值。 |
|
|
对输入数据x、y、z,计算x与y相乘加上z的结果。 |
|
|
对输入数据x、y、z,计算x与y相乘加上z的结果。 |
|
|
获取两个输入数据中的最大值。 |
|
|
获取两个输入数据中的最大值。 |
|
|
获取两个输入数据中的最小值。 |
|
|
获取两个输入数据中的最小值。 |
|
|
获取输入数据的差值,差值小于0时,返回0。 |
|
|
获取输入数据x除以y的余数。求余数时,商取最接近x除以y浮点数结果的整数,当x除以y的浮点数结果与左右最接近的整数距离相等时,商取偶数,同时将商赋值给指针变量quo。 |
|
|
获取输入数据x除以y的余数。求余数时,商取x除以y浮点数结果的整数部分。 |
|
|
获取输入数据x除以y的余数。求余数时,商取最接近x除以y浮点数结果的整数,当x除以y的浮点数结果与左右最接近的整数距离相等时,商取偶数。 |
|
|
获取由第一个输入x的数值部分和第二个输入y的符号部分拼接得到的浮点数。 |
|
|
获取与输入浮点数最接近的整数,输入浮点数与左右整数的距离相等时,返回偶数。 |
|
|
如果y大于x,返回比x大的下一个可表示的浮点值,即浮点数二进制最低位加1。 如果y小于x,返回比x小的下一个可表示的浮点值,即浮点数二进制最低位减1。 如果y等于x,返回x。 |
|
|
获取输入数据x与2的n次方的乘积。 |
|
|
获取输入数据x与2的n次方的乘积。 |
|
|
将输入数据分解为小数部分和整数部分。 |
|
|
获取输入数据的绝对值。 |
|
|
获取输入数据的绝对值。 |
|
|
获取两个输入数据中的最大值。 |
|
|
获取两个输入数据中的最大值。 |
|
|
获取两个输入数据中的最大值。 |
|
|
获取两个输入数据中的最小值。 |
|
|
获取两个输入数据中的最小值。 |
|
|
获取两个输入数据中的最小值。 |
|
|
获取两个输入数据相除的结果。 |
|
|
获取输入数据的符号位。 |
|
接口名 |
功能描述 |
|---|---|
|
获取与输入数据最接近的整数,若存在两个同样接近的整数,则获取其中的偶数。 |
|
|
获取与输入数据最接近的整数,若存在两个同样接近的整数,则获取其中的偶数。 |
|
|
获取与输入数据各元素最接近的整数,若存在两个同样接近的整数,则获取其中的偶数。 |
|
|
获取与输入数据最接近的整数,若存在两个同样接近的整数,则获取其中的偶数。 |
|
|
获取与输入数据最接近的整数,若存在两个同样接近的整数,则获取其中的偶数。 |
|
|
获取对输入数据四舍五入后的整数。 |
|
|
获取对输入数据四舍五入后的整数。 |
|
|
获取对输入数据四舍五入后的整数。 |
|
|
获取小于或等于输入数据的最大整数值。 |
|
|
获取小于或等于输入数据的最大整数值。 |
|
|
获取小于或等于输入数据各元素的最大整数值。 |
|
|
获取大于或等于输入数据的最小整数值。 |
|
|
获取大于或等于输入数据的最小整数值。 |
|
|
获取大于或等于输入数据各元素的最小整数值。 |
|
|
获取对输入数据的浮点数截断后的整数。 |
|
|
获取对输入数据的浮点数截断后的整数。 |
|
|
获取对输入数据各元素的浮点数截断后的整数。 |
|
接口名 |
功能描述 |
|---|---|
|
判断浮点数是否为有限数(非inf、非nan)。 |
|
|
判断浮点数是否为nan。 |
|
|
判断浮点数是否为nan。 |
|
|
判断浮点数是否为无穷。 |
|
|
判断浮点数是否为无穷。 |
|
接口名 |
功能描述 |
|---|---|
|
对Unified Buffer或Global Memory上的数据与指定数据执行原子加操作,即将指定数据累加到Unified Buffer或Global Memory的数据中。 |
|
|
对Unified Buffer或Global Memory上的数据与指定数据执行原子减操作,即在Unified Buffer或Global Memory的数据上减去指定数据。 |
|
|
对Unified Buffer或Global Memory地址做原子赋值操作,即将指定数据赋值到Unified Buffer或Global Memory地址中。 |
|
|
对Unified Buffer或Global Memory数据做原子求最大值操作,即将Unified Buffer或Global Memory的数据与指定数据中的最大值赋值到Unified Buffer或Global Memory地址中。 |
|
|
对Unified Buffer或Global Memory数据做原子求最小值操作,即将Unified Buffer或Global Memory的数据与指定数据中的最小值赋值到Unified Buffer或Global Memory地址中。 |
|
|
对Unified Buffer或Global Memory上address的数值进行原子加1操作,如果address上的数值大于等于指定数值val,则对address赋值为0,否则将address上数值加1。 |
|
|
对Unified Buffer或Global Memory上address的数值进行原子减1操作,如果address上的数值等于0或大于指定数值val,则对address赋值为val,否则将address上数值减1。 |
|
|
对Unified Buffer或Global Memory上address的数值进行原子比较赋值操作,如果address上的数值等于指定数值compare,则对address赋值为指定数值val,否则address的数值不变。 |
|
|
对Unified Buffer或Global Memory上address的数值与指定数值val进行原子与(&)操作,即将address数值与(&)val的结果赋值到Unified Buffer或Global Memory上。 |
|
|
对Unified Buffer或Global Memory上address的数值与指定数值val进行原子或(|)操作,即将address数值或(|)val的结果赋值到Unified Buffer或Global Memory上。 |
|
|
对Unified Buffer或Global Memory上address的数值与指定数值val进行原子异或(^)操作,即将address数值异或(^)val的结果赋值到Unified Buffer或Global Memory上。 |
|
接口名 |
功能描述 |
|---|---|
|
判断是否所有活跃线程的输入均不为0。 |
|
|
判断是否有活跃线程的输入不为0。 |
|
|
判断Warp内每个活跃线程的输入是否不为0。 |
|
|
查看Warp内所有线程是否为活跃状态。 |
|
|
获取Warp内指定线程srcLane输入的用于交换的var值。 |
|
|
获取Warp内当前线程向前偏移delta(当前线程LaneId-delta)的线程输入的用于交换的var值。 |
|
|
获取Warp内当前线程向后偏移delta(当前线程LaneId+delta)的线程输入的用于交换的var值。 |
|
|
获取Warp内当前线程LaneId与输入laneMask做异或操作(LaneId^laneMask)得到的dstLaneId对应线程输入的用于交换的var值。 |
|
|
对Warp内所有活跃线程输入的val求和。 |
|
|
对Warp内所有活跃线程输入的val求最大值。 |
|
|
对Warp内所有活跃线程输入val求最小值。 |
|
接口名 |
功能描述 |
|---|---|
|
输入遵循CAST_RINT模式取整后的浮点数。 |
|
|
输入遵循CAST_TRUNC模式取整后的浮点数。 |
|
|
输入遵循CAST_FLOOR模式取整后的浮点数。 |
|
|
输入遵循CAST_CEIL模式取整后的浮点数。 |
|
|
输入遵循CAST_ROUND模式取整后的浮点数。 |
|
|
将浮点数转换为半精度浮点数,并四舍五入到最接近的偶数,返回转换后的值。 |
|
|
将浮点数转换为半精度浮点数,并四舍五入到最接近的偶数,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_RINT模式转换成的半精度浮点数。 |
|
|
将浮点数转换为半精度浮点数,并向零的方向舍入,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_TRUNC模式转换成的半精度浮点数。 |
|
|
将浮点数转换为半精度浮点数,并在转换过程中向下取整,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_FLOOR模式转换成的半精度浮点数。 |
|
|
将浮点数转换为半精度浮点数,并在转换过程中向上取整,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_CEIL模式转换成的半精度浮点数。 |
|
|
将浮点数转换为半精度浮点数,并向远离零的方向舍入,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_ROUND模式转换成的半精度浮点数。 |
|
|
将浮点数转换为半精度浮点数,并四舍五入到最接近的奇数,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_ODD模式转换成的半精度浮点数。 |
|
|
将浮点数转换为bfloat16精度,并四舍五入到最接近的偶数,返回转换后的值。 |
|
|
将浮点数转换为bfloat16精度,并四舍五入到最接近的偶数,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_RINT模式转换成的bfloat16类型数据。 |
|
|
将浮点数转换为bfloat16精度,并向零的方向舍入,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_TRUNC模式转换成的bfloat16类型数据。 |
|
|
将浮点数转换为bfloat16精度,在转换过程中将结果向下舍入,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_FLOOR模式转换成的bfloat16类型数据。 |
|
|
将浮点数转换为bfloat16精度,在转换过程中将结果向上取整,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_CEIL模式转换成的bfloat16类型数据。 |
|
|
将浮点数转换为bfloat16精度,并向远离零的方向舍入,返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_ROUND模式转换成的bfloat16类型数据。 |
|
|
将浮点数转换为四舍五入至最接近的偶数的无符号整数。 |
|
|
将浮点数转换为向零舍入的无符号整数。 |
|
|
将浮点数转换为向下取整的无符号整数。 |
|
|
将浮点数转换为向上取整的无符号整数。 |
|
|
将浮点数转换为向远离零舍入的无符号整数。 |
|
|
将浮点数转换为有符号整数,并四舍五入到最接近的偶数。 |
|
|
将浮点数转换为向零舍入的有符号整数。 |
|
|
将浮点数转换为向下取整的有符号整数。 |
|
|
将浮点数转换为向上取整的有符号整数。 |
|
|
将浮点数转换为向远离零舍入的有符号整数。 |
|
|
将浮点数转换为四舍五入到最接近偶数的64位无符号整数。 |
|
|
将浮点数转换为向零舍入的64位无符号整数。 |
|
|
将浮点数转换为向下取整的64位无符号整数。 |
|
|
将浮点数转换为向上取整的64位无符号整数。 |
|
|
将浮点数转换为向远离零舍入的64位无符号整数。 |
|
|
将浮点数转换为有符号64位整数,并四舍五入到最接近的偶数。 |
|
|
将浮点数转换为向零舍入的64位有符号整数。 |
|
|
将浮点数转换为向下取整的64位有符号整数。 |
|
|
将浮点数转换为向上取整的64位有符号整数。 |
|
|
将浮点数转换为向远离零舍入的64位有符号整数。 |
|
|
饱和模式下将输入的两个分量遵循CAST_RINT模式转换成的half2类型数据。 |
|
|
将输入的两个分量遵循CAST_TRUNC模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_TRUNC模式转换成的half2类型数据。 |
|
|
将输入的两个分量遵循CAST_FLOOR模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_FLOOR模式转换成的half2类型数据。 |
|
|
将输入的两个分量遵循CAST_CEIL模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_CEIL模式转换成的half2类型数据。 |
|
|
将输入的两个分量遵循CAST_ROUND模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_ROUND模式转换成的half2类型数据。 |
|
|
将输入的两个分量遵循CAST_ODD模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_ODD模式转换成的half2类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_RINT模式转换成的bfloat16x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_TRUNC模式转换成的bfloat16x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_TRUNC模式转换成的bfloat16x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_FLOOR模式转换成的bfloat16x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_FLOOR模式转换成的bfloat16x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_CEIL模式转换成的bfloat16x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_CEIL模式转换成的bfloat16x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_ROUND模式转换成的bfloat16x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_ROUND模式转换成的bfloat16x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_ROUND模式转换成的hifloat8x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_ROUND模式转换成的hifloat8x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_HYBRID模式转换成的hifloat8x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_HYBRID模式转换成的hifloat8x2_t类型数据。 |
|
|
输入的两个分量遵循CAST_RINT模式,根据指定的8位浮点数类型和指定的饱和模式,转换成__asc_fp8x2_storage_t类型数据。 |
|
|
将half转换为浮点数。 |
|
|
输入遵循CAST_RINT模式取整后的half类型数据。 |
|
|
输入遵循CAST_TRUNC模式取整后的half类型数据。 |
|
|
输入遵循CAST_FLOOR模式取整后的half类型数据。 |
|
|
输入遵循CAST_CEIL模式取整后的half类型数据。 |
|
|
输入遵循CAST_ROUND模式取整后的half类型数据。 |
|
|
将half转换为bfloat16,并四舍五入到最接近的偶数。 |
|
|
将half 转换为向零舍入的bfloat16。 |
|
|
将half转换为向下取整的bfloat16。 |
|
|
将half转换为bfloat16(向上取整)。 |
|
|
将half类型数据转换为向远离零舍入的bfloat16类型数据。 |
|
|
将half转换为无符号整数,并四舍五入到最接近的偶数。 |
|
|
将half转换为向零舍入的无符号整数。 |
|
|
将half转换为向下取整的无符号整数。 |
|
|
将half转换为向上取整的无符号整数。 |
|
|
将half类型数据转换为向远离零舍入的无符号整数。 |
|
|
将half转换为有符号整数,并四舍五入到最接近的偶数。 |
|
|
将half 转换为向零舍入的有符号整数。 |
|
|
将half转换为向下取整的有符号整数。 |
|
|
将half转换为有符号整数(向上取整)。 |
|
|
将half类型数据转换为向远离零舍入的有符号整数。 |
|
|
将half转换为无符号64位整数,并四舍五入到最接近的偶数。 |
|
|
将half转换为向零舍入的64位无符号整数。 |
|
|
将half转换为向下取整的64位无符号整数。 |
|
|
将half 转换为向上取整的64位无符号整数。 |
|
|
将half类型数据转换为向远离零舍入的64位无符号整数。 |
|
|
将half转换为有符号64位整数,并四舍五入到最接近的偶数位。 |
|
|
将half转换为向零舍入的64位有符号整数。 |
|
|
将half转换为向下取整的64位有符号整数。 |
|
|
将half 转换为向上取整的64位有符号整数。 |
|
|
将half类型数据转换为向远离零舍入的64位有符号整数。 |
|
|
将输入的两个分量遵循CAST_ROUND模式转换成的hifloat8x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_ROUND模式转换成的hifloat8x2_t类型数据。 |
|
|
将输入的两个分量遵循CAST_HYBRID模式转换成的hifloat8x2_t类型数据。 |
|
|
饱和模式下将输入的两个分量遵循CAST_HYBRID模式转换成的hifloat8x2_t类型数据。 |
|
|
将bfloat16转换为half,并四舍五入到最接近的偶数,然后返回转换后的值。 |
|
|
饱和模式下将输入遵循CAST_RINT模式转换成的half类型数据。 |
|
|
将bfloat16转换为向零舍入的half。 |
|
|
饱和模式下将输入遵循CAST_TRUNC模式转换成的half类型数据。 |
|
|
将bfloat16转换为向下取整的half。 |
|
|
饱和模式下将输入遵循CAST_FLOOR模式转换成的half类型数据。 |
|
|
将bfloat16转换为向上取整的half。 |
|
|
饱和模式下将输入遵循CAST_CEIL模式转换成的half类型数据。 |
|
|
将bfloat16类型数据转换为向远离零舍入的half类型数据。 |
|
|
饱和模式下将输入遵循CAST_ROUND模式转换成的half类型数据。 |
|
|
将bfloat16转换为浮点数。 |
|
|
输入遵循CAST_RINT模式取整后的bfloat16_t类型数据。 |
|
|
输入遵循CAST_TRUNC模式取整后的bfloat16_t类型数据。 |
|
|
输入遵循CAST_FLOOR模式取整后的bfloat16_t类型数据。 |
|
|
输入遵循CAST_CEIL模式取整后的bfloat16_t类型数据。 |
|
|
输入遵循CAST_ROUND模式取整后的bfloat16_t类型数据。 |
|
|
将bfloat16转换为四舍五入到最接近偶数的无符号整数。 |
|
|
将bfloat16转换为向零舍入的无符号整数。 |
|
|
将bfloat16转换为向下取整的无符号整数。 |
|
|
将bfloat16转换为向上取整的无符号整数。 |
|
|
将bfloat16类型数据转换为向远离零舍入的无符号整数。 |
|
|
将bfloat16转换为四舍五入到最接近偶数的有符号整数 |
|
|
将bfloat16转换为向零舍入的有符号整数。 |
|
|
将bfloat16转换为向下取整的有符号整数。 |
|
|
将bfloat16转换为向上取整的有符号整数。 |
|
|
将bfloat16类型数据转换为向远离零舍入的有符号整数。 |
|
|
将bfloat16转换为四舍五入到最接近偶数的64位无符号整数。 |
|
|
将bfloat16 转换为向零舍入的64位无符号整数。 |
|
|
将 bfloat16转换为向下取整的64位无符号整数。 |
|
|
将bfloat16转换为向上取整的64位无符号整数。 |
|
|
将bfloat16类型数据转换为向远离零舍入的64位无符号整数。 |
|
|
将 bfloat16转换为四舍五入到最接近偶数的64位有符号整数。 |
|
|
将bfloat16转换为向零舍入的64位有符号整数。 |
|
|
将bfloat16转换为向下取整的64位有符号整数。 |
|
|
将 bfloat16转换为向上取整的64位有符号整数。 |
|
|
将bfloat16类型数据转换为向远离零舍入的64位有符号整数。 |
|
|
将uint32转换为浮点数,并四舍五入到最接近的偶数。 |
|
|
将uint32转换为向零舍入的浮点数。 |
|
|
将uint32向下取整转换为浮点数。 |
|
|
将uint32转换为向上取整的浮点数。 |
|
|
将uint32类型数据转换为向远离零舍入的浮点数。 |
|
|
将uint32转换为half(四舍五入到最接近的偶数)。 |
|
|
饱和模式下输入的uint32数据转换成的half数据,并遵循CAST_RINT模式。 |
|
|
将uint32转换为向零舍入的half。 |
|
|
饱和模式下输入的uint32数据转换成的half数据,并遵循CAST_TRUNC模式。 |
|
|
将uint32向下取整为half。 |
|
|
饱和模式下输入的uint32数据转换成的half数据,并遵循CAST_FLOOR模式。 |
|
|
将uint32向上取整转换为half。 |
|
|
饱和模式下输入的uint32数据转换成的half数据,并遵循CAST_CEIL模式。 |
|
|
将uint32类型数据转换为向远离零舍入的half类型数据。 |
|
|
饱和模式下输入的uint32数据转换成的half数据,并遵循CAST_ROUND模式。 |
|
|
将uint32转换为bfloat16,并四舍五入到最接近的偶数。 |
|
|
将uint32转换为向零舍入的bfloat16。 |
|
|
将uint32向下取整转换为bfloat16。 |
|
|
将uint32向上取整转换为bfloat16。 |
|
|
将uint32类型数据转换为向远离零舍入的bfloat16类型数据。 |
|
|
将int32转换为浮点数,并四舍五入到最接近的偶数。 |
|
|
将int32转换为向零舍入的浮点数。 |
|
|
将int32向下取整转换为浮点数。 |
|
|
将int32转换为向上取整的浮点数。 |
|
|
将int32类型数据转换为向远离零舍入的浮点数。 |
|
|
将int32转换为half(四舍五入到最接近的偶数)。 |
|
|
饱和模式下输入的int32数据转换成的half数据,并遵循CAST_RINT模式。 |
|
|
将int32转换为向零舍入的half。 |
|
|
饱和模式下输入的int32数据转换成的half数据,并遵循CAST_TRUNC模式。 |
|
|
将int32向下取整为half。 |
|
|
饱和模式下输入的int32数据转换成的half数据,并遵循CAST_FLOOR模式。 |
|
|
将int32向上取整转换为half。 |
|
|
饱和模式下输入的int32数据转换成的half数据,并遵循CAST_CEIL模式。 |
|
|
将int32类型数据转换为向远离零舍入的half类型数据。 |
|
|
饱和模式下输入的int32数据转换成的half数据,并遵循CAST_ROUND模式。 |
|
|
将int32转换为bfloat16,并四舍五入到最接近的偶数。 |
|
|
将int32转换为向零舍入的bfloat16。 |
|
|
将int32向下取整转换为bfloat16。 |
|
|
将int32向上取整转换为bfloat16。 |
|
|
将int32类型数据转换为向远离零舍入的bfloat16类型数据。 |
|
|
将uint64转换为浮点数,并四舍五入到最接近的偶数。 |
|
|
将uint64转换为向零舍入的浮点数。 |
|
|
将uint64向下取整转换为浮点数。 |
|
|
将uint64向上取整转换为浮点数。 |
|
|
将uint64类型数据转换为向远离零舍入的浮点数。 |
|
|
将uint64转换为half,并四舍五入到最接近的偶数。 |
|
|
将uint64转换为向零舍入的half。 |
|
|
将uint64向下取整转换为half。 |
|
|
将uint64向上取整转换为浮点数。 |
|
|
将uint64类型数据转换为向远离零舍入的half类型数据。 |
|
|
将uint64转换为bfloat16,并四舍五入到最接近的偶数。 |
|
|
将uint64转换为向零舍入的bfloat16。 |
|
|
将uint64向下取整转换为bfloat16。 |
|
|
将uint64向上取整转换为bfloat16。 |
|
|
将uint64类型数据转换为向远离零舍入的bfloat16类型数据。 |
|
|
将int64转换为四舍五入到最接近偶数的浮点数。 |
|
|
将int64转换为向零舍入的浮点数。 |
|
|
将int64向下取整转换为浮点数。 |
|
|
将int转换为向上取整的浮点数。 |
|
|
将int64类型数据转换为向远离零舍入的浮点数。 |
|
|
将int64转换为四舍五入到最接近偶数的half。 |
|
|
将int64转换为向零舍入的half。 |
|
|
将int64向下取整转换为half。 |
|
|
将int64转换为向上取整的half。 |
|
|
将int64类型数据转换为向远离零舍入的half类型数据。 |
|
|
将int64转换为四舍五入到最接近偶数的bfloat16。 |
|
|
将int64转换为向零舍入的bfloat16。 |
|
|
将int64向下取整转换为bfloat16。 |
|
|
将int转换为向上取整的bfloat16。 |
|
|
将int64类型数据转换为向远离零舍入的bfloat16类型数据。 |
|
|
将hifloat8x2_t类型输入转换成float2类型数据。 |
|
|
将hifloat8x2_t类型输入转换成half2类型数据。 |
|
|
将float8_e4m3x2_t类型输入转换成的float2类型数据。 |
|
|
将float8_e5m2x2_t类型输入转换成的float2类型数据。 |
|
|
将float类型数据遵循CAST_RINT模式转换为bfloat16类型并填充到bfloat16x2的前后两部分,返回填充后的bfloat16x2类型数据。 |
|
|
将输入的数据x,y遵循CAST_RINT模式分别转换为bfloat16类型并填充到bfloat16x2的前后两部分,返回转换后的bfloat16x2类型数据。 |
|
|
将float2类型数据遵循CAST_RINT模式转换为bfloat16x2类型,返回转换后的bfloat16x2类型数据。 |
|
|
将输入的数据的填充为bfloat16x2前后两个分量,返回转换后的bfloat16x2类型数据。 |
|
|
将输入的数据分别填充为bfloat16x2前后两个分量,返回填充后数据。 |
|
|
提取输入bfloat16x2的高16位,并返回。 |
|
|
将输入数据的的高16位填充到bfloat16x2并返回结果。 |
|
|
将输入数据的高16位转换为float类型并返回结果。 |
|
|
分别提取两个bfloat162输入的高16位,并填充到bfloat162中。返回填充后的数据。 |
|
|
返回输入数据的低16位。 |
|
|
将输入数据的低16位填充到bfloat16x2并返回。 |
|
|
将输入数据的低16位转换为浮点数并返回结果。 |
|
|
将输入数据的高低16位进行交换并返回。 |
|
|
分别提取两个bfloat162输入的低16位,并填充到bfloat162中。返回填充后的数据。 |
|
|
将bfloat16x2的两个分量分别转换为float,并填充到float2返回。 |
|
|
将输入的数据x,y遵循CAST_RINT模式分别转换为bfloat16类型并填充到half2的前后两部分,返回转换后的half2类型数据。 |
|
|
将float2类型数据遵循CAST_RINT模式转换为half2类型,返回转换后的half2类型数据。 |
|
|
返回输入数据的低16位。 |
|
|
将输入数据的低16位填充到half2并返回。 |
|
|
提取输入half2的高16位,并返回 |
|
|
将输入数据的的高16位填充到half2并返回结果。 |
|
|
分别提取两个half2输入的高16位,并填充到half2中。返回填充后的数据。 |
|
|
分别提取两个half2输入的低16位,并填充到half2中。返回填充后的数据。 |
|
|
将输入的数据分别填充为half2前后两个分量,返回填充后数据。 |
|
|
将half2的两个分量分别转换为float,并填充到float2返回。 |
|
|
将整数中的位重新解释为浮点数。 |
|
|
将无符号整数中的位重新解释为浮点数。 |
|
|
将浮点数中的位重新解释为有符号整数。 |
|
|
将浮点数中的位重新解释为无符号整数。 |
|
|
将unsigned short int的按位重新解释为half,即将unsigned short int的数据存储的位按照half的格式进行读取。 |
|
|
将unsigned short int的按位重新解释为bfloat16,即将unsigned short int的数据存储的位按照bfloat16的格式进行读取。 |
|
接口名 |
功能描述 |
|---|---|
|
从两个int类型数据创建int2类型的向量。 |
|
|
从三个int类型数据创建int3类型的向量。 |
|
|
从四个int类型数据创建int4类型的向量。 |
|
|
从两个unsigned int类型数据创建uint2类型的向量。 |
|
|
从三个unsigned int类型数据创建uint3类型的向量。 |
|
|
从四个unsigned int类型数据创建uint4类型的向量。 |
|
|
从两个unsigned long long int类型数据创建ulonglong2类型的向量。 |
|
|
从三个unsigned long long int类型数据创建ulonglong3类型的向量。 |
|
|
从四个unsigned long long int类型数据创建ulonglong4类型的向量。 |
|
|
从两个long long int类型数据创建longlong2类型的向量。 |
|
|
从三个long long int类型数据创建longlong3类型的向量。 |
|
|
从四个long long int类型数据创建longlong4类型的向量。 |
|
|
从两个unsigned long int类型数据创建ulong2类型的向量。 |
|
|
从三个unsigned long int类型数据创建ulong3类型的向量。 |
|
|
从四个unsigned long int类型数据创建ulong4类型的向量。 |
|
|
从两个long int类型数据创建long2类型的向量。 |
|
|
从三个long int类型数据创建long3类型的向量。 |
|
|
从四个long int类型数据创建long4类型的向量。 |
|
|
从两个float类型数据创建float2类型的向量。 |
|
|
从三个float类型数据创建float3类型的向量。 |
|
|
从四个float类型数据创建float4类型的向量。 |
|
|
从两个short类型数据创建short2类型的向量。 |
|
|
从三个short类型数据创建short3类型的向量。 |
|
|
从四个short类型数据创建short4类型的向量。 |
|
|
从两个unsigned short类型数据创建ushort2类型的向量。 |
|
|
从三个unsigned short类型数据创建ushort3类型的向量。 |
|
|
从四个unsigned short类型数据创建ushort4类型的向量。 |
|
|
从两个unsigned char类型数据创建uchar2类型的向量。 |
|
|
从三个unsigned char类型数据创建uchar3类型的向量。 |
|
|
从四个unsigned char类型数据创建uchar4类型的向量。 |
|
|
从两个signed char类型数据创建char2类型的向量。 |
|
|
从三个signed char类型数据创建char3类型的向量。 |
|
|
从四个signed char类型数据创建char4类型的向量。 |
|
|
从两个half类型数据创建half2类型的向量。 |
|
|
从两个bfloat16_t类型数据创建bfloat16x2_t类型的向量。 |
|
接口名 |
功能描述 |
|---|---|
|
从L2 Cache加载缓存的数据,如果缓存命中,则直接返回数据。若未命中,则从Global Memory地址预加载数据缓存至L2 Cache,并返回数据。 |
|
|
首先从Data Cache加载缓存数据,若未命中,则尝试从L2 Cache加载。如果Data Cache和L2 Cache中均未找到所需数据,则从Global Memory中读取数据,然后将其缓存到L2 Cache和Data Cache中。 |
|
|
将指定数据存储到Global Memory的地址address中,并缓存到L2 Cache,但不缓存至Data Cache。 |
|
|
将指定数据存储到Global Memory的地址address中,并缓存至Data Cache和L2 Cache。 |
Utils API
|
接口名 |
功能描述 |
|---|---|
|
比较相同数据类型的两个数中的最大值。 |
|
|
比较相同数据类型的两个数中的最小值。 |
|
|
获取输入数据的绝对值。 |
|
|
计算输入数据的平方根。 |
|
|
用于生成一个整数序列。 |
|
|
允许存储多个不同类型元素的容器。 |
|
|
从tuple容器中提取指定位置的元素。 |
|
|
用于便捷地创建tuple对象。 |
|
|
在程序编译时判断两个类型之间是否可以进行隐式转换。 |
|
|
在程序编译时判断一个类型是否为另一个类型的基类。 |
|
|
在程序编译时判断两个类型是否完全相同。 |
|
|
在程序编译时,检测一个类型是否为void类型。 |
|
|
在程序编译时,检测一个类型是否为整数类型。 |
|
|
在程序编译时,检测一个类型是否为浮点类型。 |
|
|
在程序编译时,检测一个类型是否为数组类型。 |
|
|
在程序编译时,判断一个类型是否为指针类型。 |
|
|
在程序编译时,检测一个类型是否为引用类型。 |
|
|
在程序编译时,检测一个类型是否为const限定的类型。 |
|
|
在程序编译时,对传入的模板参数类型移除const限定符。 |
|
|
在程序编译时,对传入的模板参数类型移除volatile限定符。 |
|
|
在程序编译时,对传入的模板参数类型移除const限定符或volatile限定符,或同时移除这两种限定符。 |
|
|
在程序编译时,从给定类型中移除引用限定符。 |
|
|
在程序编译时,从给定类型中移除指针限定符。 |
|
|
在程序编译时,为指定类型添加const限定符。 |
|
|
在程序编译时,为指定类型添加volatile限定符。 |
|
|
在程序编译时,为指定类型添加const和volatile限定符。 |
|
|
在程序编译时,为指定类型添加指针限定符。 |
|
|
在程序编译时,为指定类型添加左值引用限定符。 |
|
|
在程序编译时,为指定类型添加右值引用限定符。 |
|
|
在程序编译时根据某个条件启用或禁用特定的函数模板、类模板或模板特化。 |
|
|
在程序编译时根据一个布尔条件从两个类型中选择一个类型。 |
|
|
用于封装一个编译时常量整数值,是标准库中许多类型特性和编译时计算的基础组件。 |
|
接口名 |
功能描述 |
|---|---|
|
在实现Host侧的Tiling函数时,可能需要获取一些硬件平台的信息,来支撑Tiling的计算,比如获取硬件平台的核数等信息。PlatformAscendC类提供获取这些平台信息的功能。 |
|
|
基于Kernel Launch算子工程,通过基础调用(Kernel Launch)方式调用算子的场景下,可能需要获取硬件平台相关信息,比如获取硬件平台的核数。PlatformAscendCManager类提供获取平台信息的功能。 |
|
接口名 |
功能描述 |
|---|---|
|
注册算子的原型定义。 |
|
|
用于算子原型定义。 |
|
|
用于算子参数定义。 |
|
|
用于算子属性定义。 |
|
|
用于定义AI处理器上相关实现信息,并关联Tiling实现、Shape推导等函数。 |
|
|
用于配置AI Core配置信息。 |
|
|
该类用于在host侧配置通算融合算子的通信域名称。配置后在kernel侧可以获取通信域对应的context地址。 |
|
接口名 |
功能描述 |
|---|---|
|
定义一个TilingData的类,添加所需的成员变量(TilingData字段),用于保存所需TilingData参数。完成该TilingData类的定义后,该类通过继承TilingDef类(用来存放、处理用户自定义Tiling结构体成员变量的基类)提供TilingData字段设置、序列化和保存等接口。 |
|
|
注册定义的TilingData结构体并和自定义算子绑定。 |
|
接口名 |
功能描述 |
|---|---|
|
通过该类接口进行模板参数ASCENDC_TPL_ARGS_DECL和模板参数组合ASCENDC_TPL_ARGS_SEL(即可使用的模板)的定义。 |
|
|
Tiling模板编程时,开发者通过调用此接口自动生成TilingKey。该接口将传入的模板参数通过定义的位宽,转成二进制,按照顺序组合后转成uint64数值,即TilingKey。 |
|
|
Tiling模板编程时,开发者通过调用此接口自动生成并配置TilingKey。 |
|
接口名 |
功能描述 |
|---|---|
|
编译接口,编译指定的程序。 |
|
|
通过给定的参数,创建编译程序的实例。 |
|
|
销毁编译程序的实例。 |
|
|
获取编译后的二进制数据。 |
|
|
获取编译的二进制数据大小。用于在aclrtcGetBinData获取二进制数据时分配对应大小的内存空间。 |
|
|
获取编译日志的大小。用于在aclrtcGetCompileLog获取日志内容时分配对应大小的内存空间。 |
|
|
获取编译日志的内容,以字符串形式保存。 |
|
接口名 |
功能描述 |
|---|---|
|
提供Host侧打印Log的功能。开发者可以在算子的TilingFunc代码中使用ASC_CPU_LOG_XXX接口来输出相关内容。 |
|
接口名 |
功能描述 |
|---|---|
|
在算子Kernel侧的实现代码中,需要输出日志信息时,调用printf接口打印相关内容。 |
|
|
本接口在SIMT VF调试场景下提供assert断言功能。在算子Kernel侧的SIMT VF实现代码中,如果assert的内部条件判断不为真,则会输出assert条件,并将输入的信息格式化打印在屏幕上。 |
|
|
在SIMT VF实现代码中调用此接口会中断算子的运行。 |
|
|
本接口在SIMT VF调试场景中提供Clock时间戳功能,用于记录从程序启动到接口调用时刻所经历的时钟周期数(Cycle Count),便于精确分析执行延迟和性能瓶颈。 |