术语和缩略语

A-E

术语/缩略语

含义

A

AccumulatedRelativeError

累积相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

Advisor

专家系统。

用于聚焦模型和算子的性能调优Top问题,识别性能瓶颈,重点构建模型和算子瓶颈分析并提供优化推荐,支撑开发效率提升的工具。

AscendCL

Ascend Computing Language,昇腾编程语言。

提供Device管理、Context管理、Stream管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理等API库供用户开发深度神经网络应用,用于实现目标识别、图像分类等功能。

ADK

Ascend Development Kit,解决方案提供的开发者套件包。

通过安装相关软件包后获得开发必需的API、库、工具链等开发组件。

AI

Artificial Intelligence,人工智能。

研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

AI Core

昇腾AI处理器的计算核心,负责执行矩阵、向量、标量计算密集的任务。使用Ascend C编程语言开发的算子运行在AI Core上。

AI CPU

主要用于AICPU算子的计算和确定性调度的任务。

AIC

分离架构硬件中的矩阵计算(AI Cube)核。

AIPP

Artificial Intelligence Pre-Processing,AI预处理。AIPP用于在AI Core上完成图像预处理,包括改变图像尺寸、色域转换(转换图像格式)、减均值/乘系数(改变图像像素),数据处理之后再进行真正的模型推理。

AIV

分离架构硬件中的向量计算(AI Vector)核。

AOE

Ascend Optimization Engine,昇腾调优引擎。

用于封装调优过程中的ATC编译及AscendCL运行服务接口,提供并行调优功能。

AOL

Ascend Operator Library,昇腾算子库。

Ascend EP

Ascend Endpoint昇腾AI处理器作为终端节点(从控节点)。

主要功能是配合主设备(X86,ARM等各种Server),快速高效的处理推理、训练、图像识别等工作,例如PCIe加速卡。

Ascend RC

Ascend Root Complex,昇腾AI处理器作为根组件(主控节点)。

提供主机控制功能,主要应用于移动端侧,例如Atlas 200 DK。

ATC

Ascend Tensor Compiler,昇腾张量编译器。

  • 通过ATC,可以将开源框架的网络模型(如Caffe、TensorFlow等)转换成昇腾AI处理器支持的离线模型。模型转换过程中可以实现算子调度的优化、权值数据重排、内存使用优化等
  • 通过ATC,可以进行算子编译。

AMCT

Ascend Model Compression Toolkit,昇腾模型压缩工具。

是一个针对昇腾芯片亲和的深度学习模型压缩工具包,提供量化、张量分解等多种模型压缩特性,压缩后模型体积变小,部署到昇腾AI处理器上后可使能低比特运算,提高计算效率,达到性能提升的目标。

AMP

Automatic Mixed Precision,自动混合精度训练。

AMP模块是PyTorch1.8.1及以上版本框架内置的使能混合精度训练的功能模块。混合精度训练是在训练时混合使用单精度(float32)与半精度(float16)数据类型,将两者结合在一起,并使用相同的超参数实现了与float32几乎相同的精度。

B

Batch

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

Batch size

模型迭代一次,使用的样本集的大小。

BIOS

Basic Input Output System,基本输入输出系统。

存于计算机主板上的一种固件。包括基本输入输出控制程序、上电自检程序、系统启动自举程序、系统设置信息,为计算机提供底层的硬件设置和控制功能

BIU

Bus Interface Unit,总线接口单元。

记录AICore和DDR/L2之间的内存访问情况

BTBC

Board-to-Board Connector,板对板连接器。

BTB连接器用于连接印刷电路板(PCB)。

C

CAN

Controller Area Network,控制区域网络。

CAN是一种串行通讯总线,能有效地支持具有很高安全等级的分布式实时控制。

CANN

Compute Architecture for Neural Networks,AI异构计算架构。

CANN是针对AI场景推出的异构并行计算架构,通过提供多层次的编程接口,支持用户快速构建基于Ascend平台的AI应用和业务。

CCE

Cube-based Computing Engine,基于Cube的计算引擎。

CCE加速库通过API的方式,为上层应用(为机器学习提供的各种framework或者Application)提供加速。

CCEC

CCE Compiler,CCE编译器。

CCE Compiler是一个异构系统编译器,是CCE异构编程语言的编译工具,它编译CCE混合代码:CCE Host代码和CCE AICPU|AICORE设备代码,产生可以在CCE系统上运行的可执行文件。

CFM

Cubic Feet Per Minute,立方英尺每分钟。

测量气体流速的单位。

CNN

Convolutional Neural Network,卷积神经网络。

是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。

CosineSimilarity

余弦相似度算法。

精度比对算法之一,计算结果取值范围为[-1,1],比对的结果如果越接近1,表示两者的值越相近,越接近-1意味着两者的值越相反。

CPU

Central Processing Unit,中央处理单元。

是计算机的主要设备之一,其功能是解释计算机指令以及处理计算机软件中的数据,与内部存储器、输入及输出设备成为现代电脑的三大部件。

Cube

Cube是AI Core中的运算单元,主要处理矩阵乘积累加运算。

D

DataFlow

用于描述完整的数据流,该数据流采用数据队列以数据驱动方式将一个或多个计算处理点组成。

DDP

Distributed Data Parallel,分布式训练。

同时利用一台或者多台机器上的GPU/NPU进行并行计算。

DDR

Double Data Rate,双倍数据速率。

严格的说DDR应该叫DDR SDRAM,人们习惯称为DDR,其中,SDRAM是Synchronous Dynamic Random Access Memory的缩写,即同步动态随机存取存储器。而DDR SDRAM是Double Data Rate SDRAM的缩写,是双倍速率同步动态随机存储器的意思。DDR内存是在SDRAM内存基础上发展而来的,仍然沿用SDRAM生产体系,因此对于内存厂商而言,只需对制造普通SDRAM的设备稍加改进,即可实现DDR内存的生产,可有效的降低成本。

与传统的单数据速率相比,DDR技术实现了一个时钟周期内进行两次读/写操作,即在时钟的上升沿和下降沿分别执行一次读/写操作。

DL

Deep Learning,深度学习。

是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

DSMI

Device System Manage Interface,设备系统管理接口。

DVPP

Digital Vision Pre-Processing,数字视觉预处理。

提供对特定格式的视频和图像的进行解码、缩放等预处理操作,以及对处理后的视频、图像进行编码再输出的能力。

单算子比对

精度比对工具里Tensor比对的一种方式。选择网络模型中一个或多个参与计算的算子进行精度比对。

E

ECC

Error Checking and Correction,错误检查和纠错技术。

该技术在原来的数据位中增加校验位,通过检验位来检测数据错误,并具备错误纠正能力。

EMMC

Embedded Multimedia Card,多媒体存储卡。

是一种新的存储技术,外部提供的接口和SD卡接口类似,内部存储介质为Flash,并且内建坏块管理系统。

EP

Endpoint,终端节点。

EP是具有PCIe接口的网卡、SATA控制器等。

Epoch

数据集的一次完整遍历。

EVB

Evaluation board,评估板。

EVB板用于芯片的性能、可靠性、集成测试的验证。

F-J

术语/缩略语

含义

F

FE

Fusion Engine,融合引擎。

提供图优化,图编译实现接口; 实现算子接入管理;实现算子融合优化。

FLOPS

Floating-Point Operations Per Second,每秒所执行的浮点运算次数。

常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。

Framework

NN框架执行引擎。

包括开源主流框架TensorFlow、PyTorch、Caffe等。系统针对开源主流框架提供适配插件,从而可利用昇腾AI处理器加速计算能力。

G

GDAT

Gradient Auto Tuning,梯度调优。

GDAT是通过最大化反向计算与梯度聚合通信并行度,缩短通信拖尾时间的优化工具。分布式训练场景下,各个设备之间计算梯度后执行梯度聚合操作,梯度聚合算子的融合策略会影响反向计算结束后的通信拖尾时间,从而影响集群训练的性能和线性度。

GDB

GNU Debugger,GNU调试器。

UNIX及UNIX-like下的命令行调试工具,可以执行程序、管理断点、检查变量赋值、调用函数等。

GE

Graph Engine,图引擎。

提供了Graph/Operator IR作为安全易用的构图接口集合,用户可以调用这些接口构建网络模型,设置模型所包含的图、图内的算子、以及模型和算子的属性。

Global Memory/GM

AI Core的外部存储。

GPU

Graphics Processing Unit,图形处理器。

GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

Graph模式

MindSpore的静态图模式,将神经网络模型编译成一整张图,然后下发执行,性能高。

H

HCC

Huawei Compiler Collection,华为编译器。

HCCL

Huawei Collective Communication Library,华为集合通信库。

HCCL提供了深度学习场景中服务器间高性能集合通信的功能。

HCCS

Huawei Cache Coherence System,华为缓存一致性系统。

HCCS用于CPU/NPU之间的高速互联。

HCCP

Huawei Collective Communication adaptive Protocol,集合通信适配协议。

提供跨NPU设备通信能力,向上屏蔽具体通讯协议差异。

HDC

Host Device Communication,主机设备通信。

用于Host和Device之间通信模块,在Host和Device里面均有部署。

HDR

High Dynamic Range,高动态范围。

摄影术语,用来描述媒体应用,如数字影像和数字音频。

HWTS

Hardware Task Scheduler,硬件任务调度。

提供对AI Core任务的硬件调度能力,减少调度时延。

I

I2C

Inter-integrated Circuit,集成电路总线。

I2C总线允许在同一电路板上的组件之间轻松通信。

IDE

Integrated Development Environment,集成开发环境。

IFU

Instruction Fetch Unit,取指单元。

记录每一次icache访问情况

IPC

IP Camera,IP摄像机。

IR

Intermediate Representation,中间表示。

IR是一种数据结构,可将输入的资料建构为一个计算机程序,也可以将一部分或是所有输出的程式反推回输入资料。

ISP

Image Signal Processing,图像信号处理。

主要用来对前端图像传感器输出信号处理的单元,以匹配不同厂商的图象传感器。

IVS

Intelligent Video Surveillance,智能视频采集系统。

提供集管理、存储、智能分析及应用、编解码为一体的智能视频采集系统。

IMU

I/O Board Management Unit,IO板管理单元。

J

JPEGD

JPEG Decoder,JPEG图像解码器。

提供对JPEG格式的图像进行解码的能力。

JPEGE

JPEG Encoder,JPEG图像编码器。

提供对图像进行编码输出为JPEG格式的能力。

精度比对

通过NPU运行生成的dump数据与Ground Truth(基于GPU/CPU运行生成的npy数据)进行比对。实现自主研发算子与业界标准算子运算结果的差异比较。

K-O

术语/缩略语

含义

K

KullbackLeiblerDivergence

KL散度算法。

精度比对算法之一,计算结果取值范围为0到无穷大。KL散度越小,真实分布与近似分布之间的匹配越好。

L

L0A Buffer

L0A 缓存区,AI Core内部存储单元,用于存储Cube指令的输入,例如C=A*B,其中A来源于L0A Buffer。

L0B Buffer

L0B 缓存区,AI Core内部存储单元,用于存储Cube指令的输入,例如C=A*B,其中B来源于L0B Buffer。

L0C Buffer

L0C 缓存区,AI Core内部存储单元,用于存储Cube指令的输出,但进行累加计算的时候,也是输入的一部分。例如C=A*B,L0C Buffer用于存储矩阵乘的结果C。

L1 Buffer

L1缓冲区,通用内部存储,是AI Core内比较大的一块数据中转区,可暂存AI Core中需要反复使用的一些数据从而减少从总线读写的次数。

LAN

Local Area Network,局域网。

由处于同一建筑或方圆几公里范围内的个人计算机和工作站相连接而组成的网络,具有高速和低错误率的特点。

LLC

Last Level Cache,最后一级Cache。

在访问内存之前调用的共享最高级别缓存通常称为最后一级缓存(LLC)。

LLM

Large Language Model,大语言模型。

大语言模型是一种语言模型,由具有许多参数(通常数十亿个权重或更多)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。

Local Memory

AI Core的内部存储,包括L1 Buffer、L0A Buffer、L0B Buffer、L0C Buffer、Unified Buffer等存储单元。

Loss

损失,预测值与实际值的偏差,深度学习用于判断模型好坏的一个标准。

LPDDR4x

Low-Power DDR4x,低功耗内存技术。

面向低功耗内存而制定的通信标准,以低功耗和小体积著称,专门用于移动式电子产品。

M

MaxAbsoluteError

最大绝对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

MaxRelativeError

最大相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

MeanAbsoluteError

平均绝对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。

  • MeanAbsoluteError趋于0,RootMeanSquareError趋于0,说明测量值与真实值越近似。
  • MeanAbsoluteError趋于0,RootMeanSquareError越大,说明存在局部过大的异常值。
  • MeanAbsoluteError越大,RootMeanSquareError等于或近似MeanAbsoluteError,说明整体偏差越集中。
  • MeanAbsoluteError越大,RootMeanSquareError越大于MeanAbsoluteError,说明存在整体偏差,且整体偏差分布分散。
  • 不存在以上情况的例外情况,因为RMSE ≥ MAE恒成立。

MeanRelativeError

平均相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

Mic

Microphone,麦克风。

ML

Machine Learning,机器学习。

机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。

MLL

Machine Learning Library,机器学习库。

基于opencv算子通过算法优化、neon指令等方式大幅提升opencv算子性能的机械学习库。

MoE

Mixture-of-Experts,混合专家系统,是一种用于训练万亿参数量级模型的技术。MoE将预测建模任务分解为若干子任务,在每个子任务上训练一个专家模型(Expert Model),开发一个门控模型(Gating Model),该模型会根据输入数据分配一个或多个专家,最终综合多个专家计算结果作为预测结果

MTE1

Memory Transfer Engine 1,内存传输引擎1。

从L1 Buffer拷贝内存。

MTE2

Memory Transfer Engine 2,内存传输引擎2。

从DDR或者L2 Buffer拷贝内存。

MTE3

Memory Transfer Engine 3,内存传输引擎3。

从UB拷贝内存。

N

NCS

Neural Compute Server,神经计算服务器。

NCS封装AscendCL运行服务接口,可接受外部远程上板请求,并且返回对应的性能数据。

NIC

Network Interface Controller,网络接口控制器。

也称为网络接口卡,网络适配器,LAN适配器,以及类似术语。是将计算机连接到计算机网络的计算机硬件组件。

NN

Neural Network,神经网络。

在机器学习和认知科学领域,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。

NPU

Neural-Network Processing Unit,神经网络处理器单元。

采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体业数据,专门用于处理人工智能应用中的大量计算任务。

NV

NonVolatile,永久性。

数据一旦写入NV,即使掉电也不会丢掉,下次重启,仍然会保留原有设置。

O

OP

Operator,算子。

操作运算,比如AI的ReLU、Conv、Pooling、Scale、Softmax等。

OPAT

Operator Auto Tuning,算子调优。

OPAT是一种提升算子性能的优化器。AOE将一张整图输入给OPAT,OPAT内部进行算子融合,将融合得到的图进行算子粒度切分,针对每一个融合算子子图生成不同的算子调优策略,从而实现最优的算子性能,并将得到的最优策略保存在算子知识库。

OPP

Operator Package,算子库。

OS

Operating System,操作系统。

OTG

On-The-Go。

主要应用于各种不同的设备间的联接,进行数据交换。

P-T

术语/缩略语

含义

P

PCB

Printed Circuit Board,印刷电路板。

含有按预先设计形成的印制元件或印制线路以及两者结合的导电图形的印制板。

PCIe

Peripheral Component Interconnect Express,快捷外围部件互连标准。

PCIe属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。

PMU

Performance Monitor Unit,性能监视单元。

PMU是CPU提供的一个单元,属于硬件的范畴。PMU通过访问相关的寄存器能读取到CPU的一些性能数据。

PNGD

PNG Decoder,PNG图像解码器。

提供对PNG格式的图像进行解码的能力。

PTQ

Post-Training Quantization,训练后量化。

在模型训练结束之后进行的量化,对训练后模型中的权重由浮点数量化到低比特整数,并通过少量校准数据基于推理过程对数据(activation)进行校准量化,从而尽可能减少量化过程中的精度损失

PWM

Pulse Width Modulation,脉冲宽度调制。

脉冲载波的脉冲持续时间脉宽随调制波的样值而变的脉冲调制方式。

PyNative模式

MindSpore的动态图模式,将神经网络中的各个算子逐一下发执行,方便用户编写和调试神经网络模型。

QAT

Quantization-Aware Training,量化感知训练。

在重训练过程中引入量化,通过重训练提高模型对量化效应的能力,从而获得更高的量化模型精度的一种量化方式。

R

RAM

Random Access Memory,随机存储器。

基于半导体的可被CPU或者其他硬件设备读写的内存。可以任何顺序访问存储位置。

RC

Root Complex,根组件。

在PCI Express(PCIe)系统中,根组件设备将处理器和存储器子系统连接到由一个或多个交换设备组成的PCI Express交换结构。类似于PCI系统中的主机桥,根组件代表处理器生成事务请求,处理器通过本地总线互连。根组件功能可以实现为分立设备,或者可以与处理器集成。

RDMA

Remote Direct Memory Access,远程直接内存访问技术,它将数据直接从一台机器的内存传输到另一台机器,无需双方操作系统的介入,一般指可以跨过网络的内存访问方式。

RelativeEuclideanDistance

欧氏相对距离算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

RGMII

Reduced Gigabit Media Independent Interface,精简的千兆比媒介独立接口。

RoCE

RDMA over Converged Ethernet,承载在融合以太网上的RDMA技术,即跨越以太网的RDMA通信方式。

RootMeanSquareError

均方根误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。

  • MeanAbsoluteError趋于0,RootMeanSquareError趋于0,说明测量值与真实值越近似。
  • MeanAbsoluteError趋于0,RootMeanSquareError越大,说明存在局部过大的异常值。
  • MeanAbsoluteError越大,RootMeanSquareError等于或近似MeanAbsoluteError,说明整体偏差越集中。
  • MeanAbsoluteError越大,RootMeanSquareError越大于MeanAbsoluteError,说明存在整体偏差,且整体偏差分布分散。
  • 不存在以上情况的例外情况,因为RMSE ≥ MAE恒成立。

Runtime

Runtime运行于APP进程空间,为APP提供了针对昇腾AI处理器设备的Memory管理、Device管理、Stream管理、Event管理、Kernel执行等功能。

S

Scalar

标量,一般表示一个常数。

SDMA

System Direct Memory Access,系统直接内存访问技术,简称DMA,允许外围设备直接访问系统内存,而不需要CPU的干预。

SDK

Software Development Kit,软件开发工具包。

一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。

SGAT

SubGraph Auto Tuning,子图调优。

SGAT是一种提升子图性能的优化器。一张完整的网络,会被拆分成多个子图。针对每一个子图,通过SGAT生成不同的调优策略。SGAT的调优算法通过获取每个迭代的调优策略性能数据,找到最优的调优策略,从而实现对应子图的最优性能。

SoC

System on Chip,片上系统。

这是ENP成本低的关键技术,通过强大的芯片技术能力,把一个交换机单板的包转发功能全部集成到了一个芯片中,获得了软件灵活性+交换机的低成本。

SPI

Serial Peripheral Interface,串行外设接口。

SPI总线系统是一种同步串行外设接口,它可以使MCU(Microcontroller Unit,微控制单元)与各种外围设备以串行方式进行通信以交换信息。

StandardDeviation

标准差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。标准差越小,离散度越小,表明越接近平均值。

STARS

System Task and Resource Scheduler,系统任务和资源调度器。

T

TBE

Tensor Boost Engine,张量加速引擎。

提供通过Python语言实现算子的接口,能够编译生成CCE算子。

TEE

Trusted Execution Environment,可信执行环境。

在ARM Trustzone的硬件隔离环境基础上,结合硬件可信根设计,实现安全启动、安全存储、安全升级、安全运行等功能,为系统提供可信的基础运行环境。

Tensor

张量。

TensorFlow框架中的主要数据结构。张量是N维(其中N可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

Tensor比对

张量比对,两个张量之间进行不同算法评价指标的数据比对操作,支持整网比对和单算子比对。

TOPS

Trillion operations per second,每秒万亿次的运算。

用于衡量CPU、GPU、NPU的计算能力。

TS

Task Scheduler,任务调度。

通过Task Schedule分发不同的kernel到AI CPU/AI Core执行。

TVM

Tensor Virtual Machine,张量虚拟机。

TVM提供内置算子和自定义算子扩展。支持Caffe、Tensorflow等开源框架。

图模式

MindSpore的静态图模式,将神经网络模型编译成一整张图,然后下发执行。该模式利用图优化等技术提高运行性能,同时有助于规模部署和跨平台运行。

U-Z

术语/缩略语

含义

U

UART

Universal Asynchronous Receiver/Transmitter,通用异步收发传输器。

用于控制计算机与串行设备的芯片。它提供了RS-232C数据终端设备接口,这样计算机就可以和调制解调器或其它使用RS-232C接口的串行设备通信。

Unified Buffer/UB

统一缓冲区,AI Core内部存储单元,用于存储向量和标量计算的输入和输出。

UDF

User Define FlowFunction,用户自定义功能。

V

VCM

Video Content Management,视频内容管理系统。

视频内容管理平台,依托于领先的智能图像处理及大数据分析技术,定位与视频结构化分析能力平台,提供高性能硬件、丰富的算法集成接口,有效提升图像侦查效率及业务协同能力,协助案件快速侦破,助力全球城市安全。

VDEC

Video Decoder,视频解码器。

提供对特定格式的视频进行解码的能力。

VENC

Video Encoder,视频编码器。

提供对特定格式的视频进行编码的能力。

VECTOR

AI Core上的Vector计算单元,负责执行向量运算。

VPC

Vision Preprocessing Core,视觉预处理核心。

提供对图像进行缩放、色域转换、降bit数处理、存储格式转换、区块切割转换等能力。

Y

YUV

Luminance-Chrominance,明亮度-带宽-色度。

Y表示明亮度(Luminance),即灰阶值,U和V表示色度(Chrominance),描述影像色彩及饱和度,用于指定像素的颜色。

Z

整网比对

精度比对工具里Tensor比对的一种方式。对网络模型中参与计算的所有算子进行精度比对。