昇腾社区首页
中文
注册
开发者
下载

昇腾术语表

A

术语/缩略语

含义

AccDECS

Accelerator for Device Edge Cloud Synergy,端边云协同加速器。

AccumulatedRelativeError

累积相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

Accuracy Comparison

精度比对。

通过NPU运行生成的dump数据与Ground Truth(基于GPU/CPU运行生成的npy数据)进行比对。实现自主研发算子与业界标准算子运算结果的差异比较。

ACP

Async Checkpoint Persistence,异步CheckPoint保存。

AI

Artificial Intelligence,人工智能。

研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

AI Core

昇腾AI处理器的计算核心,负责执行矩阵、矢量、标量计算密集的任务。使用Ascend C编程语言开发的算子运行在AI Core上。

AI CPU

昇腾AI处理器上提供的用于通用计算的CPU,主要负责AI CPU算子计算和确定性任务的调度。

AIPP

Artificial Intelligence Pre-Processing,AI预处理。

AIPP用于在AI Core上完成图像预处理,包括改变图像尺寸、色域转换(转换图像格式)、减均值/乘系数(改变图像像素),数据处理之后再进行真正的模型推理。

AMCT

Ascend Model Compression Toolkit,昇腾模型压缩工具。

是一个针对昇腾芯片亲和的深度学习模型压缩工具包,提供量化、张量分解等多种模型压缩特性,压缩后模型体积变小,部署到昇腾AI处理器上后可使能低比特运算,提高计算效率,达到性能提升的目标。

AMP

Asymmetric multiprocessing,非对称多重处理。

一种多元处理的架构。在这种架构下,存在多个处理器;每个中央处理器在某个特定时间内,被指定一个特定的任务去执行。在对称多处理系统还没完全发展好之前,它曾被视为是一种软件的权宜之计,可以用来让多个处理器同时运作。在对称多处理系统开发好之后,现今它仍然被视为是一个较简单廉价的软件选项。

AMP

Automatic Mixed Precision,自动混合精度。

AMP混合精度训练是深度学习中一种提高训练速度和效率的技术。它通过结合使用不同精度的数值格式来实现,通常包括浮点数的低精度版本(如半精度FP16)和高精度版本(如单精度FP32)。

AOE

Ascend Optimization Engine,昇腾调优引擎。

用于封装调优过程中的ATC编译及AscendCL运行服务接口,提供并行调优功能。

AOL

Ascend Operator Library,昇腾算子库。

ARM

Advanced RISC Machine,进阶精简指令集机器。

ARM处理器是Acorn有限公司面向低预算市场设计的第一款RISC微处理器。全称为Acorn RISC Machine。ARM处理器本身是32位设计,但也配备16位指令集,一般来讲比等价32位代码节省达35%,却能保留32位系统的所有优势。

ARP

Address Resolution Protocol,地址解析协议。

将IP地址映射为MAC地址的互联网协议,允许主机和路由器通过ARP请求和ARP回应确定链路层地址。

AscendCL

Ascend Computing Language,昇腾编程语言。

提供运行时管理、单算子调用、模型推理、媒体数据处理等API,能够实现利用底层硬件计算资源,在CANN平台上进行深度学习推理计算、图形图像预处理、单算子加速计算等。

Ascend EP

Ascend Endpoint,昇腾AI处理器作为终端节点(从控节点)。

通常由Host侧作为主端,Device侧作为从端。客户的AI业务程序运行在Host系统中,昇腾产品作为Device系统以PCIe从设备接入Host系统,Host系统通过PCIe通道与Device系统交互,将AI任务加载到Device侧的昇腾AI处理器中运行。

Ascend IR

Ascend Intermediate Representation,昇腾AI处理器专用的、用于表达计算流程的抽象数据结构。在昇腾文档中,若无特殊说明,IR默认指代Ascend IR。

Ascend RC

Ascend Root Complex,昇腾AI处理器作为根组件(主控节点)。

产品的CPU直接运行用户指定的AI业务软件,网络摄像头、I2C传感器、SPI显示器等其他外挂设备作为从设备接入产品。

ASLR

Address Space Layout Randomization,内存地址随机化机制。

ATB

Ascend Transformer Boost,是一款基于昇腾AI处理器,专门为Transformer模型的训练和推理而设计的加速库。

ATC

Ascend Tensor Compiler,昇腾张量编译器。

是异构计算架构CANN体系下的模型转换工具, 它可以将开源框架的网络模型以及Ascend IR定义的单算子描述文件(json格式)转换为昇腾AI处理器支持的.om格式离线模型。模型转换过程中,ATC会进行算子调度优化、权重数据重排、内存使用优化等具体操作,对原始的深度学习模型进行进一步的调优,从而满足部署场景下的高性能需求,使其能够高效执行在昇腾AI处理器上。

AVI

Ascend Virtual Instance,昇腾虚拟化实例。

指通过资源虚拟化技术将1个NPU切分成若干个vNPU(虚拟NPU)实例挂载到虚拟机或容器中使用,使得1个NPU同时支持多个计算调度任务。实现了资源虚拟化复用并保证了资源的安全隔离,大大降低了用户使用NPU算力的门槛和成本。并且支持多租户按需进行资源申请或回收管理。AVI等同于算力切分。

B

术语/缩略语

含义

Backend

模型执行器,推理服务化框架后端对接模型推理层模块。

Batch

批次,模型训练的一次迭代(即一次梯度更新)中使用的样本集。

Batch size

批处理大小,一个批次中的样本数量。

BIU

Bus Interface Unit,总线接口单元。AI Core与总线交互的接口。

BIOS

Basic Input Output System,基本输入输出系统。

存于计算机主板上的一种固件,包括基本输入输出控制程序、上电自检程序、系统启动自举程序、系统设置信息,为计算机提供底层的硬件设置和控制功能。

BLAS

Basic Linear Algebra Subprograms,基础线性代数子程序。

基本线性代数子程序(BLAS) 为高性能计算提供了一套方便的算法软件工具。

BOM

Bill of Materials,物料清单。

为了制造最终产品所使用的文件,内容记载原物料清单、主/副加工流程、各部位明细、半成品与成品数量等资讯。通常作为代工双方联系的文件或是公司内部沟通的文件。

BP Point

Back Propagation Point,训练网络迭代轨迹反向算子的结束位置。

C

术语/缩略语

含义

CA

Certificate Authority,证书认证机构。

CANN

Compute Architecture for Neural Networks,异构计算架构。

CANN是昇腾针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供高效易用的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。

CC

Cluster Computing,集群计算。

CCAE

Cluster Computing Autonomous Engine,集群自智引擎。

CNN

Convolutional Neural Network,卷积神经网络。

是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。

CosineSimilarity

余弦相似度算法。

精度比对算法之一,计算结果取值范围为[-1,1],比对的结果如果越接近1,表示两者的值越相近,越接近-1意味着两者的值越相反。

Cube

AI Core上的Cube计算单元,负责执行矩阵运算。Cube每次执行可完成两个float16类型的16x16矩阵的乘法操作。

Container

container,容器。

容器是一种操作系统虚拟化形式,可以使用一个容器来运行从小型微服务或软件进程到大型应用程序的所有内容。容器包含所有必要的可执行文件、二进制代码、库和配置文件。

CPU

Central Processing Unit,中央处理器。

CRI

Container Runtime Interface,容器运行时接口。

CRD

Custom Resource Definition,自定义资源定义。

D

术语/缩略语

含义

Daemon

在linux或者unix操作系统中,守护进程(Daemon)是一种运行在后台的特殊进程,它独立于控制终端并且周期性的执行某种任务或等待处理某些发生的事件。由于在linux中,每个系统与用户进行交流的界面称为终端,每一个从此终端开始运行的进程都会依附于这个终端,这个终端被称为这些进程的控制终端,当控制终端被关闭的时候,相应的进程都会自动关闭。但是守护进程却能突破这种限制,它脱离于终端并且在后台运行,并且它脱离终端的目的是为了避免进程在运行的过程中的信息在任何终端中显示并且进程也不会被任何终端所产生的终端信息所打断。它从被执行的时候开始运转,直到整个系统关闭才退出。

DataFlow

用于描述完整的计算流,该计算流由一个或多个计算处理点采用数据队列以数据驱动方式组成。

DCMI

Davinci Card Management Interface,设备管理接口。

DDP

Distributed Data Parallel,分布式数据并行。

DDR

Double Data Rate,双倍数据速率。

严格的说DDR应该叫DDR SDRAM,人们习惯称为DDR,其中,SDRAM是Synchronous Dynamic Random Access Memory的缩写,即同步动态随机存取存储器。而DDR SDRAM是Double Data Rate SDRAM的缩写,是双倍速率同步动态随机存储器的意思。DDR内存是在SDRAM内存基础上发展而来的,仍然沿用SDRAM生产体系,因此对于内存厂商而言,只需对制造普通SDRAM的设备稍加改进,即可实现DDR内存的生产,可有效的降低成本。

与传统的单数据速率相比,DDR技术实现了一个时钟周期内进行两次读/写操作,即在时钟的上升沿和下降沿分别执行一次读/写操作。

DECS

Device Edge Cloud Synergy,端边云协同。

DL

Deep Learning,深度学习。

是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

DMA

Direct Memory Access,直接内存访问。

是所有现代电脑的重要特色,它允许不同速度的硬件装置来沟通,而不需要依赖于CPU的大量中断负载。

DP

Data Parallelism,数据并行。

数据并行是大规模深度学习训练中常用的并行模式,它会在每个进程(设备)中维护完整的模型和参数, 但在每个进程上处理不同的数据。

DPC

Distributed Parallel Client,分布式并行客户端。

DRAM

Dynamic Random Access Memory,动态随机存储器。

DRAM是计算机主存储器的一种形式,用于临时存储CPU需要处理的数据和指令。

DSL

Domain Specific Language,领域专用语言。

算子开发方式之一,用户仅需要使用DSL接口完成计算过程的表达,后续的算子调度、算子优化及编译都可通过已有的接口一键式完成。

DSCP

Differentiated Services Code Point,区分服务编码点。

根据Diff-Serv(Differentiated Service)的QoS分类标准,在每个数据包IP头部的服务类别TOS字节中,利用已使用的6比特和未使用的2比特,通过编码值来区分优先级。DSCP是TOS字节中已使用6比特的标识,是“IP 优先”和“服务类型”字段的组合。为了利用只支持“IP 优先”的旧路由器,会使用DSCP值,因为DSCP值与“IP 优先”字段兼容。每一个DSCP编码值都被映射到一个已定义的PHB(Per-Hop-Behavior)标识码。通过键入DSCP值,终端设备可对流量进行标识。

带宽

网络中传输线路或通道能够承载的传输频率的范围。它实际上是传输线路或者通道上最高和最低频率之间的差。带宽越大,数据传输越快。

单算子比对

精度比对工具里Tensor比对的一种方式。选择网络模型中一个或多个参与计算的算子进行精度比对。

E

术语/缩略语

含义

ECC

Error Checking and Correction,错误检查和纠错技术。

该技术在原来的数据位中增加校验位,通过检验位来检测数据错误,并具备错误纠正能力。

eMMC

Embedded Multimedia Card,多媒体存储卡。

是一种新的存储技术,外部提供的接口和SD卡接口类似,内部存储介质为Flash,并且内建坏块管理系统。

Epoch

数据集的一次完整遍历。

EULA

End User License Agreement,华为企业业务最终用户许可协议。

ESN

Equipment Serial Number,设备序列号。

唯一标识设备的字符串,用以保证将License授权给指定设备的关键,又称“设备指纹”。

EndPoint

推理服务化协议和接口封装,兼容Triton/OpenAI/TGI/vLLM第三方框架接口。

F

术语/缩略语

含义

Faiss

Facebook开源检索框架。

FEC

Forward Error Correction,前向纠错编码。

一种通信技术,在数据传输过程中通过添加冗余数据来纠正传输错误。

FFT

Fast Fourier Transform,快速傅里叶变换。

快速傅里叶变换 (FFT) 是一种计算序列的离散傅立叶变换(DFT)或其逆变换(IDFT)的算法。傅里叶分析将信号从其原始域(通常是时间或空间)转换为频域中的表示,反之亦然。

FFTS

Function Flow Task Scheduler,函数流任务调度。

这是一种全新的基于数据流驱动的并行调度机制。它提供了子图DMU机制,去除子图内不必要的DMA拷贝开销,同时提供了sub task的thread切分和thread间并行调度机制,以尽可能并行AIC/AIV硬件资源,达到算子间融合效果。

Flash Attention

Flash Attention融合算子是一种应用于模型加速的具有IO感知的精确注意力算法,它无需任何近似即可加速注意力计算并减少内存占用。

Flash Attention融合算子在大语言模型中广泛使用,例如LLaMA、GPT3等。

FLOPS

Floating-Point Operations Per Second,每秒所执行的浮点运算次数。

常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。

FP Point

Forward Propagation Point,训练网络迭代轨迹正向算子的开始位置。

FUSE

Filesystem in Userspace,用户空间文件系统。

FUSE是操作系统中的概念,指完全在用户态实现的文件系统。目前Linux通过内核模块对此进行支持。一些文件系统如ZFS,glusterfs和lustre使用FUSE实现。

G

术语/缩略语

含义

GDAT

Gradient Auto Tuning,梯度自动调优。

GDAT是通过最大化反向计算与梯度聚合通信并行度,缩短通信拖尾时间的优化工具。分布式训练场景下,各个设备之间计算梯度后执行梯度聚合操作,梯度聚合算子的融合策略会影响反向计算结束后的通信拖尾时间,从而影响集群训练的性能和线性度。

GDB

GNU Debugger,GNU工程调试器。可以监控其它程序运行时的内部情况,或者其它程序要崩溃时发生了什么。GDB支持如下四种主要操作(使PDK功能更加强大),辅助查找缺陷。

  • 启动程序,指定可能影响行为的任何因素。
  • 特定条件下,停止程序。
  • 程序停止时,检查发生了什么。
  • 修改程序内容,尝试纠正一个缺陷并继续下一个。

GE

Graph Engine,图引擎。

提供了Graph/Operator IR作为安全易用的构图接口集合,用户可以调用这些接口构建网络模型,设置模型所包含的图、图内的算子、以及模型和算子的属性。

Global Memory/GM

设备端的主内存,AI Core的外部存储,用于存储大规模数据,但需要优化访问模式以提升性能。

GMIS

General Model Inference Scheduler,通用模型推理调度器。

GMIS是一个用于模型推理的调度器。它在大型模型训练中起着关键作用,旨在减少计算资源的空闲时间,提高计算资源的利用率,从而加快模型训练和模型推理的进度模型推理调度器,提供各种模型调度能力。

GRPC

Google Remote Procedure Call,Google远程过程调用协议。

管理面

健康状态信息接口所处的平面。

H

术语/缩略语

含义

HCC

Huawei Compiler Collection,华为编译器。

HCCL

Huawei Collective Communication Library,华为集合通信库。

HCCL提供了深度学习场景中服务器间高性能集合通信的功能。

HCCP

Huawei Collective Communication adaptive Protocol,集合通信适配协议。

提供跨NPU设备通信能力,向上屏蔽具体通讯协议差异。

HCCS

Huawei Cache Coherence System,华为缓存一致性系统。

HCCS用于CPU/NPU之间的高速互联。

HDC

Host Device Communication,主机设备通信。

用于Host和Device之间通信模块,在Host和Device里面均有部署。

HDK

Hardware Developer Kit,硬件开发工具包。

HDR

High Dynamic Range,高动态范围。

摄影术语,用来描述媒体应用,如数字影像和数字音频。

HPA

Horizontal Pod Autoscaler,Pod水平自动扩缩。

在Kubernetes中,HorizontalPodAutoscaler自动更新工作负载资源(例如Deployment或者StatefulSet),目的是自动扩缩工作负载以满足需求。

HPO

Hyperparameter Optimization,超参数优化。

是指用自动化的算法来优化原机器学习/深度学习算法中无法通过训练来优化的超参数,如学习率、激活函数、优化器等。

I

术语/缩略语

含义

ICS

Intellectual Collaborative Service,智能协同服务。

IFU

Instruction Fetch Unit,取指单元。

IMU

I/O Board Management Unit,IO板管理单元。

IOPS

Input/Output Operations Per Second,每秒输入/输出的运算次数。

这是衡量计算机存储设备性能的一个重要指标。

IPC

IP Camera,网络摄像机。

ISP

Image Signal Processing,图像信号处理。

主要用来对前端图像传感器输出信号处理的单元,以匹配不同厂商的图像传感器。

ISV

Independent Software Vendor,独立软件开发商。

J

术语/缩略语

含义

JDK

Java Software Development Kit,Java软件开发包。

基于Java的软件开发工具集合。

JPEGD

JPEG Decoder,JPEG图像解码器。

提供对JPEG格式的图像进行解码的能力。

JPEGE

JPEG Encoder,JPEG图像编码器。

提供对图像进行编码输出为JPEG格式的能力。

K

术语/缩略语

含义

KMC

Key Management CBB,密钥管理组件。

为实现密钥管理的代码共享、简化开发而设计的密钥管理模块,该模块实现了密钥的加密保存、加密解密等基本功能,方便产品快速集成密钥功能。

KMC

Key Management Center,密钥管理系统。

KMC用于管理和保护加密算法中使用的密钥。它可以为企业或组织提供安全的密钥存储、密钥分发、密钥轮换、密钥备份和密钥恢复等功能。KMC秘钥库可以确保密钥的安全性和可靠性,防止密钥泄露、丢失或被篡改。同时,KMC秘钥库还可以支持多种加密算法和密钥长度,满足不同应用场景的需求。

KullbackLeiblerDivergence

KL散度算法。

精度比对算法之一,计算结果取值范围为0到无穷大。KL散度越小,真实分布与近似分布之间的匹配越好。

Kubernetes

Kubernetes是用于自动部署、扩展和管理容器化(containerized)应用程序的开源系统。它旨在提供“跨主机集群的自动部署、扩展以及运行应用程序容器的平台”。

L

术语/缩略语

含义

L0A Buffer

AI Core内部物理存储单元,通常用于存储矩阵计算的左矩阵,与逻辑内存AscendC::TPosition::A2相对应。

L0B Buffer

AI Core内部物理存储单元,通常用于存储矩阵计算的右矩阵,与逻辑内存AscendC::TPosition::B2相对应。

L0C Buffer

AI Core内部物理存储单元,通常用于存储矩阵计算的结果,与逻辑内存AscendC::TPosition::CO1相对应。

L1 Buffer

AI Core内部物理存储单元,空间相对较大,通常用于缓存矩阵计算的输入数据。 矩阵计算的输入一般需要从GM搬运到L1 Buffer,然后分别搬运到L0A Buffer和L0B Buffer。L1Buffer与逻辑内存AscendC::TPosition::A1、AscendC::TPosition::B1相对应。

L2 Cache

Second Level Cache,二级缓存。

在访问内存之前调用的共享第二级别缓存通常称为二级缓存。

LLDP

Link Layer Discovery Protocol,链路层发现协议。

链路层发现协议是IEEE 802.1ab中定义的第二层发现协议。通过采用LLDP技术,在网络规模迅速扩大时,网管系统可以快速掌握二层网络拓扑信息、拓扑变化信息。

LLM

Large Language Model,大语言模型。

大语言模型是一种语言模型,由具有许多参数(通常数十亿个权重或更多)的人工神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。

Local Memory

AI Core的内部存储,包括L1 Buffer、L0A Buffer、L0B Buffer、L0C Buffer、Unified Buffer等存储单元。

Loss

损失,预测值与实际值的偏差,深度学习用于判断模型好坏的一个标准。

LTO

Link Time Optimization,链接时优化。

链接时优化是编译器在链接时对程序进行的一种程序优化。

邻接表

主要出现在图论和计算机科学领域中。邻接表是一种用于表示图的数据结构,其中每个顶点都存储一个链接列表或数组,列出与其相邻的所有顶点。

M

术语/缩略语

含义

MAC

Media Access Control Address,媒体接入控制。

该协议位于OSI七层协议中数据链路层的下半部分,主要负责控制与连接物理层的物理介质。在发送数据的时候,MAC协议可以事先判断是否可以发送数据,如果可以发送将给数据加上一些控制信息,最终将数据以及控制信息以规定的格式发送到物理层;在接收数据的时候,MAC协议首先判断输入的信息是否发生传输错误,如果没有错误,则去掉控制信息发送至LLC层。

MaxAbsoluteError

最大绝对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

MaxRelativeError

最大相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

MCU

Micro Controller Unit,微控制器单元。

一种集成电路,集成了处理器、存储器和输入输出接口等多种功能模块。

MeanAbsoluteError

平均绝对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。

  • MeanAbsoluteError趋于0,RootMeanSquareError趋于0,说明测量值与真实值越近似。
  • MeanAbsoluteError趋于0,RootMeanSquareError越大,说明存在局部过大的异常值。
  • MeanAbsoluteError越大,RootMeanSquareError等于或近似MeanAbsoluteError,说明整体偏差越集中。
  • MeanAbsoluteError越大,RootMeanSquareError越大于MeanAbsoluteError,说明存在整体偏差,且整体偏差分布分散。
  • 不存在以上情况的例外情况,因为RMSE ≥ MAE恒成立。

MeanRelativeError

平均相对误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

MemFS

Memory File System,内存文件系统。

MindIE

Mind Inference Engine,昇腾推理引擎。基于昇腾硬件的运行加速、调试调优、快速迁移部署的高性能深度学习推理框架,分层开放满足各类需求,统一接口使能极简开发,沉淀能力构筑极致性能

MindFormers

MindSpore Transformers,基于MindSpore框架的大模型全流程套件。

支持大模型训练、微调、评估、推理和部署。

MindIO

内存缓存系统,可以提升训练CheckPoint读写速度。

minio

基础对象存储服务组件。

MLP

Multilayer Perceptron,多层感知器。

多层感知器是一种前向结构的人工神经网络,它由输入层、一个或多个隐藏层和输出层组成。MLP可以用于解决各种问题,如分类、回归等,由于其强大的表达能力,MLP在许多领域中都有广泛的应用,例如图像识别、自然语言处理等。

MoE

Mixture-of-Experts,混合专家系统,是一种用于训练万亿参数量级模型的技术。MoE将预测建模任务分解为若干子任务,在每个子任务上训练一个专家模型(Expert Model),开发一个门控模型(Gating Model),该模型会根据输入数据分配一个或多个专家,最终综合多个专家计算结果作为预测结果。

msDebug

算子调试。

提供基于昇腾处理器的原生环境调试能力,实现灵活的变量展示。支持算子功能调试,单步调试(上板&仿真)等功能。

msKPP

算子设计。算子理论性能建模和模板库算子性能调优工具。

在性能建模阶段,工具会内置算子API性能数据,支持用户在设计阶段表达算子实现算法并评估性能。

在模板库算子性能调优阶段,提供模板库Kernel下发代码生成、编译、运行的能力,同时提供Kernel内代码替换并自动调优的能力。

msProf

算子调优。

提供上板和仿真的性能数据采集方式,并通过MindStudio Insight进行可视化呈现,方便用户快速定位算子性能瓶颈。

msproftx

msprof tool extension,MindStudio系统调优工具扩展。

msSanitizer

异常检测。

算子异常检测工具,提供内存检测和竞争检测能力,支持多核程序下的内存问题的精准定位。

MTE

Memory Transfer Engine,内存传输引擎。

MTE也被称作LSU(Load Store Unit),负责AICore内部数据在不同Buffer之间的读写管理,以及完成一些格式转换的操作。

MTE1

Memory Transfer Engine 1,AI Core的数据传递引擎,负责将数据从L1 Buffer搬运到L0A Buffer或L0B Buffer等。注意:不同硬件能力可能有差异。

MTE2

Memory Transfer Engine 2,AI Core的数据传递引擎,负责将数据从GM搬运到L1 Buffer、L0A Buffer、L0B Buffer、Unified Buffer等。注意:不同硬件能力可能有差异。

MTE3

Memory Transfer Engine 3,AI Core的数据传递引擎,负责将数据从Unified Buffer搬运到Global Memory、L1 Buffer等。注意:不同硬件能力可能有差异。

MTU

Maximum Transmission Unit,最大传输单元。

在网络中能够传输的最大数据报文。大小根据网络可变,如在X.25网络中是576字节,以太网中是1500字节,16Mbit/s令牌环中是17914字节。MTU大小取决于网络的链路层。当报文在网络上传输时,路径MTU,即PMTU确定了相关网络中最小报文尺寸,即所有网络能够不分段传输的报文大小。

N

术语/缩略语

含义

NCS

Neural Compute Server,神经计算服务器。

NCS封装AscendCL运行服务接口,可接受外部远程上板请求,并且返回对应的性能数据。

NIC

Network Interface Controller,网络接口控制器。

也称为网络接口卡,网络适配器,LAN适配器,以及类似术语。是将计算机连接到计算机网络的计算机硬件组件。

NLP

Natural Language Processing,自然语言处理。

是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言,自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

NN

Neural Network,神经网络。

在机器学习和认知科学领域,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。

NPU

Neural-Network Processing Unit,神经网络处理器单元。采用“数据驱动并行计算”的架构,专门用于处理人工智能应用中的大量计算任务。

NUMA

Non Uniform Memory Access Architecture,非一致性内存访问。

NUMA模式是一种分布式存储器访问方式,处理器可以同时访问不同的存储器地址,大幅度提高并行性。该模式下,处理器被划分成多个“节点”(node),每个节点分配一块本地存储器空间。所有节点中的处理器都可以访问全部的物理存储器,但是访问本节点内的存储器所需要的时间,比访问某些远程节点内的存储器所花的时间要少得多。

NVMe

Non-Volatile Memory express,非易失性内存主机控制器接口规范。

是一个逻辑设备接口规范。它是基于设备逻辑接口的总线传输协议规范(相当于通讯协议中的应用层),用于访问通过PCI Express(PCIe)总线附加的非易失性存储器介质(例如采用闪存的固态盘机)。

O

术语/缩略语

含义

om

offline model,离线模型。

ONNX

Open Neural Network Exchange,开放神经网络交换。

ONNX是一种针对机器学习所设计的开放式的文件格式,用于存储训练好的模型。它使得不同的人工智能框架可以采用相同格式存储模型数据并交互。

OOM

Out Of Memory,内存不足。

OP

算子(Operator,简称OP),是深度学习算法中执行特定数学运算或操作的基础单元,例如激活函数(如ReLU)、卷积(Conv)、池化(Pooling)以及归一化(如Softmax)。通过组合这些算子,可以构建神经网络模型。

OPAT

Operator Auto Tuning,算子自动调优。

OPAT是一种提升算子性能的优化器。AOE将一张整图输入给OPAT,OPAT内部进行算子融合,将融合得到的图进行算子粒度切分,针对每一个融合算子子图生成不同的算子调优策略,从而实现最优的算子性能,并将得到的最优策略保存在算子知识库。

OpenPGP

Open Pretty Good Privacy,开放优良保密协议

PGP(Pretty Good Privacy)是一个加密程序,为数据通信提供了加密和验证功能。PGP通常用于签名、加密和解密文本、电子邮件和文件。OpenPGP是一种非专有协议,为加密消息、签名、私钥和用于交换公钥的证书定义了统一标准。

OPP

Operator Package,算子库。

OS

Operating System,操作系统。

OS

Optimizer State,优化器状态。

OCI

Open Container Initiative,开放容器计划。

Linux基金会于2015年6月成立OCI组织,旨在围绕容器格式和运行时制定一个开放的工业化标准。

P

术语/缩略语

含义

PCIe

Peripheral Component Interconnect Express,外设组件快速互连。

一种串行外设扩展总线标准,常用于计算机系统中的外设扩展。

PCB

Printed Circuit Board,印刷电路板。

PFC

Priority-based Flow Control,基于优先级的流量控制。

一种基于优先级的流控机制。

PMU

Performance Monitor Unit,性能监视单元。

PMU是CPU提供的一个单元,属于硬件的范畴。PMU通过访问相关的寄存器能读取到CPU的一些性能数据。

PNGD

PNG Decoder,PNG图像解码器。

提供对PNG格式的图像进行解码的能力。

Pod

Pod是Kubernetes中可以创建的最小部署单元,也是Kubernetes REST API中的顶级资源类型。

Prometheus

Prometheus是一个开源系统,能够提供一套产品化的、用来量化管理技术、业务的解决方案。

PP

Pipeline Parallelism,流水线并行。

流水线并行将模型的不同层放置到不同的计算设备,降低单个计算设备的显存消耗,从而实现超大规模模型训练。

PWM

Pulse Width Modulation,脉冲宽度调制。

脉冲载波的脉冲持续时间脉宽随调制波的样值而变的脉冲调制方式。

片上内存

集成在微处理器芯片上的存储器。

Q

术语/缩略语

含义

QAT

Quantization-Aware Training,量化感知训练。

在重训练过程中引入量化,通过重训练提高模型对量化效应的能力,从而获得更高的量化模型精度的一种量化方式。

R

术语/缩略语

含义

RDMA

Remote Direct Memory Access,远程直接内存访问技术,它将数据直接从一台机器的内存传输到另一台机器,无需双方操作系统的介入,一般指可以跨过网络的内存访问方式。

RelativeEuclideanDistance

欧氏相对距离算法。

精度比对算法之一,计算结果取值范围为0到无穷大,值越接近于0,表明越相近,值越大,表明差距越大。

RoCE

RDMA over Converged Ethernet,RDMA融合以太网。

RoCE是一种网络协议,允许通过以太网使用远程直接内存访问(RDMA)。目前存在两个RoCE版本,分别是RoCE v1和v2。RoCE v1是数据链路层协议,允许在同一个以太网广播域内的任意两台主机之间通信。RoCE v2是网络层协议,其报文可以被路由。

RootMeanSquareError

均方根误差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。

  • MeanAbsoluteError趋于0,RootMeanSquareError趋于0,说明测量值与真实值越近似。
  • MeanAbsoluteError趋于0,RootMeanSquareError越大,说明存在局部过大的异常值。
  • MeanAbsoluteError越大,RootMeanSquareError等于或近似MeanAbsoluteError,说明整体偏差越集中。
  • MeanAbsoluteError越大,RootMeanSquareError越大于MeanAbsoluteError,说明存在整体偏差,且整体偏差分布分散。
  • 不存在以上情况的例外情况,因为RMSE ≥ MAE恒成立。

Runtime

为应用程序提供了针对昇腾AI处理器的内存管理、Device管理、Stream管理、Event管理、Kernel加载与执行等功能。

RAM

Random Access Memory,随机存取存储器。

基于半导体的可被CPU或者其他硬件设备读写的内存。可以任何顺序访问存储位置。

runC

runC是一个根据OCI(Open Container Initiative)标准创建并运行容器的client工具。

RoPE

Rotary Position Embedding,旋转式位置嵌入。

一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。

S

术语/缩略语

含义

Scalar

AI Core上的标量计算单元,主要负责标量数据运算和对其他单元(如MTE数据搬运单元、Vector矢量计算单元、Cube矩阵计算单元)的指令发射。

SDMA

System Direct Memory Access,系统直接内存访问技术,简称DMA,允许外围设备直接访问系统内存,而不需要CPU的干预。

SiP

AscendSiPBoost,信号处理加速库。

信号处理加速库面向AI模型场景(支持Pytorch调用)和信号处理场景(支持C++直调),提供一系列信号处理领域相关的高性能算子。

SGAT

SubGraph Auto Tuning,子图自动调优。

SGAT是一种提升子图性能的优化器。一张完整的网络,会被拆分成多个子图。针对每一个子图,通过SGAT生成不同的调优策略。SGAT的调优算法通过获取每个迭代的调优策略性能数据,找到最优的调优策略,从而实现对应子图的最优性能。

SPI

Serial Peripheral Interface,串行外设接口。

SPI总线系统是一种同步串行外设接口,它可以使MCU(Microcontroller Unit,微控制单元)与各种外围设备以串行方式进行通信以交换信息。

SP

Sequence Paralleism,序列并行。

序列并行是一种针对输入序列进行列切分的并行计算方式,它可以在张量并行的基础上进一步提高计算效率。序列并行并不会增加额外的通信量,因此在开启张量并行的同时建议也同步开启序列并行。

SRAM

Static Random Access Memory,静态随机存储器。

是一种计算机内存类型。与动态随机存储器(DRAM)相比,SRAM的读写速度更快,通常用于高速缓存、寄存器和其他需要快速访问的应用程序。

SwiGLU

Swish-Gated Linear Units,Swish门控线性单元激活函数。

是Gated Linear Units (GLU) 函数的一种变体,其融入了Swish激活函数。

SIMD

Single Instruction,Multiple Data,单指令,多数据。

一种并行处理器计算机结构,其中一个指令处理器取得指令,并将其分配给其他一些处理器进行处理。

SSL

Secure Sockets Layer,安全套接层。

工作于套接字层的安全协议。该层位于TCP层和应用层之间,用于数据的加解密以及相关实体的认证。

StandardDeviation

标准差算法。

精度比对算法之一,计算结果取值范围为0到无穷大。标准差越小,离散度越小,表明越接近平均值。

STARS

System Task and Resource Scheduler,系统任务和资源调度器。

spine-leaf

叶脊网络架构。在leaf-spine架构中有两个重要组件,leaf(叶)交换机和spine(脊)换机。其中spine交换机可以当做传统三层架构中的核心交换机,这里的spine交换机不再是三层架构中的大型机箱式交换机,而是高端口密度的交换机。而leaf交换机就是接入层,leaf交换机提供网络连接给终端、服务器,同时上联给spine交换机。 leaf-spine拓扑网络结构主要为解决数据中心内流量的快速增长和数据中心规模的不断扩大,满足传统的三层网络拓扑结构不能满足的数据中心内部高速互连的需求。

Sample-based

Profiling的AICore数据以固定的时间周期(AI Core-Sampling Interval)进行性能数据采集。

Step Trace

迭代轨迹。

包含迭代的正、反向计算开始结束时间、梯度更新以及数据增强拖尾阶段。

ST

System Test,系统测试。

系统测试是基于系统整体需求说明书的黑盒类测试,应覆盖系统所有联合的部件。系统测试是针对整个产品系统进行的测试,目的是验证系统是否满足了需求规格的定义,找出与需求规格不相符合或与之矛盾的地方。

系统测试的对象不仅仅包括需要测试的产品系统的软件,还要包含软件所依赖的硬件、外设甚至包括某些数据、某些支持软件及其接口等。因此,必须将系统中的软件与各种依赖的资源结合起来,在系统实际运行环境下来进行测试。

昇腾虚拟化实例

指通过资源虚拟化技术将1个NPU切分成若干个vNPU(虚拟NPU)实例挂载到虚拟机或容器中使用,使得1个NPU同时支持多个计算调度任务。实现了资源虚拟化复用并保证了资源的安全隔离,大大降低了用户使用NPU算力的门槛和成本。并且支持多租户按需进行资源申请或回收管理。AVI等同于算力切分。

T

术语/缩略语

含义

Task-based

Profiling的AICore数据以task为粒度进行性能数据采集。

TCP

Transmission Control Protocol,传输控制协议。

TDP

Thermal Design Power,散热设计功耗。

用于描述处理器或其他电子元件在正常工作时的最大热耗散功率。

Tensor

Tensor张量是算子计算数据的容器,是N维数据结构,最常见的是标量、矢量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。

TFT

Training Fault Tolerance,训练容错框架。

TIK

Tensor Iterator Kernel,张量嵌套内核。

算子开发方式之一,调用TIK提供的API基于Python语言编写自定义算子,TIK编译器会将其编译为适配昇腾AI处理器应用程序的二进制文件。

TGI

Text Generation Inference,文本生成推理。

TGI是一个用于部署和服务大型语言模型的工具包。TGI为最流行的开源LLM提供高性能文本生成,包括LLaMA、Falcon、StarCoder、BLOOM、GPT-NeoX等。

TLS

Transport Layer Security,传输层安全性协议。

TP

Tensor Parallelism,张量并行。

通过将网络中的张量(Tensor)切分到不同的设备,从而降低单个设备的显存消耗,使得超大规模模型训练成为可能。

Trition

Triton Inference Server,开源的推理服务软件。

通过Triton可以在基于GPU或CPU的各种基础架构(云、数据中心或边缘)上部署、运行和扩展来自任何框架的AI模型。

TTP

Try To Persist,临终CheckPoint保存。

U

术语/缩略语

含义

UCE

Uncorrectable Memory Error,不可纠正内存错误。

Unified Buffer/UB

AI Core内部存储单元,主要用于矢量计算,与逻辑内存AscendC::TPosition::VECIN、AscendC::TPosition::VECOUT、AscendC::TPosition::VECCALC相对应。

UDF

User Defined Function,用户自定义功能。

UUID

Universally Unique Identifier,通用唯一识别码。

通用唯一识别码是一个软件建构的标准,也是被开源软件基金会(Open Software Foundation, OSF)的组织应用在分布式计算环境(Distributed Computing Environment, DCE)领域的一部分。

UT

Unit Test,单元测试。

单元测试是在软件开发过程中要进行的最低级别的测试活动,在单元测试活动中,软件的独立单元将在与程序的其他部分相隔离的情况下进行测试。

UDP

User Datagram Protocol,用户数据报协议。

在TCP/IP模型中,UDP为网络层以上和应用层以下提供了一个简单的接口。UDP只提供数据的不可靠传递,它一旦把应用程序发给网络层的数据发送出去,就不保留数据备份(所以UDP有时候也被认为是不可靠的数据报协议)。UDP在IP数据报的头部仅仅加入了复用和数据校验(字段)。

V

术语/缩略语

含义

vcjob

Volcano Job,Kubernetes中的Volcano任务。

VDEC

Video Decoder,视频解码器。

提供对特定格式的视频进行解码的能力。

VENC

Video Encoder,视频编码器。

提供将图片编码为特定格式视频的能力。

Vector

AI Core上的Vector计算单元,负责执行矢量运算。其算力低于Cube,但灵活度高于Cube(如支持数学中的求倒数,求平方根等)。

vLLM

开源的大语言模型推理加速框架。

VPC

Vision Preprocessing Core,视觉预处理核。

处理YUV、RGB等格式的图片,包括缩放、抠图、图像金字塔、色域转换等。

W

术语/缩略语

含义

Watchdog

看门狗,用于监控系统运行状态。

一种硬件装置(通常是一个计时器或驱动器),用于监视连续运行的系统是否正常、功能是否发挥出来,这要通过与使用专用的设备驱动程序的系统软件进行通信来完成。

用于监控软件资源占用状态的定时计数器。在程序运行后启动看门狗,看门狗开始自动计数,程序需要定期清零该计数器,即所谓的喂狗,若超时不清零看门狗,则看门狗计数器溢出从而引起看门狗中断,造成系统复位。看门狗的作用就是防止程序发生死循环。

Y

术语/缩略语

含义

业务面

推理等业务接口所处的平面。

Z

术语/缩略语

含义

ZeRO

Zero Redundancy Optimizer,零冗余优化器

Zero是一种为了解决大规模分布式训练中的内存瓶颈问题而设计的优化器。它通过减少冗余数据来优化模型的内存使用,允许训练更大的模型。该方法与传统的数据并行相比,内存效率得到了极大的提高,计算粒度和通信效率得到了保留。

整网比对

network-wide comparison,精度比对工具里Tensor比对的一种方式。对网络模型中参与计算的所有算子进行精度比对。