算力测试

测试项功能

算力测试通过构造矩阵乘“A(m,k)*B(k,n)”并执行一定次数的方式，根据运算量与执行多次矩阵乘所耗费时间来计算整卡、整机或处理器中AI Core的算力值和满算力下实时的功率。其中Atlas A2训练系列产品的算力测试包含运算量与执行多次矩阵乘和向量乘所耗费时间来计算整卡、整机或处理器中AI Core的算力值和满算力下实时的功率。

设计的参数如表1和表2所示。

表1 矩阵乘参数
算子运算类型	参数	说明	取值
fp16模式（所有设备形态） bf16模式（Atlas A2 训练系列产品、Atlas 800I A2 推理服务器、A200I A2 Box 异构组件、Atlas A3 训练系列产品、Atlas A3 推理系列产品） int8模式（ Atlas 200/300/500 推理产品）	m	A矩阵行	256
	k	A矩阵列，B矩阵行	32
	n	B矩阵列	128
int8模式（ Atlas 200I/500 A2 推理产品、Atlas 800I A2 推理服务器、A200I A2 Box 异构组件、 Atlas 训练系列产品、Atlas A2 训练系列产品、Atlas A3 训练系列产品、Atlas A3 推理系列产品） hf32模式（Atlas A2 训练系列产品、Atlas 800I A2 推理服务器、A200I A2 Box 异构组件、Atlas A3 训练系列产品、Atlas A3 推理系列产品）	m	A矩阵行	256
	k	A矩阵列，B矩阵行	64
	n	B矩阵列	128
fp32模式（Atlas A2 训练系列产品、Atlas 800I A2 推理服务器、A200I A2 Box 异构组件、Atlas A3 训练系列产品、Atlas A3 推理系列产品）	m	A矩阵行	128
	k	A矩阵列，B矩阵行	32
	n	B矩阵列	64

表2 向量乘参数
算子运算类型	参数	说明	取值
fp16模式	n	向量长度	32760
fp32模式 hf32模式 bf16模式	n	向量长度	16380

测试前设置

由于昇腾AI处理器会预设性能阈值，建议在设备温度稳定并低于90℃的情况下进行算力测试，避免因设备温度过高触发主动降频功能，影响算力测试结果。

测试项特定参数查询

用户可任选以下指令之一查看算力测试命令的可用参数。

ascend-dmi -f -h

ascend-dmi -f --help

各参数解释如表3所示，表格内仅展示测试项特定参数，其余公共参数请参见公共参数说明。

表3 参数说明
参数	说明	是否必填
[-f, --flops]	使用该参数测试整卡、芯片或整机的算力。	是
[-t, --type]	指定算子运算类型，可以为fp16、fp32、hf32、bf16和int8，若未指定则默认为fp16。	否
[--all]	指定该参数时测试整机算力，即计算所有NPU卡的算力之和。本参数不支持与-d参数一起指定。	否
[-et, --et, --execute-times]	指定芯片单个AI Core上运行矩阵乘法的执行次数。训练场景：若不填写执行次数则默认为60。训练场景单位为十万，参数范围为[10，80]。推理场景：若不填写执行次数则默认为10。推理场景单位为百万，参数范围为[10，80]。	否
注：本文档输入或输出的Device ID都是芯片逻辑ID。用户可以执行npu-smi info -m命令，在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID，NPU ID则为对应的芯片物理ID。

使用示例

推理场景以测试Device 2，指定算子运算类型默认为fp16，执行次数为6千万的算力为例。
ascend-dmi -f -d 2 --et 60
推理场景以测试Device 2，指定算子运算类型为int8，执行次数为6千万的算力为例。
ascend-dmi -f -t int8 -d 2 --et 60

训练场景以测试Device 3，执行次数为8百万的算力为例。
ascend-dmi -f -d 3 --et 80
训练场景下，Atlas A2 训练系列产品以算力测试类型为hf32为例。
ascend-dmi -f -t hf32
训练场景下，Atlas A3 训练系列产品以算力测试类型为fp32为例。
ascend-dmi -f -t fp32 -q
训练场景下，Atlas A3 训练系列产品以算力测试类型为bf16为例。
ascend-dmi -f -t bf16 -q

使用--all参数测试整机算力，以测试FP16算力为例。

ascend-dmi -f -q --all

指定--all参数时，Execute Times、Duration(ms)、Power(W)均表示整机算力其他指标的平均值；Device值为“all”，表示所有NPU；TFLOPS@FP16表示所有Device的算力值之和。

------------------------------------------------------------------------
  Device      Execute Times     Duration(ms)    TFLOPS@FP16     Power(W)
------------------------------------------------------------------------
  all         360000000         1702            2509.719      206.625015  
------------------------------------------------------------------------

上述图中各类服务器参数介绍如表4所示。

表4 显示界面参数说明
参数	说明
Device	Device ID。
Execute Times	训练场景： Atlas A2 训练系列产品、Atlas A3 训练系列产品上，Execute Times为单个AI Core执行矩阵乘的次数乘以AI Core的个数与单个Vector Core执行向量乘的次数乘以Vector Core的个数相加计算所得。 Atlas 训练系列产品的Execute Times为单个AI Core执行矩阵乘的次数乘以AI Core的个数计算所得。推理场景： Atlas 800I A2 推理服务器、A200I A2 Box 异构组件、Atlas A3 推理系列产品上，Execute Times为单个AI Core执行矩阵乘的次数乘以AI Core的个数与单个Vector Core执行向量乘的次数乘以Vector Core的个数相加计算所得。其他推理产品Execute Times为执行矩阵乘的次数乘以AI Core的个数，再乘以芯片的个数计算所得。
Duration(ms)	执行多次矩阵乘所耗费的时间。
TFLOPS@FP16	进行算力测试得到的算力值。FP16为指定的算子运行类型。
Power(W)	满算力下的实时功率。说明：用户无需关注算力测试时芯片的功率，因为功耗数据是按周期采集，且前后两次采集之间存在时间间隔，当算力测试时间过短时，会出现功耗数据波动。功耗测试请使用更具针对性的功耗测试选项进行。

为保证返回检测结果的正确性和准确性，算力测试需要单独执行。

父主题： 性能测试