带宽测试

测试项功能

带宽测试主要用于测试总线带宽、内存带宽和总耗时。

注意事项

支持的场景

带宽测试支持的设备及场景如表1所示。(在下表中,Y表示支持,N表示不支持。)

表1 支持的场景和产品型号

场景/产品型号

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas 200/300/500 推理产品

Atlas 推理系列产品

Atlas 800I A2 推理产品

Atlas 200I/500 A2 推理产品

Atlas A3 训练系列产品

物理机

Y

Y

Y

7

Y

Y

Y

宿主机+容器

Y

2

4

7

Y

N

Y

虚拟机

1

3

5

6

N

N

8

  1. Atlas 800 训练服务器(型号 9000)Atlas 900 PoD(型号 9000)Atlas 900T PoD Lite支持。
  2. 支持。在Atlas 200T A2 Box16 异构子框场景下,带宽测试建议在物理机上进行,容器、虚拟机上进行测试结果可能存在偏差。
  3. Atlas 800T A2 训练服务器Atlas 200T A2 Box16 异构子框支持。在Atlas 200T A2 Box16 异构子框场景下,带宽测试建议在物理机上进行,容器、虚拟机上进行测试结果可能存在偏差。
  4. Atlas 300I 推理卡(型号 3000)Atlas 300I 推理卡(型号 3010)Atlas 200 AI加速模块(EP场景)支持。
  5. Atlas 300I 推理卡(型号 3000)Atlas 300I 推理卡(型号 3010)支持。
  6. Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡Atlas 300V Pro 视频解析卡Atlas 300V 视频解析卡支持。
  7. Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡Atlas 300V Pro 视频解析卡Atlas 300V 视频解析卡Atlas 200I SoC A1 核心板支持。
  8. Atlas 900 A3 SuperPoD 集群算力系统支持。带宽测试建议在物理机上进行,容器、虚拟机上进行测试结果可能存在偏差。

测试项参数查询

用户可任选以下指令之一查看带宽测试命令的可用参数。

ascend-dmi --bw -h

ascend-dmi --bw --help

命令各参数解释如表2所示。

表2 参数说明

参数

说明

约束

是否必填

[-bw, --bw, --bandwidth]

使用该参数测试芯片的带宽。支持-bw,但建议使用--bw或--bandwidth。

-

[-t, --type]

指测试数据流向的分类。

当使用带宽测试功能时,测试的数据流可以分为以下方向,若不填写数据流方向则默认返回h2d、d2h、d2d三个方向的带宽和总耗时。
  • h2d:指数据从Host侧内存通过PCIe总线搬移到Device侧内存,测试整体带宽及总耗时。(使用Atlas A3 训练系列产品带宽测试功能时,测试的为HCCS平面总带宽及总耗时。)
  • d2h:指数据从Device侧内存通过PCIe总线搬移到Host侧内存,测试整体带宽及总耗时。(使用Atlas A3 训练系列产品带宽测试功能时,测试的为HCCS平面总带宽及总耗时。)
  • d2d:指数据从Device侧内存搬移到同一Device侧内存(主要是用于测试Device侧的内存带宽),测试整体带宽及总耗时。
  • p2p:测试指定源头Device到目标Device的传输速率和总耗时。
    说明:

    使用p2p且不指定Device时(不指定-ds和-dd参数),-s、-et和-fmt参数不生效,使用定长模式和对应默认值。如ascend-dmi --bw -t p2p -fmt json命令中,-fmt参数不生效,使用默认值normal。

  • Atlas 200I/500 A2 推理产品 仅支持d2d模式,不支持使用该参数。
  • p2p模式仅支持 Atlas 训练系列产品 Atlas A2 训练系列产品 Atlas 800I A2 推理产品 Atlas 300I Duo 推理卡Atlas A3 训练系列产品
  • Atlas 300I Duo 推理卡使用p2p模式时,-ds和-dd参数仅支持主芯片的Device ID。
  • 执行Atlas 200T A2 Box16 异构子框上两个8p之间的p2p测试时,仅支持输出两个对等位置的p2p结果,例如0卡对应8卡,可输出0卡传输至8卡的p2p测试结果,以此类推。
  • Atlas A3 训练系列产品支持指定所有模式。

[-s, --size]

指传输数据大小并指定测试结果显示方式.

  • 传输数据的取值范围有以下情况:
    • 超节点系列产品:d2h/h2d/p2p 这3种模式下,最大传输数值为1Byte~4G。
    • 其他产品:1Byte~512M。
  • 指定-s参数后面必须填写数值指定传输数据的大小,不填写属于错误写法。
    • 在h2d、d2h、d2d以及p2p且指定-ds和-dd场景。
      • 指定-s为定长模式。
      • 不指定-s为步长模式,传输数据的默认取值范围为2Byte~32M。
    • p2p场景且不指定-ds和-dd场景。该场景下-s参数不生效,使用定长模式和默认值。默认值说明如下。
      • Atlas A2训练系列产品、Atlas A3 训练系列产品,0卡或8卡到其他卡的默认传输数据大小为512M,除此之外,默认传输数据大小为256M。
      • 其他产品,传输数据大小默认值为128M。
  • Atlas A2 训练系列产品Atlas 800I A2 推理服务器Atlas A3 训练系列产品若指定“-t”为d2d模式时,传输数据大小由AI Core决定,所以不支持使用“-s”参数。
  • Atlas 200I/500 A2 推理产品 传输数据大小为固定值0.97GB(由传输数据的Tensor决定),不支持使用该参数。
  • Atlas A3 训练系列产品在H2D或D2H模式下,定长模式和步长模式时ID字段打印的值为All。

[-et, --et, --execute-times]

指迭代次数,即内存拷贝次数。

取值范围为[1, 1000],若不填写,步长模式下拷贝次数则默认为5,定长模式下拷贝次数则默认为40。

Atlas 200I/500 A2 推理产品 Atlas 800I A2 推理服务器Atlas A2 训练系列产品Atlas A3 训练系列产品在d2d模式下,不支持使用该参数,拷贝次数默认为1。

[-d, --device]

指定需要测试带宽的Device ID,Device ID是指昇腾AI处理器的逻辑ID,若不填写Device ID则默认返回Device 0带宽信息。

  • 为确保Atlas 300I Duo带宽测试结果达到最佳,建议测试Device 0带宽信息。
  • Atlas A2 训练系列产品在p2p模式下,不支持使用该参数。
  • Atlas A3 训练系列产品在H2D和D2H模式下,不支持使用该参数。若指定参数[-d, --device],且不单独指定H2D或D2H,则仅测试D2D带宽。

[-ds, --ds, --device-src]

指定p2p测试的源头Device的ID号。必须与[-dd, --dd, --device-dst]参数成对指定;若与[-dd, --dd, --device-dst]参数同时不指定时,测试全量的昇腾NPU芯片。

Atlas 200/300/500 推理产品 Atlas 推理系列产品 Atlas 800I A2 推理服务器 Atlas 200I/500 A2 推理产品 、不支持使用该参数。

[-dd, --dd, --device-dst]

指定p2p测试的目标Device的ID号。必须与[-ds, --ds, --device-src]参数成对指定;若与[-ds, --ds, --device-src]参数同时不指定时,测试全量的昇腾NPU芯片。

Atlas 200/300/500 推理产品 Atlas 推理系列产品 Atlas 800I A2 推理服务器 Atlas 200I/500 A2 推理产品 、不支持使用该参数。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

-

[-q, --quiet]

指定该参数时,将不再进行防呆提示,用户将默认允许该操作。

若不指定该参数,将进行防呆提示,用户需要输入Y或N(y或n)确认是否进行测试。

注:

  • 本文档输入或输出的Device ID都是芯片逻辑ID。
  • 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
  • --ds与--dd参数需要配合使用,单独使用是错误用法,使用时参数后的数值不能相同。
  • ascend-dmi --bw后使用-t,-s等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。例如:ascend-dmi --bw -t h2d -d 0 --et 100ascend-dmi --bw -t h2d --et 100 -d 0输出结果相同。
  • 由于NPU的工作模式会影响p2p带宽测试的计算方式,若出现p2p带宽测试结果与标称带宽相差过大,建议用户使用SMP模式。操作如下:用户登录IBMC,执行如下命令设置为SMP模式,其中1为SMP,0为AMP。

    ipmcset -d npuworkmode -v 1

  • 使用-s-et参数指定的数据搬运量和数据拷贝的次数较小时,可能无法获取最佳性能,如需稳定测得最佳性能,建议-s指定为512M,-et指定为>10。

使用实例

p2p测试命令截图取自训练服务器。

FAQ