昇腾社区首页
中文
注册

Aicpu压测

测试项功能

测试指定Device的Aicpu指令执行是否符合预期,并输出测试结果。

表1 诊断项说明

诊断项名称

使用Atlas A2 训练系列产品Atlas A3 训练系列产品完成一轮诊断的参考耗时

是否影响NPU训练或推理

使用场景

Aicpu压力测试

60s~604800s

Aicpu故障导致宕机卡死。

支持的场景

Aicpu ERROR(以下简称Aicpu)压测支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)

表2 支持的场景和产品型号

场景/产品型号

Atlas A2 训练系列产品

Atlas A3 训练系列产品

物理机

Y

Y

宿主机+容器

Y

Y

虚拟机

Y

1

  1. A200T A3 Box8 超节点服务器支持。

使用约束

  • Aicpu压测会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
  • 如果Aicpu压测过程中发生掉卡(使用npu-smi info命令查询设备基本信息时,NPU不在位),需要下电重启设备,并在设备重启后进行NPU环境恢复。详细说明请参考NPU环境恢复

测试项参数查询

各参数解释如表3所示。

表3 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。

[-i, --items]

指定具体的诊断检查项:
  • aicpu:Aicpu ERROR压测。
  • 不传入此参数,则默认执行除aicpu、aicore和prbs外其他检查项的诊断。
  • 当-i参数指定aicpu压测时,不支持与其他诊断项一起使用。

[-s, --stress]

使用该参数进行压力测试,当前支持指定的压力测试有以下几种:片上内存压测、Aicore压测、P2P压测、功耗压测、Aicpu压测。

  • 在包含Aicpu检查项的场景下,支持与-st参数一起使用,执行压测的时间以--st指定的时间为准。

[-d, --device]

指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。使用Atlas A3 训练系列产品测试时使用的是主Device。

  • 可指定一个或多个Device ID,多个时各项之间使用“,”分隔。
  • 若不填写Device ID则默认返回所有Device的诊断结果。

[-st, --st, --stress-time]

指定Aicpu压力测试的时间。

  • 取值范围是[60,604800],单位为秒。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

[-r, --result]

指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。

  • 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
  • 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
  • 当使用[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中;不指定json格式输出时,不会保存故障诊断结果。

[-q, --quiet]

  • 指定该参数,将不再进行防呆提示,用户将默认允许该操作。该参数必须与-i参数的bandwidth、aiflops、hbm、aicore、prbs、tdp、edp、aicpu、nic一起使用。
  • 若不指定该参数,用户需要输入Y或N(y或n)确认是否进行测试。

注:

  • 本文档输入或输出的Device ID都是芯片逻辑ID。
  • 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
  • ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。

使用实例

ascend-dmi -dg -i aicpu -s -st 60 -q

故障检查项说明

表4 故障检查项说明

回显状态

含义

PASS

压力测试结果无异常。

SKIP

  • 执行压测的用户为非root用户。
  • 当前设备不支持Aicpu压测。

EMERGENCY_WARN

紧急警告,请更换硬件。

FAIL

Aicpu压测失败,请联系华为工程师处理。