Aiflops诊断
测试项功能
对芯片进行算力诊断,并输出测试结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|
aiflops |
29s~40s |
是 |
训练或推理业务上线。 |
支持的场景
aiflops诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
||||||
---|---|---|---|---|---|---|
物理机 |
Y |
Y |
Y |
Y |
Y |
|
宿主机+容器 |
Y |
Y |
N |
Y |
||
虚拟机 |
N |
N |
N |

- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
使用约束
算力诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
测试前准备
在执行aiflops诊断前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 当诊断项未通过时,返回的json回显示例请参见诊断项未通过时返回的json示例-Aiflops。 |
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
|
否 |
注:
|
使用实例
1 | ascend-dmi -dg -i aiflops -q |
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
算力测试结果正常(大于参考值)。 |
WARN |
算力测试过程中触发芯片过温。 |
FAIL |
|