Aiflops诊断
测试项功能
对芯片进行算力诊断,并输出测试结果。
诊断项名称 |
使用Atlas A2 训练系列产品A800T A2完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
|---|---|---|---|
aiflops |
29s~40s |
是 |
训练或推理业务上线。 |
支持的场景
aiflops诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
场景/产品型号 |
||||||
|---|---|---|---|---|---|---|
物理机 |
Y |
Y |
Y |
Y |
Y |
|
宿主机+容器 |
Y |
Y |
N |
Y |
||
虚拟机 |
N |
N |
N |
- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡A300I Pro 推理卡、Atlas 300I Duo 推理卡A300I Duo 推理卡、Atlas 300V Pro 视频解析卡A300V Pro 视频解析卡、Atlas 300V 视频解析卡A300V 视频解析卡支持。
- 仅Atlas 300I Pro 推理卡A300I Pro 推理卡、Atlas 300I Duo 推理卡A300I Duo 推理卡、Atlas 300V Pro 视频解析卡A300V Pro 视频解析卡、Atlas 300V 视频解析卡A300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
使用约束
算力诊断会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
测试前准备
在执行aiflops诊断前,建议提前在环境上安装fuser软件,以便Ascend DMI对NPU进程进行监测。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
|---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
否 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 当诊断项未通过时,返回的json回显示例请参见诊断项未通过时返回的json示例-Aiflops。 |
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
|
否 |
注:
|
||
使用实例
1 | ascend-dmi -dg -i aiflops -q |
故障检查项说明
回显状态 |
含义 |
|---|---|
PASS |
算力测试结果正常(大于参考值)。 |
WARN |
算力测试过程中触发芯片过温。 |
FAIL |
|