测试项功能
测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。
表1 诊断项说明诊断项名称
|
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时
|
是否影响NPU训练或推理
|
使用场景
|
p2p压力测试
|
30s~390s
|
是
|
设备间拷贝数据发生异常。
|
支持的场景
p2p压力测试支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
表2 支持的场景和产品型号场景/产品型号
|
Atlas A2 训练系列产品
|
Atlas 800I A2 推理产品
|
物理机
|
Y
|
1
|
宿主机+容器
|
Y
|
1
|
虚拟机
|
Y
|
1
|
- 仅Atlas 800I A2 推理服务器(32GB PCIe款)不支持使用p2p压力测试。
使用约束
- 推荐在因HCCS通信链路硬件故障导致的训练精度异常场景下使用该功能。
- p2p压力测试会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 为确保p2p压力测试效果准确性,建议在NPU空载、无业务的时候执行p2p压力测试,因为例如CCAE或npu-exporter组件会调用dcmi接口监测环境状态,占用一定的通信链路带宽资源,导致结果存在误差。
- 不建议在降P启动场景中使用此功能。
测试项参数查询
各参数解释如表3所示。
表3 参数说明参数
|
说明
|
是否必填
|
[-dg, --dg, --diagnosis]
|
使用该参数进行整卡的故障诊断测试。
|
是
|
[-i, --items]
|
指定具体的诊断检查项: - bandwidth:本地带宽,包含Host to Device、Device to Host、Device to Device、Peer to Peer四个方向。
- 可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项,多项时各项之间使用“,”分隔。
- 不传入此参数,则默认执行除aicore和prbs外其他检查项的诊断。
|
是
|
[-s, --stress]
|
使用该参数进行压力测试,当前支持指定的压力测试有以下几种:片上内存压测、Aicore压测、P2P压测、功耗压测。
- 当items参数指定bandwidth时,支持与-s参数一起使用,表示进行P2P压测。
|
是
|
[-t, --type]
|
指测试数据流向的分类。
- 当item参数指定为bandwidth时,且传入-s参数时,此参数才会生效,表示执行p2p压测。
- 当前仅支持带宽类型为p2p的指定。
- p2p:测试指定源头Device到目标Device的传输速率和总耗时。
|
是
|
[-d, --device]
|
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
- 当[-i, --items]后检查项包含device、network、bandwidth、aiflops、hbm时,可填写此参数。
- 若不填写Device ID则默认返回所有Device的诊断结果。
- 当[-i, --items]后检查项为bandwidth时,指定2个及以上的Device会进行p2p压测,若用户只指定1个Device ID则不会进行p2p压测。
- 若对Atlas 200T A2 Box16 异构子框进行诊断,至少指定两张device,且该指定的devcie必须同为前8P或后8P。
|
否
|
[-fmt, --fmt, --format]
|
指定输出格式,可以为normal或json。若未指定则默认为normal。
|
否
|
[-r, --result]
|
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
- 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
- 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
- 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。
|
否
|
[-q, --quiet]
|
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
- 该参数必须与-i参数的bandwidth、aiflops、hbm、aicore、prbs、tdp、edp一起使用。
- 若不指定该参数,用户需要输入Y或N(y或n)确认是否进行诊断。
|
否
|
注:
- 本文档输入或输出的Device ID都是芯片逻辑ID。
- 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
- ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。
|
使用实例
| ascend-dmi -dg -i bandwidth --type p2p -s
|
故障检查项说明
表4 故障检查项说明回显状态
|
含义
|
PASS
|
压力测试通过,结果无异常。
|
SKIP
|
当前设备不支持P2P压测。
|
EMERGENCY_WARN
|
紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。
|
FAIL
|
p2p压测执行失败,请联系华为工程师处理。
|