测试项功能
对CANN与驱动的兼容性进行诊断,并输出诊断结果。
表1 诊断项说明诊断项名称
|
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时
|
使用Atlas 900 A3 SuperPoD 集群算力系统完成一轮诊断的参考耗时
|
是否影响NPU训练或推理
|
使用场景
|
CANN与驱动的兼容性
|
2s~7s
|
≤1min
|
否
|
训练或推理业务上线。
|
支持的场景
CANN与驱动的兼容性诊断支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
表2 支持的场景和产品型号场景/产品型号
|
Atlas 训练系列产品
|
Atlas A2 训练系列产品
|
Atlas 200/300/500 推理产品
|
Atlas 推理系列产品
|
Atlas 200I/500 A2 推理产品
|
Atlas 800I A2 推理产品
|
Atlas A3 训练系列产品
|
物理机
|
Y
|
Y
|
Y
|
6
|
Y
|
Y
|
Y
|
宿主机+容器
|
Y
|
Y
|
4
|
6
|
N
|
Y
|
Y
|
虚拟机
|
1
|
2
|
5
|
3
|
N
|
N
|
N
|
- 仅Atlas 800 训练服务器(型号 9000)、Atlas 900 PoD(型号 9000)、Atlas 900T PoD Lite产品支持。
- 仅Atlas 200T A2 Box16 异构子框支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
- 仅Atlas 200 AI加速模块(EP场景)、Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- Atlas 300I 推理卡(型号 3000)、Atlas 300I 推理卡(型号 3010)、Atlas 500 Pro 智能边缘服务器(型号 3000)支持。
- 仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。
测试项参数查询
各参数解释如表3所示。
表3 参数说明参数
|
说明
|
是否必填
|
[-dg, --dg, --diagnosis]
|
使用该参数进行整卡的故障诊断测试。
|
是
|
[-i, --items]
|
指定具体的诊断检查项:
- 指定CANN与驱动的兼容性诊断,取值为cann。
- 可指定driver、cann、device、network、bandwidth、aiflops、hbm、signalQuality中的一项或多项,多项时各项之间使用“,”分隔。
- 不传入此参数,则默认执行除aicore和prbs外其他检查项的诊断。
|
否
|
[-p, --path]
|
指定为CANN的安装路径。
- 若用户安装软件包时未使用默认安装路径,则此参数必填,指定为实际安装路径。
- 指定路径需符合安全要求,且不支持包含通配符“*”。
- 若不填写,且为root用户安装软件包时,则取值为默认路径“/usr/local/Ascend”。
- 当[-i, --items]后检查项不包含cann时,用户请勿填写此参数。
|
否
|
[-r, --result]
|
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
- 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
- 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
- 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。
|
否
|
[-fmt, --fmt, --format]
|
指定输出格式,可以为normal或json。若未指定则默认为normal。
|
否
|
注:
ascend-dmi --dg后使用-i,-r等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。
|
使用实例
ascend-dmi -dg -i cann -p /usr/local/Ascend
故障检查项说明
表4 故障检查项说明回显状态
|
含义
|
PASS
|
cann软件检测正常
|
FAIL
|
- nnae、nnrt、toolkit均安装异常。
- 驱动安装异常(cann和驱动间的兼容性不满足要求)。
|