故障诊断

测试项功能

故障诊断会获取芯片健康信息,同时对芯片进行算力、功耗、带宽测试并输出测试结果,用以判断当前产品的健康状态。

测试项参数查询

用户可任选以下指令之一查看故障诊断命令的可用参数。

ascend-dmi --dg -h

ascend-dmi --dg --help

各参数解释如表1所示。

表1 参数说明

参数

说明

是否必填

[-dg, --dg, --diagnosis]

使用该参数进行整卡的故障诊断测试。支持-dg,但建议使用--dg或--diagnosis。若用户安装cann软件包时未使用默认路径,则需使用[-p, --path]参数指定安装路径。

[-i, --items]

指定具体的诊断检查项,包括:

  • 软件类:
    • cann:CANN各层软件的兼容性,CANN与驱动的兼容性。
  • 硬件类:
    • driver:驱动健康诊断。
    • device:设备健康诊断。
    • network:网络健康诊断,仅支持Atlas训练系列产品和Atlas A2训练系列产品。
    • bandwidth:本地带宽,包含Host to Device、Device to Host、Device to Device、Peer to Peer四个方向。
    • aiflops:算力。

可指定driver、cann、device、network、bandwidth、aiflops中的一项或多项,多项时各项之间使用“,”分隔,检查项回显状态请参照表2

[-d, --device]

指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的ID,用户可以执行ascend-dmi --info命令,在显示界面表格中的Chip参数处获得芯片数量。比如一个推理卡配置4个昇腾芯片,则Device ID的取值范围为[0,3]。

  • 使用“-d”参数时,默认不进行p2p的带宽校验。
  • 当[-i, --items]后检查项包含device、network、bandwidth或aiflops时,必会校验此参数。可指定一个或多个Device ID,多个时各项之间使用“,”分隔。若不填写Device ID则默认返回所有Device的诊断结果。
  • 当[-i, --items]后检查项仅包含cann或driver时,用户无需填写此参数。

[-p, --path]

指定为CANN的安装路径。指定路径需符合安全要求,且不支持包含通配符“*”。

  • 当[-i, --items]后检查项包含cann时,则必会校验此参数。若用户安装软件包时未使用默认安装路径,则此参数必填,指定为实际安装路径。
    说明:

    若不填写,且为root用户安装软件包时,则取值为默认路径“/usr/local/Ascend”

  • 当[-i, --items]后检查项不包含cann时,用户请勿填写此参数。

[-r, --result]

指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。

  • 当进入故障诊断模块,则必会校验此参数。若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
  • 当[-i, --items]后检查项包含network时,会进行信息采集,结果保存在“ascend_check/npu_network_information.txt”文件中,不包含network检查项时,不进行信息采集。
  • 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。

不填写-i,-d,-p与-r参数

返回所有Device的所有检查项的诊断结果。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

  • 为保证返回检测结果的正确性和准确性,故障诊断需要单独执行。
  • ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。例如:ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend -r /var/logascend-dmi --dg -d 0,1 -i driver,cann,device -p /usr/local/Ascend -r /var/log输出结果相同。
  • 如果ascend-dmi --dg诊断结果提示“hccn_tool no certificate found”,可参考预置或替换证书套件配置证书。
  • 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。

使用实例

使用实例中命令的回显在推理服务器与训练服务器类似,截图取自训练服务器。

以指定诊断测试项、Device ID和软件包安装路径为例。

ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend

故障检查项说明

表2 故障检查项说明

类型

检查项

回显状态

含义

硬件类

driver

HEALTH

驱动固件安装正常,并且驱动状态为健康

FAIL

  • 驱动或固件安装异常
  • 读取驱动健康状态失败

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)

device

SKIP

当前产品形态不支持该项检测

HEALTH

device检测结果健康

FAIL

device检测结果失败

GENERAL_WARN

一般警告(警告内容参考界面中提示的错误信息)

IMPORTANT_WARN

重要警告(警告内容参考界面中提示的错误信息)

EMERGENCY_WARN

紧急警告(警告内容参考界面中提示的错误信息)

network

SKIP

当前产品形态不支持该项检测

FAIL

网络检测结果失败

WARN

网络检测结果告警

PASS

网络检测结果健康

INFO

网络检测结果提示

aiflops

FAIL

  • 算力测试失败
  • 算力测试结果小于参考值中的最小值

WARN

算力测试结果大于参考值中的最小值,但小于参考值中的警告值

PASS

算力测试结果正常(大于参考值中的警告值)

bandwidth

FAIL

  • 带宽测试失败
  • 带宽测试结果小于参考值中的最小值

WARN

带宽测试结果大于参考值中的最小值,但小于参考值中的警告值

PASS

带宽测试结果正常(大于参考值中的警告值)

软件类

cann

FAIL

  • nnae、nnrt、toolkit均安装异常
  • 驱动安装异常(cann和驱动间的兼容性不满足要求)

PASS

cann软件检测正常