故障诊断
测试项功能
故障诊断会获取芯片健康信息,同时对芯片进行算力、功耗、带宽测试并输出测试结果,用以判断当前产品的健康状态。
测试项参数查询
用户可任选以下指令之一查看故障诊断命令的可用参数。
ascend-dmi --dg -h
ascend-dmi --dg --help
各参数解释如表1所示。
| 
          参数  | 
        
          说明  | 
        
          是否必填  | 
       
|---|---|---|
| 
          [-dg, --dg, --diagnosis]  | 
        
          使用该参数进行整卡的故障诊断测试。支持-dg,但建议使用--dg或--diagnosis。若用户安装cann软件包时未使用默认路径或产品为Atlas 500 智能小站时,则需使用[-p, --path]参数指定安装路径。  | 
        
          是  | 
       
| 
          [-i, --items]  | 
        
          指定具体的诊断检查项,包括: 
 可指定driver、cann、device、network、bandwidth、aiflops中的一项或多项,多项时各项之间使用“,”分隔,检查项回显状态请参照表2。  | 
        
          否  | 
       
| 
          [-d, --device]  | 
        
          指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的ID,用户可以执行ascend-dmi --info命令,在显示界面表格中的Chip参数处获得芯片数量。比如一个Atlas 300I 推理卡配置4个昇腾芯片,则Device ID的取值范围为[0,3]。 
  | 
        
          否  | 
       
| 
          [-p, --path]  | 
        
          指定为nnrt或者nnae包的安装路径。指定路径需符合安全要求,且不支持包含通配符“*”。 
  | 
        
          否  | 
       
| 
          不填写-i,-d与-p参数  | 
        
          返回所有Device的所有检查项的诊断结果。  | 
        
          否  | 
       
| 
          [-fmt, --fmt, --format]  | 
        
          指定输出格式,可以为normal或json。若未指定则默认为normal。  | 
        
          否  | 
       
 
     - 为保证返回检测结果的正确性和准确性,故障诊断需要单独执行。
 - ascend-dmi --dg后使用-i,-d等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。例如:ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend和ascend-dmi --dg -d 0,1 -i driver,cann,device -p /usr/local/Ascend输出结果相同。
 
使用实例
使用实例中命令的回显在推理服务器与训练服务器类似,截图取自训练服务器。
以指定诊断测试项、Device ID和软件包安装路径为例。
ascend-dmi --dg -i driver,cann,device -d 0,1 -p /usr/local/Ascend

故障检查项说明
| 
          类型  | 
        
          检查项  | 
        
          回显状态  | 
        
          含义  | 
       
|---|---|---|---|
| 
          硬件类  | 
        
          driver  | 
        
          HEALTH  | 
        
          驱动固件安装正常,并且驱动状态为健康  | 
       
| 
          FAIL  | 
        
         
  | 
       ||
| 
          GENERAL_WARN  | 
        
          一般警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          IMPORTANT_WARN  | 
        
          重要警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          EMERGENCY_WARN  | 
        
          紧急警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          device  | 
        
          SKIP  | 
        
          当前产品形态不支持该项检测  | 
       |
| 
          HEALTH  | 
        
          device检测结果健康  | 
       ||
| 
          FAIL  | 
        
          device检测结果失败  | 
       ||
| 
          GENERAL_WARN  | 
        
          一般警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          IMPORTANT_WARN  | 
        
          重要警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          EMERGENCY_WARN  | 
        
          紧急警告(警告内容参考界面中提示的错误信息)  | 
       ||
| 
          network  | 
        
          SKIP  | 
        
          当前产品形态不支持该项检测  | 
       |
| 
          FAIL  | 
        
          网络检测结果失败  | 
       ||
| 
          WARN  | 
        
          网络检测结果告警  | 
       ||
| 
          PASS  | 
        
          网络检测结果健康  | 
       ||
| 
          aiflops  | 
        
          FAIL  | 
        
         
  | 
       |
| 
          WARN  | 
        
          算力测试结果大于参考值中的最小值,但小于参考值中的警告值  | 
       ||
| 
          PASS  | 
        
          算力测试结果正常(大于参考值中的警告值)  | 
       ||
| 
          bandwidth  | 
        
          FAIL  | 
        
         
  | 
       |
| 
          WARN  | 
        
          带宽测试结果大于参考值中的最小值,但小于参考值中的警告值  | 
       ||
| 
          PASS  | 
        
          带宽测试结果正常(大于参考值中的警告值)  | 
       ||
| 
          软件类  | 
        
          cann  | 
        
          FAIL  | 
        
         
  | 
       
| 
          PASS  | 
        
          cann软件检测正常  |