昇腾社区首页
中文
注册
开发者
下载

综合检测

  • 功能说明

    包括压力检测、HBM硬件检测、CPU检测等功能。

  • 产品支持情况

    产品

    是否支持

    Atlas A3 训练系列产品/Atlas A3 推理系列产品

    Atlas A2 训练系列产品/Atlas A2 推理系列产品

    Atlas 200I/500 A2 推理产品

    Atlas 推理系列产品

    Atlas 训练系列产品

  • 注意事项

    综合检测相关命令必须在物理机且root用户下执行。

  • 命令格式
    # AI Core压力检测,可能需要时间较长
    asys diagnose -r=stress_detect -d=deviceId --output=path
    
    # HBM检测
    asys diagnose -r=hbm_detect -d=deviceId --timeout=num --output=path
    
    # CPU检测
    asys diagnose -r=cpu_detect -d=deviceId --timeout=num --output=path
  • 参数说明
    • r:必选参数,检测模式,取值如下:
      • stress_detect:AI Core压力检测

        该功能涉及执行算子,因此环境中需提前安装算子二进制文件包(包名为Ascend-cann-kernels-*_linux.run)。

        AICore压力检测涉及到对device侧部分电压调整,当压力检测正常结束时,可自行恢复;但部分压力检测异常退出时,存在电压不能自行恢复,这时用户可以根据asys环境配置功能手动恢复电压。建议在执行AI Core压力检测前、后,用户可以分别获取电压,用于判断电压是否异常、以及是否需要恢复电压。获取及恢复电压请参见环境配置

        显示检测结果时:
        • 不指定device但device只有一个时,仅显示这个device的状态。
        • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
        • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
        • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;2开头的错误码表示精度比对失败;3开头的错误码表示硬件问题。
        • 若检测结果为Pass,表示检测成功。
      • hbm_detect:HBM检测
        显示检测结果时:
        • 不指定device但device只有一个时,仅显示这个device的状态。
        • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
        • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
        • 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;4开头的错误码表示硬件问题。
        • 若检测结果为Pass,表示检测成功。针对hbm检测,若返回的数值>0,该数值表示检测后新增ECC错误的个数,用于提前激发风险地址报错并隔离,保证后续业务正常运行。
      • cpu_detect:CPU检测
        显示检测结果时:
        • 不指定device但device只有一个时,仅显示这个device的状态。
        • 显示所有device的检测结果时,若所有device的状态都为Pass、Warn、Fail,则直接显示Pass - All、Warn - All、Fail - All。
        • 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Fail。
        • 若检测结果为Fail,表示检测出硬件故障,需联系技术支持。
        • 若检测结果为Warn,表示检测过程中任务调度出现问题。可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log)中的详细信息定位问题,可先根据关键字“[ERROR] AML”筛选日志信息。
        • 若检测结果为Pass,表示检测成功。
    • d:可选参数,指定待检测的deviceId,不设置该参数,默认显示所有device的检测结果。Pass表示正常,Warn表示异常。
    • timeout:可选参数,指定硬件检测时间,单位秒。不传默认检测600秒。仅HBM检测、CPU检测时生效,HBM检测时取值范围:[0, 604800],设置为0时表示仅执行一轮HBM检测;CPU检测时取值范围:[1, 604800]。
    • output:可选参数,其值作为检测结果文件diagnose_result_{time_stamp}.txt的保存目录。命令行中不带output参数时,输出结果不落盘仅在终端屏幕显示;若output指定值为空、无效字符串、或指定路径目录无写权限、或创建目录失败,则asys工具退出执行并报错。
  • 使用示例&输出说明
    • 不指定device,所有device正常,此处以四卡为例:
      asys diagnose -r=stress_detect
       +------------------------+ -----------------------+ 
       | Group of 4 Device      | Diagnostic Result      | 
       +========================+ =======================+ 
       +--- Performance --------+ -----------------------+ 
       | Stress Detect          | Pass - All             | 
       +------------------------+ -----------------------+ 
      asys diagnose -r=hbm_detect --timeout=3000
       +------------------------+------------------------+
       | Group of 4 Device      | Diagnostic Result      |
       +========================+========================+
       +--- Hardware -----------+------------------------+
       | HBM Detect             | Pass - All             |
       |                        | (0, 9, 0, 0)           |
       +------------------------+------------------------+
      asys diagnose -r=cpu_detect --timeout=3000
       +------------------------+------------------------+
       | Group of 4 Device      | Diagnostic Result      |
       +========================+========================+
       +--- Hardware -----------+------------------------+
       | CPU Detect             | Pass - All             |
       +------------------------+------------------------+
    • 不指定device,部分device正常,此处以四卡为例:
      asys diagnose -r=stress_detect
       +------------------------+ -----------------------+ 
       | Group of 4 Device      | Diagnostic Result      | 
       +========================+ =======================+ 
       +--- Performance --------+ -----------------------+ 
       | Stress Detect          | Pass, Warn, Pass, Warn | 
       +------------------------+ -----------------------+ 
      asys diagnose -r=hbm_detect
       +------------------------+ -----------------------+ 
       | Group of 4 Device      | Diagnostic Result      | 
       +========================+ =======================+ 
       +--- Hardware -----------+ -----------------------+ 
       | HBM Detect             | Pass, Warn, Pass, Warn | 
       |                        | (9, 0, 5, 0)           |
       +------------------------+ -----------------------+ 
      asys diagnose -r=cpu_detect
       +------------------------+------------------------+
       | Group of 4 Device      | Diagnostic Result      |
       +========================+========================+
       +--- Hardware -----------+------------------------+
       | CPU Detect             | Pass, Warn, Pass, Fail |
       +------------------------+------------------------+
    • 指定device,此处以device 0为例:
      asys diagnose -d=0 -r=stress_detect
       +--------------------+------------------------+
       | Device ID: 0       | Diagnostic Result      |
       +====================+========================+
       +--- Performance ----+------------------------+
       | Stress Detect      | Pass                   |
       +--------------------+------------------------+
      asys diagnose -d=0 -r=hbm_detect
       +------------------------+------------------------+
       | Device ID: 0           | Diagnostic Result      |
       +========================+========================+
       +--- Hardware -----------+------------------------+
       | HBM Detect             | Pass(9)                |
       +------------------------+------------------------+
      asys diagnose -d=0 -r=cpu_detect
       +------------------------+------------------------+
       | Device ID: 0           | Diagnostic Result      |
       +========================+========================+
       +--- Hardware -----------+------------------------+
       | CPU Detect             | Pass                   |
       +------------------------+------------------------+