综合检测
- 功能说明
包括压力检测、HBM硬件检测、CPU检测等功能。
- 产品支持情况
产品
是否支持
Atlas A3 训练系列产品 /Atlas A3 推理系列产品 √
Atlas A2 训练系列产品 /Atlas A2 推理系列产品 √
Atlas 200I/500 A2 推理产品 ☓
Atlas 推理系列产品 ☓
Atlas 训练系列产品 ☓
- 注意事项
综合检测相关命令必须在物理机且root用户下执行。
- 命令格式
# AI Core压力检测,可能需要时间较长 asys diagnose -r=stress_detect -d=deviceId --output=path # HBM检测 asys diagnose -r=hbm_detect -d=deviceId --timeout=num --output=path # CPU检测 asys diagnose -r=cpu_detect -d=deviceId --timeout=num --output=path
- 参数说明
- r:必选参数,检测模式,取值如下:
- stress_detect:AI Core压力检测
该功能涉及执行算子,因此环境中需提前安装算子二进制文件包(包名为Ascend-cann-kernels-*_linux.run)。
AICore压力检测涉及到对device侧部分电压调整,当压力检测正常结束时,可自行恢复;但部分压力检测异常退出时,存在电压不能自行恢复,这时用户可以根据asys环境配置功能手动恢复电压。建议在执行AI Core压力检测前、后,用户可以分别获取电压,用于判断电压是否异常、以及是否需要恢复电压。获取及恢复电压请参见环境配置。
显示检测结果时:- 不指定device但device只有一个时,仅显示这个device的状态。
- 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
- 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
- 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;2开头的错误码表示精度比对失败;3开头的错误码表示硬件问题。
- 若检测结果为Pass,表示检测成功。
- hbm_detect:HBM检测显示检测结果时:
- 不指定device但device只有一个时,仅显示这个device的状态。
- 显示所有device的检测结果时,若所有device的状态都为Pass、Warn,则直接显示Pass - All、Warn - All。
- 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Warn。
- 若检测结果为Warn,表示检测失败,可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log),根据关键字“[ERROR] AML”查看日志信息,并根据其中的错误码定位并排除问题:1开头的错误码表示用例执行失败、任务下发失败等;4开头的错误码表示硬件问题。
- 若检测结果为Pass,表示检测成功。针对hbm检测,若返回的数值>0,该数值表示检测后新增ECC错误的个数,用于提前激发风险地址报错并隔离,保证后续业务正常运行。
- cpu_detect:CPU检测显示检测结果时:
- 不指定device但device只有一个时,仅显示这个device的状态。
- 显示所有device的检测结果时,若所有device的状态都为Pass、Warn、Fail,则直接显示Pass - All、Warn - All、Fail - All。
- 若一个或多个device状态不一致时,则依次显示每个device的状态,例如4个device时,显示Pass, Warn, Warn, Fail。
- 若检测结果为Fail,表示检测出硬件故障,需联系技术支持。
- 若检测结果为Warn,表示检测过程中任务调度出现问题。可查看Host侧plog日志(默认路径为$HOME/ascend/log/run|debug/plog/plog-pid_*.log)中的详细信息定位问题,可先根据关键字“[ERROR] AML”筛选日志信息。
- 若检测结果为Pass,表示检测成功。
- stress_detect:AI Core压力检测
- d:可选参数,指定待检测的deviceId,不设置该参数,默认显示所有device的检测结果。Pass表示正常,Warn表示异常。
- timeout:可选参数,指定硬件检测时间,单位秒。不传默认检测600秒。仅HBM检测、CPU检测时生效,HBM检测时取值范围:[0, 604800],设置为0时表示仅执行一轮HBM检测;CPU检测时取值范围:[1, 604800]。
- output:可选参数,其值作为检测结果文件diagnose_result_{time_stamp}.txt的保存目录。命令行中不带output参数时,输出结果不落盘仅在终端屏幕显示;若output指定值为空、无效字符串、或指定路径目录无写权限、或创建目录失败,则asys工具退出执行并报错。
- r:必选参数,检测模式,取值如下:
- 使用示例&输出说明
- 不指定device,所有device正常,此处以四卡为例:
asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass - All | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass - All | | | (0, 9, 0, 0) | +------------------------+------------------------+ asys diagnose -r=cpu_detect --timeout=3000 +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass - All | +------------------------+------------------------+
- 不指定device,部分device正常,此处以四卡为例:
asys diagnose -r=stress_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Performance --------+ -----------------------+ | Stress Detect | Pass, Warn, Pass, Warn | +------------------------+ -----------------------+ asys diagnose -r=hbm_detect +------------------------+ -----------------------+ | Group of 4 Device | Diagnostic Result | +========================+ =======================+ +--- Hardware -----------+ -----------------------+ | HBM Detect | Pass, Warn, Pass, Warn | | | (9, 0, 5, 0) | +------------------------+ -----------------------+ asys diagnose -r=cpu_detect +------------------------+------------------------+ | Group of 4 Device | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass, Warn, Pass, Fail | +------------------------+------------------------+
- 指定device,此处以device 0为例:
asys diagnose -d=0 -r=stress_detect +--------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +====================+========================+ +--- Performance ----+------------------------+ | Stress Detect | Pass | +--------------------+------------------------+ asys diagnose -d=0 -r=hbm_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | HBM Detect | Pass(9) | +------------------------+------------------------+ asys diagnose -d=0 -r=cpu_detect +------------------------+------------------------+ | Device ID: 0 | Diagnostic Result | +========================+========================+ +--- Hardware -----------+------------------------+ | CPU Detect | Pass | +------------------------+------------------------+
- 不指定device,所有device正常,此处以四卡为例:
父主题: asys工具使用指导