asys工具使用指导(EP模式)

前提条件

已在CANN运行环境上安装toolkit包。详细安装请参见CANN 软件安装指南

在使用asys工具前,需要以安装时的运行用户登录环境,执行source ${install_path}/latest/bin/setenv.bash命令设置环境变量,然后直接输入asys命令符,不用带asys工具完整路径的命令方式(即python3 ${install_path}/latest/toolkit/tools/ascend_system_advisor/asys/asys.py)。其中${install_path}为软件包的安装目录,例如:/usr/local/Ascend/ascend-toolkit。

故障信息收集

业务复跑+故障信息收集

业务复跑默认开启算子编译文件、GE dump图和TF Adapter dump图收集功能。

  • asys launch命令执行时会自动开启以下环境变量临时存放收集到的信息,asys launch命令执行结束时会自动关闭以下环境变量,若用户在执行asys launch命令前手动设置了这些环境变量,则用户设置的这部分环境变量会被覆盖、不生效;若复跑的用户任务脚本中涉及这些环境变量,则可能导致asys工具设置的环境变量被覆盖、不生效,进而导致无法收集对应的信息。
  • asys launch命令会拉起子进程执行业务命令,若用户主动终止launch命令,业务子进程可能未退出,这时需要用户自行终止业务子进程。

软硬件、Device状态信息展示

健康检查

综合检测

综合检测相关命令必须在物理机且root用户下执行。

同时仅以下产品支持使用综合检测功能:

Atlas A2 训练系列产品/Atlas 800I A2 推理产品

trace文件解析

coredump文件解析

coredump解析功能依赖gdb,需提前安装gdb,可通过包管理(如apt-get install gdb、yum install gdb)进行安装,详细安装步骤及使用方法请参见GDB官方文档

stackcore文件解析

stackcore解析功能依赖readelf进行文件信息的获取、依赖addr2line进行堆栈函数名和行号的解析,两者都是linux系统自带工具,请确保readelf、addr2line已安装且执行该脚本的用户有权限执行。

实时堆栈导出

该功能适用于业务进程卡住场景,以便导出堆栈信息定位问题。在业务未卡死时,执行实时堆栈导出,可能有:信号发送失败、bin文件生成超时、bin文件解析失败等异常,无法正常导出堆栈信息。另外,不支持对同一个卡住进程并行导出堆栈信息,否则可能执行命令失败。

环境配置

环境配置相关命令必须在物理机且root用户下执行。同时仅以下产品支持使用环境配置功能:

  • Atlas A2 训练系列产品/Atlas 800I A2 推理产品

业务复跑报错FAQ

asys工具导出实时堆栈超时报错FAQ