收集进程中断问题信息

支持用户手动收集、工具自动收集两种方式。

用户手动收集方法

收集Host侧应用类日志、Device侧系统类日志,详细步骤如下
  1. 在Host服务器规划一个存放日志的目录,例如${HOME}/err_log_info/。
  2. Host侧应用类日志的默认路径为Host服务器的${HOME}/ascend/log目录。将日志文件拷贝至err_log_info目录下:
    mv ${HOME}/ascend/log ${HOME}/err_log_info/ 
  3. Device侧系统类日志(包括slog日志、syslog日志、黑匣子等)通过使用msnpureport工具导出到Host侧:
    # 在${HOME}/err_log_info目录下一个存放Device日志的目录
    cd ${HOME}/err_log_info
    mkdir report
    
    # 在report目录下执行msnpureport命令
    cd report
    Driver安装目录/driver/tools/msnpureport -f

关于日志级别、日志路径以及日志文件的详细介绍请参见日志参考

此外,技术支持在定位问题时,可能还需要现场业务信息以及用户操作日志,现场业务信息是指现场跑的业务是单算子、模型推理还是模型训练,如果是训练,训练的集群规模是多大等,用户操作日志是指用户在Host服务器上操作记录。技术支持会根据这部分内容了解现场基本信息、是否存在用户手动中断进程的操作等。

工具自动收集方法

asys工具的使用约束请参见asys工具功能及约束,在使用asys工具前需先安装、配置asys工具,请先参见asys工具使用指导(EP模式)处的前提条件说明。

asys工具命令示例如下,执行asys collect命令,收集故障信息

asys collect [--output="path"]

output表示收集信息所存放的目录,详细参数说明及约束请参见故障信息收集