使用msaicerr工具分析AI Core Error问题
使用约束
- 该工具仅支持本地分析使用,即部署该工具的环境应该和日志所在环境为同一环境(运行环境)。
- 该工具依赖python3.7.5或以上版本,在安装该工具的环境中需提前安装python。
- 该工具不支持在
Ascend RC 形态下使用。 - 该工具暂不支持分析以下算子的AI Core Error问题:
- MatmulAllReduce类算子
- MatmulAllReduceAddRmsNorm
- MatmulAllReduceInplaceAddRmsNorm
- AllGatherMatmul
- MatmulReduceScatter
- GroupedMatmulAllReduce
- MemSet
- NonMaxSuppressionBucketize
前提条件
已在CANN运行环境上安装Toolkit软件包。详细安装请参见《CANN 软件安装指南》。
安装CANN软件后,使用CANN运行用户进行编译、运行时,需要以CANN运行用户登录环境,执行source ${INSTALL_DIR}/set_env.sh命令设置环境变量。${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。以root用户安装为例,安装后文件默认存储路径为:/usr/local/Ascend/cann。
使用msaicerr工具前,需先进入到msaicerr.py脚本所在的目录“${install_path}/tools/msaicerr/msaicerr”。
使用msaicerr工具分析
- 以运行用户登录Host服务器。
- 使用msaicerr工具快速定位AI Core Error问题的关键原因。
进入“${Toolkit包安装路径}/tools/msaicerr”目录,根据收集AI Core Error问题信息中收集的信息,执行以下命令提取AI Core Error问题相关的关键信息。以下命令中aic_err_info_timestamp为存放AI Core Error问题信息的目录,请根据实际情况替换。
python3 msaicerr.py -p ${HOME}/aic_err_info_timestamp -out $HOME/result以上命令示例中,通过-p参数指定存放故障信息的目录,例如此处为${HOME}/aic_err_info_timestamp;通过-out参数指定解析结果文件的存放路径,例如此处为$HOME/result,如果不指定,则解析结果默认存放在执行命令的当前路径下。
注意:不能进入-p参数指定的目录或子目录下执行msaicerr工具,例如此处不能进入到aic_err_info_timestamp目录或其子目录中执行msaicerr工具;-out参数指定的目录也不能为-p参数指定的目录或子目录。否则,会出现工具解析卡住或失败的情况。
执行命令后,用户根据终端界面提示的info.txt文件所在的路径,通过info.txt文件中的提示信息进行问题分析和定位,重点关注下表所示的关键信息。若收集AI Core Error问题信息中收集的信息中存在多个AI Core Error问题,则msaicerr工具按日志时间解析第一次出现的AI Core Error问题。
若执行msaicerr工具失败:- 检查使用工具的前提条件是否满足、收集AI Core Error问题信息中收集的信息是否完整;
- 再参见算子输入args错误排查算子参数问题;
- 如果无法定位问题,您可以获取日志后单击Link联系技术支持。
msaicerr工具的其它参数及功能请参见msaicerr工具使用指导。