使用msaicerr工具分析AI Core Error问题
使用约束
- 该工具仅支持本地分析使用,即部署该工具的环境应该和日志所在环境为同一环境(运行环境)。
- 该工具依赖python3.7.5或以上版本,在安装该工具的环境中需提前安装python。
- 该工具不支持在
Ascend RC 形态下使用。 - 该工具暂不支持分析以下算子的AI Core Error问题:
- MatmulAllReduce类算子
- MatmulAllReduceAddRmsNorm
- MatmulAllReduceInplaceAddRmsNorm
- AllGatherMatmul
- MatmulReduceScatter
- GroupedMatmulAllReduce
- MemSet
- NonMaxSuppressionBucketize
前提条件
已在CANN运行环境上安装Toolkit软件包。详细安装请参见《CANN 软件安装指南》。
已配置CANN基础环境变量,需要以安装时的运行用户登录环境,执行source ${install_path}/set_env.sh命令设置环境变量,其中${install_path}为软件包的安装目录,例如:/usr/local/Ascend/ascend-toolkit。
在使用msaicerr工具前,在“${install_path}/latest/toolkit/tools/msaicerr”目录下获取msaicerr.py。

- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'google'”,是由于缺少protobuf库(用于存储数据的一种数据格式),需使用pip3 install protobuf==3.20.3 --user命令安装protobuf库后,再执行脚本。
- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'chardet'”,是由于缺少chardet库(用于检测字符编码),需使用pip3 install chardet --user命令安装chardet库后,再执行脚本。
- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'bfloat16ext'”,是缺少bfloat16ext库(用于解析bf16类型的数据),需使用pip3 install bfloat16ext --user命令安装bfloat16ext库后,再执行脚本。
使用msaicerr工具分析
- 以运行用户登录Host服务器。
- 使用msaicerr工具快速定位AI Core Error问题的关键原因。
进入“${Toolkit包安装路径}/tools/msaicerr”目录,根据收集AI Core Error问题信息中收集的信息,执行以下命令提取AI Core Error问题相关的关键信息。以下命令中aic_err_info_timestamp为存放AI Core Error问题信息的目录,请根据实际情况替换。
python3 msaicerr.py -p ${HOME}/aic_err_info_timestamp -out $HOME/result
以上命令示例中,通过-p参数指定存放故障信息的目录,例如此处为${HOME}/aic_err_info_timestamp;通过-out参数指定解析结果文件的存放路径,例如此处为$HOME/result,如果不指定,则解析结果默认存放在执行命令的当前路径下。
注意:不能进入-p参数指定的目录或子目录下执行msaicerr工具,例如此处不能进入到aic_err_info_timestamp目录或其子目录中执行msaicerr工具;-out参数指定的目录也不能为-p参数指定的目录或子目录。否则,会出现工具解析卡住或失败的情况。
- 若执行msaicerr工具失败:
- 检查使用工具的前提条件是否满足、收集AI Core Error问题信息中收集的信息是否完整;
- 再参见算子输入args错误排查算子参数问题;
- 如果依然定位不了问题再联系技术支持。您可以获取日志后单击Link联系技术支持。
- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'google'”,是由于缺少protobuf库(用于存储数据的一种数据格式),需使用pip3 install protobuf --user命令安装protobuf库后,再执行脚本。
- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'chardet'”,是由于缺少chardet库(用于检测字符编码),需使用pip3 install chardet --user命令安装chardet库后,再执行脚本。
- 如果执行msaicerr.py脚本报错“ModuleNotFoundError: No module named 'bfloat16ext'”,是缺少bfloat16ext库(用于解析bf16类型的数据),需使用pip3 install bfloat16ext --user命令安装bfloat16ext库后,再执行脚本。
另外,可以使用命令python3 msaicerr.py -h,查看具体参数的含义。
执行命令后,用户根据终端界面提示的info.txt文件所在的路径,通过info.txt文件中的提示信息进行问题分析和定位,重点关注下表所示的关键信息。若收集AI Core Error问题信息中收集的信息中存在多个AI Core Error问题,则msaicerr工具按日志时间解析第一次出现的AI Core Error问题。
- 若执行msaicerr工具失败: