您可以按如下步骤定位问题,若无法解决问题,再联系技术支持。您可以获取日志后单击Link联系技术支持。
准备阶段,需收集故障信息,包括:CANN日志文件、exception dump文件、算子编译信息(*.o和*.json)。如何收集故障信息,请参见收集AI Core Error问题信息。
从收集的日志中,在slog/dev-os-id/run/event/event_*.log中找到发生AI Core Error问题附近时间、对应Device的系统日志,检查日志中是否存在“event_id”关键字,若不存在,则跳转到2继续排查;若存在,则单击《健康管理故障定义》获取对应版本的手册并查阅其中的解决方法,典型问题案例请参见HBM比特ECC故障、icache数据校验故障、AI Core超时故障。
若存在,则继续使用ascend-dmi工具压测AI Core,若压测异常,则表示已知硬件故障,需联系技术支持更换硬件(典型问题案例请参见AI Core硬件故障,);若压测正常,则需要在程序中指定其它Device,再执行程序看问题是否可以复现,如果复现则跳转3继续排查,如果不复现则表示可能为硬件故障,需联系技术支持更换硬件。您可以获取日志后单击Link联系技术支持。
ascend-dmi工具需要单独安装,压测AI Core的命令示例如下,若打屏报错GENERAL_WARN或EMERGENCY_WARN表示可能存在AI Core问题:
ascend-dmi --dg -i aicore -s
ascend-dmi工具在MindCluster ToolBox软件包中,该软件与CANN的配套关系请单击Link查询,ascend-dmi工具的安装及详细使用指导请参见Link。
典型索引类算子包括GatherV2、Scatter、GatherElements等。
msaicerr工具的详细操作请参见使用msaicerr工具分析AI Core Error问题。