Device的slog日志(report/*/slog/dev-os-id/[run|debug]/device-os/device-os_*.log)中存在“ [fault_manager] event_id: [0x80C98000]”关键字。
2024-04-22-09-06-17/hisi_logs/device-2/20240422090623-533810000/log/ts.log:5177:[ERROR] TSCH(-1,null):2024-04-20-17:02:52.772.875 35906 (dieid:0,cpuid:0) aicore.c:767 stars_print_error_pc_icache_and_hbm_info: stat f or dump pc start, aiv_id=47, icache_miss_num=8161, hbm_miss_num=0, compare_num=32, compare_fail_num=
[ERROR] TSCH(-1,null):2024-09-04-00:12:52.986.322 438 (dieid:0,cpuid:0) aicore_icache_plat.c:848 check_error_pc_icache_and_hbm_info: stat for dump pc start, aic_id=1, icache_miss_num=8176, hbm_miss_num=0, compare_num=17, compare_fail_num=0
在报错关键字处,查看compare_fail_num打印信息,若compare_fail_num值不等于0,则说明存在icache内存跳变硬件故障。
单击《健康管理故障定义》获取对应版本的手册,icache内存跳变故障有如下说明(列举部分关键字段):
Event ID |
0x80C98000 |
---|---|
故障事件名称 |
AICORE指令数据校验失败。 |
故障解释/可能原因 |
icache数据与GM校验不一致。可能原因包括:
|
故障影响 |
当前AI任务失败,如果该AI Core没有恢复正常,则后续AI任务也失败。 |
故障自处理模式 |
|
系统处理建议 |
|