parse_plog_hccl工具使用指导
- 命令:
python3 parse_plog_hccl.py path [--Force_kill=1]
- 参数说明:
- path:必须参数,需指定为待解析的plog日志所在的路径,该路径下包含所有卡的日志文件。该路径可以是绝对路径也可以是相对路径。
- --Force_kill=1:仅云环境版本需设置该参数。
- 屏显结果分析:
脚本执行过程中,会有对应的日志输出,示例如下:
示例日志内容说明如下:
- 第一行:无心跳的rankid。仅云环境版本涉及该输出内容。
- 第二行:主要是错误的结果日志,表明错误是不是属于HCCL组件,如果是,则会给出错误的原因。
- 第三行:打印最先报错的rankid及报错时间。
- 第四行:打印最晚报错的rankid及报错时间。
- 第四行:建链/notify超时时间阈值。
- 第五行:集群rank数量。
- 第六行及以后:打印最早报错的rank里面的详细的ERROR日志。
注意:对于对于非HCCL错误(包括日志老化,环境问题等),对日志输出无固定格式。示例如下: