昇腾社区首页
中文
注册

parse_plog_hccl工具使用指导

  • 命令:
    python3 parse_plog_hccl.py path [--Force_kill=1]
  • 参数说明:
    • path:必须参数,需指定为待解析的plog日志所在的路径,该路径下包含所有卡的日志文件。该路径可以是绝对路径也可以是相对路径。
    • --Force_kill=1仅云环境版本需设置该参数
  • 屏显结果分析

    脚本执行过程中,会有对应的日志输出,示例如下:

    示例日志内容说明如下:

    • 第一行:无心跳的rankid。仅云环境版本涉及该输出内容
    • 第二行:主要是错误的结果日志,表明错误是不是属于HCCL组件,如果是,则会给出错误的原因。
    • 第三行:打印最先报错的rankid及报错时间。
    • 第四行:打印最晚报错的rankid及报错时间。
    • 第四行:建链/notify超时时间阈值。
    • 第五行:集群rank数量。
    • 第六行及以后:打印最早报错的rank里面的详细的ERROR日志。

    注意:对于对于非HCCL错误(包括日志老化,环境问题等),对日志输出无固定格式。示例如下: