云上集群训练任务失败时,面对大量的日志,用户较难快速锁定问题rank,影响集群问题定位效率。parse_plog_hccl工具工具会自动解析HCCL组件的日志,快速给出集群中未报错的/最早报错的rankid,并辅助定界/定位一些集群常见问题,通过打屏呈现给用户。
适用于以下场景:
1. 有心跳检测版本。(云环境涉及)
2. 判断是否有卡训练未拉起或异常退出导致集群训练失败,并给出问题的rankid。
3. 判断是否存在卡间异步时间过长引起集群互相等待超时导致集群训练失败,并给出最早/最晚拉起集合通信任务的rankid。
4. 判断是否存在常见的HCCL内task执行失败(SDMA计算溢出、memcpy访问越界)导致的集群训练失败。
使用plog解析日志工具前,请确保环境已经安装以下模块:
已安装python软件,且使用的python版本为3.7.5及以上版本,ubuntu系统下可以使用apt-get install python3命令安装。
在“Toolkit包安装路径{$install_path}/tools”目录下获取parse_plog_hccl工具parse_plog_hccl.py。