多卡训练场景下,出现训练进程卡死,或者出现训练超时、用户dataloader卡死等现象。
使用pyspy工具查看Python堆栈信息的命令示例如下。
使用pyspy命令前,需要安装gdb和py-spy。若环境中未安装gdb,可通过包管理(如apt-get install gdb命令、yum install gdb命令)进行安装,详细安装步骤及使用方法请参见GDB官方文档;若环境中未安装py-spy,可使用pip3 install py-spy命令安装(若安装时提示pip版本低,例如You are using pip version 19.2.3, however version 24.0 is available,这时可按照提示使用pip3 install --upgrade pip命令升级pip即可)。
# 将指定进程的堆栈信息导出到指定文件中,pid表示卡住的用户进程ID,pyspy.log表示存放堆栈信息的文件,请根据实际情况替换 py-spy dump -p pid > pyspy.log
堆栈信息示例如下(xxxx表示目录名称、trainApp表示训练程序,由实际业务情况决定,此处仅为示例):
1 Process 16203: /train/xxxx/xxxx/xxxx/python3.8 -u -m trainApp --config-dir 2 Python v3.8.19 (/train/xxxx/xxxx/xxxx/python3.8) 3 4 Thread 0xFFFF9CF35B50 (active): "MainThread" 5 poll (multiprocessing/popen_fork.py:27) 6 wait (multiprocessing/popen_fork.py:47) 7 join (multiprocessing/process.py:149) 8 _terminate_pool (multiprocessing/pool.py:729) 9 __call__ (multiprocessing/util.py:224) 10 _scale_down_hw (datasets/datasets.py:96) 11 __init__ (datasets/datasets.py:73) ......
# 先执行gdb命令,pid表示卡住的用户进程ID,请根据实际情况替换 gdb -p pid # 再查看调用栈 (gdb)bt
堆栈信息示例如下:
#0 0x0000ffffa9b2b268 in do_futex_wait.constprop () from /lib/aarch64-linux-gnu/libpthread.so.0 #1 0x0000ffffa9b2b39c in new_sem_waut_slow.constprop.0 () from /lib/aarch64-linux-gnu/libpthread.so.0 #2 0x0000ffffa9e96eb8 in PyThread_acquire_lock_timed () from /usr/local/lib/libpython3.8.so.1.0 #3 0x0000ffffa9e865a8 in _PyThreadState_DeleteExcept () from /usr/local/lib/libpython3.8.so.1.0 #4 0x0000ffffa9eb94ac in _PyOS_AtferFork_Child () from /usr/local/lib/libpython3.8.so.1.0 #5 0x0000ffffa9eb9638 in ?? () from /usr/local/lib/libpython3.8.so.1.0 ......
在Python3.8~Python3.11版本中如果不指定创建进程的方式,或者显式指定为fork时,在创建子进程时可能会复制主进程的锁状态,而在子进程里再触发获取锁时,就会导致死锁,进而导致业务进程卡死。
Python社区也有相关说明:python社区有相同问题的issue:https://github.com/python/cpython/issues/74580
两种解决方式,由用户根据业务情况选用:
在Python官网,针对Python3.8~Python3.11版本都出了补丁版本,解决fork方式引起的bug。
在这些补丁版本中,也有针对fork问题的相应说明,如下:
执行pip show torch命令查找Python安装目录,查询结果示例如下:
在_launch(self,process_obj)函数内添加代码,目的是走fork的子进程都触发堆栈:
例如,在上图70行的位置增加如下代码,用于在fork起进程的地方触发堆栈消息打印:
import traceback import time timestamp = time.time() timestamp_str = str(int(timestamp)) file_name = f"stack_{timestamp_str}.txt" with open("/home/{}.txt".format(file_name),"a") as f: traceback.print_stack(file=f)
在堆栈信息中,先忽略CANN相关的堆栈,只要修改客户业务的fork,切换为“spwan”或“forkserver”启动方式。关于启动方式的详细使用说明,请参见Python官网文档(此处可根据所用的Python版本,选择对应版本的文档)。