本小节以pangu-alpha四节点训练场景为例,展示当某个训练节点产生故障时,如何确认断点续训功能是否正常运行。
- 现象一:检查模型保存路径是否有带有“breakpoint.ckpt”后缀的模型文件,文件数量为训练节点数*单节点芯片数。本例中,一共会生成32个模型文件,如下图所示。
图1 生成模型文件
- 现象二:检查ModelArts日志,观察“breakpoint.ckpt”模型文件是否加载成功。如果成功,会有如下日志信息输出(下方是某个节点上单个进程输出信息,用户可以查验是否所有节点对应日志是否包含完整的输出信息,本例中,包含32条如下类似日志)。
Start to load from /efs/pangu/ckpt_deviceos/rank_0/pangu0-493_2_breakpoint.ckpt
- 现象三:故障产生时,MindSpore框架捕获异常,检查ModelArts日志,观察到如下输出。
图2 ModelArts日志