优雅容错模式
本章节指导用户查看使用故障处理的优雅容错模式的训练信息。当芯片发生故障时,进程退出后进行优雅容错处理,恢复后重新拉起进程。
日志说明
重新拉起的训练进程的训练日志在“训练脚本路径/newlog”中,具体说明如下。
- LLAMA2(PyTorch)训练日志:“/data/atlas_dls/public/code/LLAMA2_for_PyTorch_2.7_code/alllogs”。
- LLAMA2(MindSpore)训练日志:“/data/atlas_dls/public/code/LLAMA2_for_MS_code/alllogs”。
操作步骤
- 登录管理节点,执行以下命令查看芯片情况。
npu-smi info
回显示例如下,此时表示训练进程占用片上内存,正常训练中。

- 故障发生后,执行以下命令查看芯片信息。
npu-smi info
回显示例如下,此时表示训练进程已退出,释放片上内存。

- 故障恢复后,执行以下命令查看芯片信息。
npu-smi info
回显示例如下,此时表示训练进程已重新拉起占用片上内存,正常训练中。

父主题: 查看训练结果