本章节指导用户查看使用故障处理的优雅容错模式的训练信息。当芯片发生故障时,进程退出后进行优雅容错处理,恢复后重新拉起进程。
日志说明
重新拉起的训练进程的训练日志在“训练脚本路径/newlog”中,具体说明如下。
- Resnet50(PyTorch):“/data/atlas_dls/public/code/scripts/newlog”。
- GPT-3:“/data/atlas_dls/public/code/scripts/newlog”。
- Resnet50(MindSpore):“/data/atlas_dls/public/code/scripts/train_parallel0/newlog”。
- Pangu_alpha:“/data/atlas_dls/code/device0/newlog”。
操作步骤
- 登录管理节点,执行以下命令查看芯片情况。
npu-smi info
回显示例如下,此时表示训练进程占用片上内存,正常训练中。

- 故障发生后,执行以下命令查看芯片信息。
npu-smi info
回显示例如下,此时表示训练进程已退出,释放片上内存。

- 故障恢复后,执行以下命令查看芯片信息。
npu-smi info
回显示例如下,此时表示训练进程已重新拉起占用片上内存,正常训练中。
