优雅容错模式

本章节指导用户查看使用故障处理的优雅容错模式的训练信息。当芯片发生故障时,进程退出后进行优雅容错处理,恢复后重新拉起进程。

日志说明

重新拉起的训练进程的训练日志在训练脚本路径/newlog”中,具体说明如下。

操作步骤

  1. 登录管理节点,执行以下命令查看芯片情况。

    npu-smi info

    回显示例如下,此时表示训练进程占用片上内存,正常训练中。

  2. 故障发生后,执行以下命令查看芯片信息。

    npu-smi info

    回显示例如下,此时表示训练进程已退出,释放片上内存。

  3. 故障恢复后,执行以下命令查看芯片信息。

    npu-smi info

    回显示例如下,此时表示训练进程已重新拉起占用片上内存,正常训练中。