临终遗言功能说明

临终遗言功能相比故障恢复功能区别在于发生故障时会保存断点处的临终ckpt文件,重训练时直接加载临终ckpt文件,实现断点续训。

查看临终ckpt文件

  1. 登录存储节点,执行以下步骤,进入ckpt文件路径。

    cd /data/atlas_dls/public/code/ResNet50_for_MindSpore_2.0.0-alpha_code_endpoint/output/checkpoint/ckpt_0

  2. 执行以下命令,查看ckpt_0文件。

    ll ./
    回显示例如下。
    total 800448
    drwx------  2 root root      4096 Mar 22 19:34 ./
    drwx------ 18 root root      4096 Mar 22 19:21 ../
    -r--------  1 root root 204715348 Mar 22 19:24 resnet-10_24.ckpt
    -r--------  1 root root 204715348 Mar 22 19:34 resnet_1-12_24_breakpoint.ckpt
    -r--------  1 root root 204715348 Mar 22 19:34 resnet-12_24_breakpoint.ckpt
    -r--------  1 root root 204715348 Mar 22 19:24 resnet-5_24.ckpt
    -rw-------  1 root root    767018 Mar 22 19:23 resnet-graph.meta