训练状态监控

前提条件

操作步骤

以执行权重梯度监控功能为例，创建配置文件。
以在训练脚本所在目录创建monitor_config.json配置文件为例，文件内容拷贝如下示例配置。
1 2 3 4 5 6 7
{ "targets": { }, "wg_distribution": true, "format": "csv", "ops": ["norm", "min", "max", "nans"] }

在训练脚本中添加工具，如下所示。

在PyTorch训练状态监控代码样例中插入如下代码，样例中已插入下列代码，直接拷贝使用即可。

 23
import torch_npu
from torch_npu.contrib import transfer_to_npu

monitor = TrainerMon(
   config_file_path="./monitor_config.json",
   params_have_main_grad=False,  # 权重是否使用main_grad，通常megatron为True，deepspeed为False。默认为True。
) 
...
   # switch to train mode
   model.train()

   # 挂载监控对象
   monitor.set_monitor(
       model,
       grad_acc_steps=1,
       optimizer=optimizer,
       dp_group=None,
       tp_group=None,
       start_iteration=0  # 断点续训时提供当前iteration，默认从0开始
   ) 
...

执行训练脚本命令。

python pytorch_main.py -a resnet50 -b 32 --gpu 1 --dummy

查看结果。
训练执行完成后在当前路径生成monitor_output目录，目录下根据时间戳生成多份结果，查看最新目录下的文件，如下所示。
图1 结果文件内容

输出结果详细介绍请参见“输出路径”。

父主题： 模型精度调试（PyTorch）