训练状态监控

前提条件

操作步骤

以执行权重梯度监控功能为例，创建配置文件。
以在训练脚本所在目录创建monitor_config.json配置文件为例，文件内容拷贝如下示例配置。
1 2 3 4 5 6 7
{ "targets": { }, "wg_distribution": true, "format": "csv", "ops": ["norm", "min", "max", "nans"] }

在训练脚本中添加工具，如下所示。

添加以下接口前，建议注释前面步骤的非训练脚本接口。

MindSpore训练场景：

...
from msprobe.mindspore import TrainerMon
monitor = TrainerMon(
    config_file_path="./monitor_config.json",
    process_group=None,
    params_have_main_grad=True,  # 权重是否使用main_grad，通常megatron为True，deepspeed为False。默认为True。
)

...

model = Net()
optimizer = nn.Momentum(model.trainable_params(), 1, 0.9)
# 挂载监控对象
monitor.set_monitor(
    model,
    grad_acc_steps=1,
    optimizer=optimizer,
    dp_group=None,
    tp_group=None)
...

PyTorch训练场景：

完整代码请参见PyTorch训练状态监控代码样例。

 23
import torch_npu
from torch_npu.contrib import transfer_to_npu

monitor = TrainerMon(
   config_file_path="./monitor_config.json",
   params_have_main_grad=False,  # 权重是否使用main_grad，通常megatron为True，deepspeed为False。默认为True。
) 
...
   # switch to train mode
   model.train()

   # 挂载监控对象
   monitor.set_monitor(
       model,
       grad_acc_steps=1,
       optimizer=optimizer,
       dp_group=None,
       tp_group=None,
       start_iteration=0  # 断点续训时提供当前iteration，默认从0开始
   ) 
...

执行训练脚本命令。

MindSpore训练场景：
```
python mindspore_main.py
```

PyTorch训练场景：

python pytorch_main.py -a resnet50 -b 32 --gpu 1 --dummy

查看结果。
训练执行完成后在当前路径生成monitor_output目录，目录下根据时间戳生成多份结果，查看最新目录下的文件，如下所示。
图1 结果文件内容

输出结果详细介绍请参见“输出路径”。

父主题： 模型精度调试