昇腾社区首页
中文
注册

NPU数据dump

  1. 修改训练脚本,插入dump配置。
    • session.run模式训练配置示例:
      import precision_tool.tf_config as npu_tf_config
      config = npu_tf_config.session_dump_config(config, action='dump')
      sess = tf.Session(config)
    • estimator模式训练配置示例:
      import precision_tool.tf_config as npu_tf_config
      dump_config=npu_tf_config.estimator_dump_config(action='dump')
      npu_config = NPURunConfig(dump_config=dump_config)
    • session.run模式下,不支持dump配置和Rec SDK模型保存功能同时使用。
    • 多卡训练时,仅需在某一张卡的训练中增加dump配置,否则多卡同时保存会导致数据冲突。
  2. 执行训练。

    将训练最大步数修改为1后执行训练。Dump数据文件会生成在“precision_data/npu/debug_0/”指定的目录下,即precision_data/npu/debug_0/dump/{time}/{deviceid}/{model_name}/{model_id}/{data_index}目录下。文件目录结构示例:

    precision_data/npu/debug_0/dump/20240125153144/0/ge_default_20240125153322_41/6/0/
    表1 dump数据文件路径格式说明

    路径key

    说明

    备注

    dump_path

    dump数据存放路径(如果设置的是相对路径,则为拼接后的全路径)。

    -

    time

    dump数据文件落盘的时间。

    格式为:YYYYMMDDHHMMSS

    deviceid

    Device设备ID号。

    -

    model_name

    子图名称。

    model_name层可能存在多个文件夹,dump数据取计算图名称对应目录下的数据。

    如果model_name出现了“.”、“/”、“\”以及空格时,转换为下划线表示。

    model_id

    子图ID号。

    --

    data_index

    迭代数,用于保存对应迭代的dump数据。

    如果指定了dump_step,则data_index和dump_step一致;如果不指定dump_step,则data_index序号从0开始计数,每dump一个迭代的数据,序号递增1。