def __init__(self,
enable_dump=False,
dump_path=None,
dump_step=None,
dump_mode="output",
enable_dump_debug=False,
dump_debug_mode="all",
dump_data="tensor",
dump_layer=None
)
DumpConfig类的构造函数,用于配置dump功能。
enable_dump和enable_dump_debug不能同时开启。
参数名 |
输入/输出 |
描述 |
---|---|---|
enable_dump |
输入 |
是否开启Data Dump功能,默认值:False。
|
dump_path |
输入 |
Dump文件保存路径。enable_dump或enable_dump_debug为true时,该参数必须配置。 该参数指定的目录需要在启动训练的环境上(容器或Host侧)提前创建且确保安装时配置的运行用户具有读写权限,支持配置绝对路径或相对路径(相对执行命令行时的当前路径)。
|
dump_step |
输入 |
指定采集哪些迭代的Data Dump数据。默认值:None,表示所有迭代都会产生dump数据。 多个迭代用“|”分割,例如:0|5|10;也可以用"-"指定迭代范围,例如:0|3-5|10。 |
dump_mode |
输入 |
Data Dump模式,用于指定dump算子输入还是输出数据。取值如下:
|
enable_dump_debug |
输入 |
是否开启溢出检测功能,默认值:False。
|
dump_debug_mode |
输入 |
溢出检测模式,取值如下:
|
dump_data |
输入 |
指定算子dump内容类型,取值:
大规模训练场景下,通常dump数据量太大并且耗时长,可以先dump所有算子的统计数据,根据统计数据识别可能异常的算子,然后再指定dump异常算子的input或output数据。 |
dump_layer |
输入 |
指定需要dump的算子。取值为算子名,多个算子名之间使用空格分隔。若不配置此字段,默认dump全部算子。 |
返回DumpConfig类对象,作为NPURunConfig的参数传入。