在执行ATC工具进行模型转换时,可通过--auto_tune_mode="xx"开关,使能Auto Tune调优工具。
说明:请根据网络中的算子类型,选择合适的调优模式。当前版本RL调优模式耗时较长,通常一个算子调优大约需要5分钟,会根据网络中算子个数进行时间的累加。
命令示例如下所示:
atc --model=./tune.pb --framework=3 --output=./add_tune --output_type=FP16 --soc_version=${soc_version} --auto_tune_mode="RL,GA"
ATC进程数 * TE_PARALLEL_COMPILER * 2 < Host侧CPU核数,其中TE_PARALLEL_COMPILER为算子并行编译进程数。
TBE算子并行编译场景下(即TE_PARALLEL_COMPILER>1),一个调优进程需要对应一个Device,即在进行调优时,不可以进行需要使用Device资源的其他操作,否则会调优异常。
在使用Ascend Graph接口构建离线模型时,可在模型构建初始化接口“aclgrphBuildInitialize”的“global_options”参数中进行如下配置,使能Auto Tune调优工具。
std::map<std::string, std::string> global_options = { {ge::ir_option::SOC_VERSION, "Ascend310"}, {ge::ir_option::EXEC_DISABLE_REUSED_MEMORY, "0"}, {ge::ir_option::AUTO_TUNE_MODE, "RL,GA"} }; auto status = aclgrphBuildInitialize( global_options );
说明:请根据网络中的算子类型,选择合适的调优模式。当前版本RL调优模式耗时较长,通常一个算子调优大约需要5分钟,会根据网络中算子个数进行时间的累加。
IR模型构建时默认不记录日志信息,若想输出Auto Tune的日志信息(Auto Tune记录的为Info级别的日志),请在模型编译接口“aclgrphBuildModel”的“options”参数中添加如下配置:
{ge::ir_option::LOG_LEVEL, "info"}
则Auto Tune的日志信息会记录到Host侧日志中。IR模型构建的详细方法可参见《Ascend Graph开发指南》。
调优过程中可通过环境变量进行如下功能的设置:
构图进程数 * TE_PARALLEL_COMPILER * 2 < Host侧CPU核数。其中TE_PARALLEL_COMPILER为算子并行编译进程数。
TBE算子并行编译场景下(即TE_PARALLEL_COMPILER>1),建议一个构图进程对应一个Device。
详细操作如下所示:
DUMP数据主要包含算子的输出描述文件以及算子的二进制文件等,生成DUMP数据的前提为:
请参见•基础环境变量。
export ENABLE_TUNE_DUMP=True
export TUNE_DUMP_PATH=/home/username/DumpData
使能Auto Tune调优工具的方法为配置auto_tune_mode参数,详细操作方法可参见使用ATC工具进行模型转换时调优。
使能Auto Tune调优工具的方法为在模型构建初始化接口“aclgrphBuildInitialize”的“global_options”参数中配置AUTO_TUNE_MODE,详细操作方法可参见IR模型构建时调优。
模型构建完成后,会在“TUNE_DUMP_PATH”指定的路径下生成DUMP数据。
Auto Tune工具离线调优入口脚本为CANN软件安装后文件存储路径下的:python/site-packages/schedule_search/msoptune.py,用户可直接调用此python文件实现离线调优,调用命令如下:
python3.7.5 {msoptune.py文件所在路径} --start {DUMP数据所在目录}
示例:
python3.7.5 ${INSTALL_DIR}/python/site-packages/schedule_search/msoptune.py --start /home/usrname/DumpData
当前版本同一个Host上只允许开启一个进程进行离线调优,不允许多进程并发调优。