昇腾社区首页
中文
注册

initialize_system

产品支持情况

产品

是否支持

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品

Atlas 800I A2 推理产品/A200I A2 Box 异构组件

x

Atlas 200I/500 A2 推理产品

x

Atlas 推理系列产品

x

Atlas 训练系列产品

Atlas 200/300/500 推理产品

x

针对Atlas A3 推理系列产品,仅支持在线推理特性。

功能说明

一般执行训练不需要调用该接口,如果用户统计训练时间时不想包括GE初始化时间,可以使用该接口。使用集合通信接口时,需要先调用该接口进行集合通信初始化。

函数原型

1
def initialize_system(name = None)

参数说明

参数名

输入/输出

描述

name

输入

算子名称。

返回值

返回一个op,供用户通过sess.run(op)完成GE初始化。

约束说明

如果需要调用initialize_system接口,且训练执行时需要使能如下功能时,则必须在initialize_system起session时配置。

表1 initialize_system中的session配置项

配置项

说明

profiling_mode

是否开启Profiling功能。

  • True:开启Profiling功能,从profiling_options读取Profiling的采集选项。
  • False:关闭Profiling功能,默认关闭。

profiling_options

Profiling采集选项,取值如下。

  • output:Profiling采集结果文件保存路径。支持配置绝对路径或相对路径(相对执行命令行时的当前路径)。路径中不能包含特殊字符:"\n"、"\f"、"\r"、"\b"、"\t"、"\v"、"\u007F"。
    • 绝对路径配置以“/”开头,例如:/home/output。
    • 相对路径配置直接以目录名开始,例如:output。
    • 该参数优先级高于ASCEND_WORK_PATH。
    • 该路径无需用户提前创建,采集过程中会自动创建。
  • storage_limit:指定落盘目录允许存放的最大文件容量。当Profiling数据文件在磁盘中即将占满本参数设置的最大存储空间或剩余磁盘总空间即将被占满时(总空间剩余<=20MB),则将磁盘内最早的文件进行老化删除处理。

    范围[200, 4294967295],单位为MB,设置该参数时必须带单位,例如200MB。

    未配置本参数时,默认取值为Profiling数据文件存放目录所在磁盘可用空间的90%。

  • training_trace:采集迭代轨迹数据开关,即训练任务及AI软件栈的软件信息,实现对训练任务的性能分析,重点关注前后向计算和梯度聚合更新等相关数据。当采集正向和反向算子数据时该参数必须配置为on。
  • task_trace、task_time:控制采集算子下发耗时和算子执行耗时的开关。涉及在task_time、op_summary、op_statistic等文件中输出相关耗时数据。配置值:
    • on:开启,默认值,和配置为l1的效果一样。
    • off:关闭。
    • l0:采集算子下发耗时、算子执行耗时数据。与l1相比,由于不采集算子基本信息数据,采集时性能开销较小,可更精准统计相关耗时数据。
    • l1:采集算子下发耗时、算子执行耗时数据以及算子基本信息数据,提供更全面的性能分析数据。

    当训练profiling mode开启即采集训练Profiling数据时,配置task_trace为on的同时training_trace也必须配置为on。

  • hccl:控制通信数据采集开关,可选on或off,默认为off。
    说明:

    此开关后续版本会废弃,请使用task_trace、task_time开关控制相关数据采集。

  • aicpu:采集AICPU算子的详细信息,如:算子执行时间、数据拷贝时间等。取值on/off,默认为off。
  • fp_point:指定训练网络迭代轨迹正向算子的开始位置,用于记录前向计算开始时间戳。配置值为指定的正向第一个算子名字。用户可以在训练脚本中,通过tf.io.write_graph将graph保存成.pbtxt文件,并获取文件中的name名称填入;也可直接配置为空,由系统自动识别正向算子的开始位置,例如"fp_point":""。
  • bp_point:指定训练网络迭代轨迹反向算子的结束位置,记录后向计算结束时间戳,BP_POINT和FP_POINT可以计算出正反向时间。配置值为指定的反向最后一个算子名字。用户可以在训练脚本中,通过tf.io.write_graph将graph保存成.pbtxt文件,并获取文件中的name名称填入;也可直接配置为空,由系统自动识别反向算子的结束位置,例如"bp_point":""。
  • aic_metrics:AI Core和AI Vector Core的硬件信息,取值如下:
    • ArithmeticUtilization:各种计算类指标占比统计。
    • PipeUtilization:计算单元和搬运单元耗时占比,该项为默认值。
    • Memory:外部内存读写类指令占比。
    • MemoryL0:内部L0内存读写类指令占比。
    • MemoryUB:内部UB内存读写类指令占比。
    • ResourceConflictRatio:流水线队列类指令占比。
    • L2Cache:读写L2 Cache命中次数和缺失后重新分配次数。
    • MemoryAccess:算子在核上访存的带宽数据量。

    Atlas 训练系列产品:支持AI Core采集,不支持AI Vector Core,不支持L2 Cache、MemoryAccess参数。

    Atlas A2 训练系列产品:支持AI Core和AI Vector Core采集。

    Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持AI Core和AI Vector Core采集。

    说明:
    支持自定义需要采集的寄存器,例如:"aic_metrics":"Custom:0x49,0x8,0x15,0x1b,0x64,0x10"。
    • Custom字段表示自定义类型,配置为具体的寄存器值,范围[0x1, 0x6E]。
    • 配置的寄存器数最多不能超过8个,寄存器通过“,”区分开。
    • 寄存器的值支持十六进制或十进制。
  • l2:控制L2 Cache采样数据的开关,可选on或off,默认为off。
  • msproftx:控制msproftx用户和上层框架程序输出性能数据的开关,可选on或off,默认值为off。
  • runtime_api:控制runtime api性能数据采集开关,可选on或off,默认为off。可采集runtime-api性能数据,包括Host与Device之间、Device间的同步异步内存复制时延等。
  • sys_hardware_mem_freq:片上内存、QoS的带宽及内存信息采集频率、LLC的读写带宽数据采集频率、Acc PMU数据和SOC传输带宽信息采集频率、组件内存采集频率,范围[1,100],单位hz。

    不同产品支持情况不同,请以实际实现为准。

    说明:

    已知在安装有glibc<2.34的环境上采集memory数据,可能触发glibc的一个已知Bug 19329,通过升级环境的glibc版本可解决此问题。

  • llc_profiling:LLC Profiling采集事件,可以设置为:
    • Atlas 训练系列产品,可选read(读事件,三级缓存读速率)或write(写事件,三级缓存写速率),默认为read。
    • Atlas A2 训练系列产品,可选read(读事件,三级缓存读速率)或write(写事件,三级缓存写速率),默认为read。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品,可选read(读事件,三级缓存读速率)或write(写事件,三级缓存写速率),默认为read。
  • sys_io_sampling_freq:NIC、ROCE采集频率。范围[1,100],单位hz。
    • Atlas 训练系列产品:支持采集NIC和ROCE。
    • Atlas A2 训练系列产品:支持采集NIC和ROCE。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持采集NIC和ROCE。
  • sys_interconnection_freq:集合通信带宽数据(HCCS)、PCIe数据采集频率以及片间传输带宽信息采集频率。范围[1,50],单位hz。
    • Atlas 训练系列产品:支持采集HCCS、PCIe数据。
    • Atlas A2 训练系列产品:支持采集HCCS、PCIe数据、片间传输带宽信息。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持采集HCCS、PCIe数据、片间传输带宽信息。
  • dvpp_freq:DVPP采集频率。范围[1,100],单位hz。
  • instr_profiling_freq:AI Core和AI Vector的带宽和延时采集频率。范围[300,30000],单位hz。
    • Atlas 训练系列产品:不支持。
    • Atlas A2 训练系列产品:支持,但instr_profiling_freq与training_trace、task_trace、hccl、aicpu、fp_point、bp_point、aic_metrics、l2、task_time、runtime_api互斥,无法同时执行。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持,但instr_profiling_freq与training_trace、task_trace、hccl、aicpu、fp_point、bp_point、aic_metrics、l2、task_time、runtime_api互斥,无法同时执行。
  • host_sys:Host侧性能数据采集开关。取值如下,可选其中的一项或多项,选多项时用英文逗号隔开,例如"host_sys": "cpu,mem"。
    • cpu:进程级别的CPU利用率。
    • mem:进程级别的内存利用率。
  • host_sys_usage:采集Host侧系统及所有进程的CPU和内存数据。取值包括cpu和mem,可选其中的一项或多项,选多项时用英文逗号隔开。
  • host_sys_usage_freq:配置Host侧系统和所有进程CPU、内存数据的采集频率。范围[1,50],默认值50,单位hz。
说明:
  • 除动态shape场景外的其他场景,fp_point、bp_point为自动配置项,无需用户手动配置。动态shape场景不支持自动配置fp/bp,需要用户手动设置。
  • 在线推理支持task_trace和aicpu,不支持training_trace。

enable_dump

是否开启Data Dump功能,默认值:False。

  • True:开启Data Dump功能,从dump_path读取Dump文件保存路径,dump_path为None时会产生异常。
  • False:关闭Data Dump功能。
说明:
  • 不能同时开启Data Dump与溢出数据采集功能,即不同时将enable_dump和enable_dump_debug参数配置为“True”。
  • 若“enable_dump/enable_dump_debug(二选一)”参数配置为“True”,同时“enable_exception_dump”配置为了“1”(即开启普通异常算子dump)。此时,针对动态shape网络,仅“enable_exception_dump”生效;针对静态shape网络,“enable_exception_dump”与“enable_dump/enable_dump_debug(二选一)”都生效。

dump_path

Dump文件保存路径。enable_dump或enable_dump_debug为true时,该参数必须配置。

该参数指定的目录需要在启动训练的环境上(容器或Host侧)提前创建且确保安装时配置的运行用户具有读写权限,支持配置绝对路径或相对路径(相对执行命令行时的当前路径)。

  • 绝对路径配置以“/”开头,例如:/home/HwHiAiUser/output。
  • 相对路径配置直接以目录名开始,例如:output。

dump_step

指定采集哪些迭代的Data Dump数据。默认值:None,表示所有迭代都会产生dump数据。

多个迭代用“|”分割,例如:0|5|10;也可以用"-"指定迭代范围,例如:0|3-5|10。

dump_mode

Data Dump模式,用于指定dump算子输入还是输出数据。取值如下:

  • input:仅Dump算子输入数据
  • output:仅Dump算子输出数据,默认为output。
  • all:Dump算子输入和输出数据
说明:

配置为all时,由于部分算子在执行过程中会修改输入数据,例如集合通信类算子HcomAllGather、HcomAllReduce等,因此系统在进行dump时,会在算子执行前dump算子输入,在算子执行后dump算子输出,这样,针对同一个算子,算子输入、输出的dump数据是分开落盘,会出现多个dump文件,在解析dump文件后,用户可通过文件内容判断是输入还是输出。

enable_dump_debug

是否开启溢出检测功能,默认值:False。

  • True:开启溢出检测功能,从dump_path读取Dump文件保存路径,dump_path为None时会产生异常。
  • False:关闭溢出检测功能。
    说明:
    • 不能同时开启Data Dump与溢出数据采集功能,即不同时将enable_dump和enable_dump_debug参数配置为“True”。
    • 若“enable_dump/enable_dump_debug(二选一)”参数配置为“True”,同时“enable_exception_dump”配置为了“1”(即开启普通异常算子dump)。此时,针对动态shape网络,仅“enable_exception_dump”生效;针对静态shape网络,“enable_exception_dump”与“enable_dump/enable_dump_debug(二选一)”都生效。

dump_debug_mode

溢出检测模式,取值如下:
  • aicore_overflow:AI Core算子溢出检测,检测在算子输入数据正常的情况下,输出是否不正常的极大值(如float16下65500,38400,51200这些值)。一旦检测出这类问题,需要根据网络实际需求和算子逻辑来分析溢出原因并修改算子实现。
  • atomic_overflow:Atomic Add溢出检测模式,在AICore计算完,由UB搬运到OUT时,产生的Atomic Add溢出问题。
  • all:同时进行AI Core算子溢出检测和Atomic Add溢出检测。默认值为“all”。
    说明:

    针对Atlas A2 训练系列产品,仅支持配置为默认值“all”。

precision_mode

算子精度模式,配置要求为string类型。

  • allow_fp32_to_fp16:对于矩阵类算子,使用float16;对于矢量类算子,优先保持原图精度,如果网络模型中算子支持float32,则保留原始精度float32,如果网络模型中算子不支持float32,则直接降低精度到float16。
  • force_fp16:算子既支持float16又支持float32数据类型时,强制选择float16。此参数仅适用于在线推理场景。
  • cube_fp16in_fp32out/force_fp32:算子既支持float16又支持float32数据类型时,系统内部根据算子类型的不同,选择合适的处理方式。配置为force_fp32或cube_fp16in_fp32out,效果等同,cube_fp16in_fp32out为新版本中新增配置,对于矩阵计算类算子,该选项语义更清晰。
    • 对于矩阵计算类算子,系统内部会按算子实现的支持情况处理:
      1. 优先选择输入数据类型为float16且输出数据类型为float32。
      2. 如果1中的场景不支持,则选择输入数据类型为float32且输出数据类型为float32。
      3. 如果2中的场景不支持,则选择输入数据类型为float16且输出数据类型为float16。
      4. 如果以上场景都不支持,则报错。
    • 对于矢量计算类算子,如果网络模型中算子同时支持float16和float32,强制选择float32,若原图精度为float16,也会强制转为float32。如果网络模型中存在部分算子,并且该算子实现不支持float32,比如某算子仅支持float16类型,则该参数不生效,仍然使用支持的float16;如果该算子不支持float32,且又配置了混合精度黑名单(precision_reduce = false),则会使用float32的AI CPU算子。
  • must_keep_origin_dtype:保持原图精度。
    • 如果原图中某算子精度为float16,但NPU中该算子实现不支持float16,仅支持float32和bfloat16,则系统内部自动采用高精度float32。
    • 如果原图中某算子精度为float16,AI Core中该算子的实现不支持float16,仅支持bfloat16,则会使用float16的AI CPU算子;如果AI CPU算子也不支持,则执行报错。
    • 如果原图中某算子精度为float32,AI Core中该算子实现不支持float32,仅支持float16,则会使用float32的AI CPU算子;如果AI CPU算子也不支持,则执行报错。
  • allow_mix_precision_fp16/allow_mix_precision:开启自动混合精度功能,表示混合使用float16和float32数据类型来处理神经网络的过程。

    配置为allow_mix_precision或allow_mix_precision_fp16,效果等同,其中allow_mix_precision_fp16为新版本中新增配置,语义更清晰,便于理解。针对全网中float32数据类型的算子,系统会按照内置优化策略自动将部分float32的算子降低精度到float16,从而在精度损失很小的情况下提升系统性能并减少内存使用。开启该功能开关后,用户可以同时使能Loss Scaling,从而补偿降低精度带来的精度损失。

  • allow_mix_precision_bf16:开启自动混合精度功能,表示混合使用bfloat16和float32数据类型来处理神经网络的过程。针对网络模型中float32数据类型的算子,按照内置的优化策略,自动将部分float32的算子降低精度到bfloat16,从而在精度损失很小的情况下提升系统性能并减少内存使用。如果算子不支持bfloat16和float32,则使用AI CPU算子进行计算,如果AI CPU算子也不支持,则执行报错。

    说明:Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品,支持此配置。

  • allow_fp32_to_bf16:对于矩阵计算类算子,使用bfloat16;对于矢量计算类算子,优先保持原图精度,如果网络模型中算子支持float32,则保留原始精度float32,如果网络模型中算子不支持float32,则直接降低精度到bfloat16,如果算子不支持bfloat16和float32,则使用AI CPU算子进行计算,如果AI CPU算子也不支持,则执行报错。

    说明:Atlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品,支持此配置。

针对Atlas 训练系列产品,默认配置项为“allow_fp32_to_fp16”。

针对Atlas A2 训练系列产品,默认配置项为“must_keep_origin_dtype”。

graph_run_mode

图执行模式,取值:

  • 0:在线推理场景下,请配置为0。
  • 1:训练场景下,请配置为1,默认为1。

op_debug_level

算子debug功能开关,取值:

  • 0:不开启算子debug功能。
  • 1:开启算子debug功能,在训练脚本执行目录下的kernel_meta文件夹中生成TBE指令映射文件(算子cce文件*.cce、python-cce映射文件*_loc.json、.o和.json文件),用于后续工具进行AICore Error问题定位。
  • 2:开启算子debug功能,在训练脚本执行目录下的kernel_meta文件夹中生成TBE指令映射文件(算子cce文件*.cce、python-cce映射文件*_loc.json、.o和.json文件),并关闭ccec编译器的编译优化开关且打开ccec调试功能(ccec编译器选项设置为-O0-g),用于后续工具进行AICore Error问题定位。
  • 3:不开启算子debug功能,且在训练脚本执行目录下的kernel_meta文件夹中保留.o和.json文件。
  • 4:不开启算子debug功能,在训练脚本执行目录下的kernel_meta文件夹中保留.o(算子二进制文件)和.json文件(算子描述文件),生成TBE指令映射文件(算子cce文件*.cce)和UB融合计算描述文件({$kernel_name}_compute.json)。
    须知:
    • 当该参数取值为0时,同时又配置了功能调试中的“op_debug_config”参数,则训练执行时,仍会在当前执行路径下生成算子编译目录kernel_meta,目录中生成的内容以“op_debug_config”配置为准。
    • 训练执行时,建议配置为0或3。如果需要进行问题定位,再选择调试开关选项1和2,是因为加入了调试功能后,会导致网络性能下降。
    • 配置为2(即开启ccec编译选项)的场景下,不能与op_debug_config中的“oom”同时使用,会导致AI Core Error报错,报错信息示例如下。
      ...there is an aivec error exception, core id is 49, error code = 0x4 ...
    • 配置为2(即开启ccec编译选项)的场景下,会增大算子Kernel(*.o文件)的大小。动态shape场景下,由于算子编译时会遍历可能存在的所有场景,最终可能会导致由于算子Kernel文件过大而无法进行编译的情况,此种场景下,建议不要配置为2。

      由于算子kernel文件过大而无法编译的日志显示如下:

      message:link error ld.lld: error: InputSection too large for range extension thunk ./kernel_meta_xxxxx.o:(xxxx)
    • 当该参数取值不为0时,可通过功能调试中的“debug_dir”参数指定调试相关过程文件的存放路径。
    • 该参数取值为0,同时设置了NPU_COLLECT_PATH环境变量的场景,执行命令当前路径下仍旧会生成算子编译目录kernel_meta;若设置了ASCEND_WORK_PATH环境变量,则在该环境变量指定路径下生成kernel_meta。关于环境变量的详细说明,可参见环境变量参考
    • debug功能开关打开场景下,若模型中含有如下通算融合算子,算子编译目录kernel_meta中,不会生成下述算子的*.o、*.json、*.cce文件。

      MatMulAllReduce

      MatMulAllReduceAddRmsNorm

      AllGatherMatMul

      MatMulReduceScatter

      AlltoAllAllGatherBatchMatMul

      BatchMatMulReduceScatterAlltoAll

enable_exception_dump

是否dump异常算子数据。
  • 0:关闭异常算子数据dump功能。
  • 1:开启普通ExceptionDump,dump异常算子的输入输出数据、tensor描述信息(shape、dtype、format等)以及workspace信息。

    dump数据存储路径优先级为:环境变量NPU_COLLECT_PATH > 环境变量ASCEND_WORK_PATH > 默认路径(当前脚本执行路径下的extra-info目录)。

  • 2(默认值):开启LiteExceptionDump,dump异常算子的输入输出数据、workspace信息、Tiling信息等,导出的数据用于分析AI Core Error问题(关于AI Core Error问题的信息收集及定位,详细说明请参见故障处理手册中的“典型故障专题 > AI Core Error问题定位专题”)。

    dump数据存储路径优先级为:环境变量ASCEND_WORK_PATH > 默认路径(指当前脚本执行路径下的extra-info/data-dump/<device_id>目录)。

说明:

若配置了环境变量NPU_COLLECT_PATH,不论配置项“enable_exception_dump”的取值如何,都按照“1:普通ExceptionDump”进行异常算子数据dump,且dump数据存储在环境变量NPU_COLLECT_PATH的指定目录下。

op_select_implmode

昇腾AI处理器部分内置算子有高精度和高性能实现方式,用户可以通过该参数配置模型编译时选择哪种算子。取值包括:

  • high_precision:表示算子选择高精度实现。高精度实现算子是指在fp16输入的情况下,通过泰勒展开/牛顿迭代等手段进一步提升算子的精度。
  • high_performance:表示算子选择高性能实现。高性能实现算子是指在fp16输入的情况下,不影响网络精度前提的最优性能实现。默认为high_performance。

optypelist_for_implmode

列举算子optype的列表,该列表中的算子使用op_select_implmode参数指定的模式,当前支持的算子为Pooling、SoftmaxV2、LRN、ROIAlign,多个算子以英文逗号分隔。

该参数需要与op_select_implmode参数配合使用,例如:

op_select_implmode配置为high_precision。

optypelist_for_implmode配置为Pooling。

默认值为空,代表不使能此配置。

调用示例

如果在sess.run或者estimator.train之前调用get_local_rank_id/get_rank_size/get_rank_id等HCCL接口,需要先另起session执行initialize_system,进行集合通信初始化,然后在训练结束后执行shutdown_system,同时关闭session。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
import tensorflow as tf
from npu_bridge.npu_init import *
npu_int = npu_ops.initialize_system()
npu_shutdown = npu_ops.shutdown_system()

config = tf.ConfigProto()
custom_op =  config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name =  "NpuOptimizer"
custom_op.parameter_map["use_off_line"].b = True
config.graph_options.rewrite_options.remapping = RewriterConfig.OFF
config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

init_sess = tf.Session(config=config)
init_sess.run(npu_int)

#调用HCCL接口...
#执行训练...

init_sess.run(npu_shutdown)
init_sess.close()

或者:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
import tensorflow as tf
from npu_bridge.npu_init import *
npu_init = npu_ops.initialize_system()
npu_shutdown = npu_ops.shutdown_system()

config = tf.ConfigProto()
custom_op =  config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name =  "NpuOptimizer"
custom_op.parameter_map["use_off_line"].b = True
config.graph_options.rewrite_options.remapping = RewriterConfig.OFF
config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF

with tf.Session(config=config) as sess:
    sess.run(npu_init)
    #调用HCCL接口...
    #执行训练...
    sess.run(npu_shutdown)