昇腾社区首页
中文
注册
开发者
下载

函数:init

产品支持情况

产品

是否支持

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

Atlas 训练系列产品

Atlas 推理系列产品

Atlas 200I/500 A2 推理产品

功能说明

初始化函数。

函数原型

  • C函数原型
    1
    aclError aclInit(const char *configPath)
    
  • python函数
    1
    ret = acl.init(config_path)
    

参数说明

参数名

说明

config_path

配置文件所在的路径,包含文件名。

配置文件内容为JSON格式(JSON文件内的“{”的层级最多为10,“[”的层级最多为10)。如果以下的默认配置已满足需求,无需修改,可直接调用acl.init接口不传入参数或者可将配置文件配置为空JSON串(即配置文件中只有{})。

配置文件格式为JSON格式,当前支持以下配置:

  • Dump信息配置,包括以下配置(如果算子输入或输出中包含用户的敏感信息,则存在信息泄露风险)。
    • 模型Dump配置(用于导出模型中每一层算子输入和输出数据)、单算子Dump配置(用于导出单个算子的输入和输出数据),导出的数据用于与指定模型或算子进行比对,定位精度问题,配置示例、说明及约束请参见模型Dump配置、单算子Dump配置示例。默认不启用该dump配置。
    • 异常算子Dump配置(用于导出异常算子的输入输出数据、workspace信息、Tiling信息),导出的数据用于分析AI Core Error问题,配置示例请参见异常算子Dump配置示例。默认不启用该dump配置。
    • 溢出算子Dump配置(用于导出模型中溢出算子的输入和输出数据),导出的数据用于分析溢出原因,定位模型精度的问题,配置示例、说明及约束请参见溢出算子Dump配置示例。默认不启用该dump配置。
    • 算子Dump Watch模式配置(用于开启指定算子输出数据的观察模式),在定位部分算子精度问题且已排除算子本身的计算问题后,若怀疑被其它算子踩踏内存导致精度问题,可开启Dump Watch模式,配置示例及约束请参见算子Dump Watch模式配置示例默认不开启Dump Watch模式。
  • Profiling采集信息配置,示例、配置说明及约束请参见性能调优工具用户指南。默认不启用Profiling采集信息配置。
  • 算子缓存信息老化配置,为节约内存和平衡调用性能,可通过“max_opqueue_num”参数配置“算子类型 - 单算子模型”映射队列的最大长度,如果长度达到最大,则会先删除长期未使用的映射信息以及缓存中的单算子模型,再加载最新的映射信息以及对应的单算子模型。如果不配置映射队列的最大长度,则默认最大长度为“20000”。示例及约束说明请参见算子缓存信息老化配置示例
  • 错误信息上报模式配置,用于控制acl.get_recent_err_msg接口按进程或线程级别获取错误信息,默认按线程级别。示例请参见错误信息上报模式配置示例
  • 默认Device配置(用于配置默认的计算设备),配置示例、说明请参见#ZH-CN_TOPIC_0000002518811773/section38127418371

    若同时通过set_device接口指定Device,则aclrtSetDevice接口优先级高。

    如果用户开启默认Device功能后,若需要显式创建Context,则需要调用set_device,否则可能会导致业务异常。

  • AI Core栈空间大小配置,用于控制进程中Kernel执行时为每个AI Core分配的栈空间大小,默认为32K字节。配置示例、使用说明请参见AI Core栈空间大小配置示例。在编译AI Core算子时,只有打开O0开关,此处配置的AI Core栈空间大小才有效。

    仅如下型号支持该配置:

    Atlas A3 训练系列产品 / Atlas A3 推理系列产品

    Atlas A2 训练系列产品 / Atlas A2 推理系列产品

    Atlas 200I/500 A2 推理产品

  • Event资源调度模式配置,用于在捕获方式构建模型运行实例场景下控制Event资源的调度方式,配置示例、使用说明请参见Event资源调度模式配置示例

    仅如下型号支持该配置:

    Atlas A3 训练系列产品 / Atlas A3 推理系列产品

    Atlas A2 训练系列产品 / Atlas A2 推理系列产品

说明:

建议不要同时配置dump信息和Profiling采集信息,否则dump操作会影响系统性能,导致Profiling采集的性能数据指标不准确。

返回值说明

返回值

说明

ret

int,错误码,返回0表示成功,返回其它值表示失败。

约束说明

  • 使用pyacl接口开发应用时,必须先调用acl.init接口,否则可能会导致后续系统内部资源初始化出错,进而导致其它业务异常。

  • 一个进程内支持多次调用aclInit接口初始化,但需调用aclFinalize或aclFinalizeReference接口去初始化,支持以下场景:
    • 每次调用aclInit接口时,配置必须保持一致,否则仅首次调用的配置有效,后续调用aclInit接口可能会导致报错或配置无效。
    • 为兼容旧版本,重复调用aclInit接口会返回ACL_ERROR_REPEAT_INITIALIZE错误码,您可以忽略该错误继续处理业务。
    • 若调用aclInit、aclFinalize接口分别实现初始化、去初始化,支持重复初始化、去初始化,时序上仅支持顺序调用,接口调用时序如下:
      aclInit-->业务处理-->aclFinalize-->aclInit-->业务处理-->aclFinalize

      该场景下,如果调用多次aclInit接口后,再去初始化,仅需调用一次aclFinalize接口,将aclInit接口的引用计数直接清零。

    • 若调用aclInit、aclFinalizeReference接口分别实现初始化、去初始化,则需成对调用aclInit、aclFinalizeReference接口。

      因为aclFinalizeReference接口内部涉及引用计数的实现,aclInit接口每被调用一次,则引用计数加一,aclFinalizeReference接口每被调用一次,则该引用计数减一,当引用计数减到0时,才会真正去初始化。

      支持重复初始化、去初始化,时序上支持顺序调用,也支持并发调用,接口调用时序如下:

      • 顺序调用时序图如下:

      • 并发调用时序图如下:

溢出算子Dump配置示例

将dump_debug参数设置为on表示开启溢出算子配置,配置文件中的示例内容如下:
{
    "dump":{
        "dump_path":"output",
        "dump_debug":"on"
    }
}
详细配置说明及约束如下:
  • 不配置dump_debug或将dump_debug配置为off表示不开启溢出算子配置。
  • 若开启溢出算子配置,则dump_path必须配置,表示导出dump文件的存储路径。

    获取导出的数据文件后,文件的解析请参见精度调试工具用户指南中的溢出算子数据采集与解析章节。

    dump_path支持配置绝对路径或相对路径:
    • 绝对路径配置以“/”开头,例如:/home。
    • 相对路径配置直接以目录名开始,例如:output。
  • 溢出算子Dump配置,不能与模型Dump配置或单算子Dump配置同时开启,否则会返回报错。
  • 仅支持采集AI Core算子的溢出数据。

算子Dump Watch模式配置示例

将dump_scene参数设置为watcher,开启算子Dump Watch模式,配置文件中的示例内容如下,配置效果为:(1)当执行完A算子、B算子时,会把C算子和D算子的输出Dump出来;(2)当执行完C算子、D算子时,也会把C算子和D算子的输出Dump出来。将(1)、(2)中的C算子、D算子的Dump文件进行比较,用于排查A算子、B算子是否会踩踏C算子、D算子的输出内存。

{
    "dump":{
        "dump_list":[
            {
                "layer":["A", "B"],
                "watcher_nodes":["C", "D"]
            }
        ],
        "dump_path":"/home/",
        "dump_mode":"output",
        "dump_scene":"watcher"
    }
}

详细配置说明及约束如下:

  • 若开启算子Dump Watch模式,则不支持同时开启溢出算子Dump(配置dump_debug参数)或开启单算子模型Dump(配置dump_op_switch参数),否则报错。该模式在单算子API Dump场景下不生效。
  • 在dump_list中,通过layer参数配置可能踩踏其它算子内存的算子名称,通过watcher_nodes参数配置可能被其它算子踩踏输出内存导致精度有问题的算子名称。
    • 若不指定layer,则模型内所有支持Dump的算子在执行后,都会将watcher_nodes中配置的算子的输出Dump出来。
    • layer和watcher_node处配置的算子都必须是静态图、静态子图中的算子,否则不生效。
    • 若layer和watcher_node处配置的算子名称相同,或者layer处配置的是集合通信类算子(算子类型以Hcom开头,例如HcomAllReduce),则只导出watcher_node中所配置算子的dump文件。
    • 对于融合算子,watcher_node处配置的算子名称必须是融合后的算子名称,若配置融合前的算子名称,则不导出dump文件。
    • dump_list内暂不支持配置model_name。
  • 开启算子Dump Watch模式,则dump_path必须配置,表示导出dump文件的存储路径。

    此处收集的dump文件无法通过文本工具直接查看其内容,若需查看dump文件内容,先将dump文件转换为numpy格式文件后,再通过Python查看numpy格式文件,详细转换步骤请参见精度调试工具用户指南中的查看dump数据文件章节。

    dump_path支持配置绝对路径或相对路径:
    • 绝对路径配置以“/”开头,例如:/home。
    • 相对路径配置直接以目录名开始,例如:output。
  • 通过dump_mode参数控制导出watcher_nodes中所配置算子的哪部分数据,当前仅支持配置为output。

默认Device配置示例

default_device参数处设置Device ID,Device ID可设置为0或十进制正整数,用户可调用aclrtGetDeviceCount接口获取可用的Device数量后,这个Device ID的取值范围:[0, (可用的Device数量-1)]。

配置文件中的示例内容如下:

{
    "defaultDevice":{
        "default_device":"0"
    }
}

AI Core栈空间大小配置示例

aicore_stack_size参数处设置栈空间大小,单位为字节,取值有以下要求:

  • aicore_stack_size是16K的整数倍,若传入aicore_stack_size不是16K的整数倍,则会向上取整,确保其为16K的整数倍。
  • aicore_stack_size最小值为32K,若传入的aicore_stack_size小于32K,则按默认配置32K处理。
  • 各产品的aicore_stack_size最大值如下:

    昇腾910_95 AI处理器上,aicore_stack_size最大值为128K。

    Atlas A3 训练系列产品 / Atlas A3 推理系列产品 上,aicore_stack_size最大值为192K。

    Atlas A2 训练系列产品 / Atlas A2 推理系列产品 上,aicore_stack_size最大值为192K。

    Atlas 200I/500 A2 推理产品 上,aicore_stack_size最大值为7680K。

配置文件中的示例内容如下:

{
    "StackSize":{
        "aicore_stack_size":32768
    }
}

Event资源调度模式配置示例

event_mode参数取值范围:0为默认值,表示内存模式,即Event资源数量受内存限制;1表示硬件加速模式,即Event资源数量受硬件规格限制,但性能更优。

配置文件中的示例内容如下:

{
    "acl_graph":{
        "event_mode":"0"
    }
}

参考资源

接口调用示例,参见初始化与去初始化

当前还提供了其它使能Dump或Profiling的接口,如下,与aclInit不同的是,以下这些接口相对灵活,可以在一个进程内调用多次接口,每次调用接口时可以基于不同的Dump配置或Profiling配置。