昇腾社区首页
中文
注册

迁移训练流程

描述将TensorFlow原始模型迁移到昇腾平台执行训练的总体流程,以及训练过程中昇腾平台上各组件的交互流程。

模型迁移训练流程

模型迁移主要工作就是将TensorFlow原始模型迁移到昇腾AI处理器上,主要流程如下图所示。

图1 TensorFlow模型迁移训练流程

各组件交互流程

图2 交互流程
  1. 当用户执行训练代码后,TensorFlow前端会根据用户提供的训练脚本,生成训练模型,读取指定路径下的 checkpoint 文件完成模型权重初始化或随机初始化。
  2. 随后,框架前端会通过TF Adapter调用GE初始化接口,完成设备打开、计算引擎初始化、算子信息库初始化等操作,然后,将前端训练模型转换为IR格式的模型,并启动模型编译和执行;在图优化引擎GE中,它还会完成Shape推导、常量折叠、算子融合等优化操作。在完成图优化后会根据算子信息库将计算图拆分为不同的子图,每个子图都可以执行在同一个设备上,如GE会调用FE接口完成AI Core计算算子编译,调用AI CPU接口完成AI CPU计算算子编译,调用集合通信接口(HCCL)完成集合通信算子编译。而在每一个具体模块中,也会进行特定的子图优化。
  3. 待计算图的编译和优化都完成后,GE会调用Runtime接口分配运行资源,包含内存、 Stream、Event等,待计算资源分配完成后,交由Runtime运行时对资源进行管理。