PyTorch训练

环境准备

安装PyTorch框架及混合精度模块,详情请参见PyTorch 网络模型迁移和训练的“环境准备”章节。

请自行准备数据集,将训练集和验证集图片上传到训练环境的“train/”和“val/”文件夹路径下。

配置环境变量

  1. 以运行用户登录,在任意目录下执行vi ~/.bashrc命令,打开.bashrc文件,在文件最后一行后面添加以下内容(以非root用户的默认安装路径为例)。
    # Ascend-cann-toolkit环境变量(请根据实际路径修改)
    source ~/Ascend/ascend-toolkit/set_env.sh
    
    # pytorch环境变量(请根据实际路径修改)
    export LD_LIBRARY_PATH=~/.local/lib/python3.7/site-packages/torch/lib:$LD_LIBRARY_PATH
  2. 执行:wq!命令保存文件并退出。
  3. 执行source ~/.bashrc命令使其立即生效。

操作步骤

以下为创建基于“ResNet-50 for PyTorch”模板样例的训练工程总体步骤,用户在操作过程中如需详细了解工程信息及相关弹出窗口,请参见操作步骤

  1. 单击界面左侧“Ascend Training”,新建Ascend Training工程,如图1所示。

    图1 创建工程界面

  2. 训练工程选择界面如图1,选择“CANN Version”“Samples”下的“ResNet-50 for PyTorch”模板。
  3. 单击“Next”配置训练工程其他信息,参数解释请参见创建训练工程
  4. 单击“Finish”完成训练工程的创建。

    首次创建该样例工程时,工具会下载样例工程模板,请确保所在的设备为联网状态,否则无法进行后续操作。

  5. 选择“ResNet-50 for PyTorch”模板样例后工程界面如图2所示。

    图2 模板工程界面

    在Windows系统环境下创建训练样例工程时若出现报错“Unzip failed. There is probleam occurred when unzipping file.”请参见在Windows系统环境下创建训练样例工程时报错“Unzip failed. There is probleam occurred when unzipping file.”解决。

  6. 在工程界面左侧目录找到“run_xx.sh”文件,将环境准备中训练集和验证集图片的路径配置到文件内的“data”字段下,如图3所示。

    图3 配置数据集路径

    MindStudio基于PyTorch框架的ResNet50模板是在训练脚本的代码中设定了训练参数,如需自定义训练参数,则需自行学习PyTorch框架代码。

  7. 配置运行参数并运行。

    1. 单击训练工程界面Run > Edit Configurations...或单击图4所示菜单中的Edit Configurations...,进入运行配置界面。
      图4 快捷方式进入运行配置界面
    2. 配置训练参数,如图5所示。
      图5 运行配置界面

      在右侧配置训练工程运行信息,配置示例如表1所示。

      表1 训练工程运行信息

      参数

      参数说明

      示例

      Name

      工程名称,用户自行配置。

      例如:MyTraining3。

      名称必须以字母开头,数字或字母结尾,只能包含字母、数字、中划线和下划线,且长度不能超过64个字符。

      Run Mode

      运行环境选择。

      Local Run。

      Deployment

      运行配置。

      通过Deploy功能,详细请参见Deployment,可以将指定项目中的文件、文件夹同步到远程指定机器的指定目录。

      本样例运行环境选择为本地,即Run mode选择为Local Run,故此项参数不显示。

      Executable

      训练工程中的执行入口文件。

      例如:run_1p.sh。

      -

      Command Arguments

      训练工程执行参数,可选参数。

      根据实际自行配置。

      Environment Variables

      训练工程环境变量,可选参数。

      根据实际自行配置。

    3. 单击OK完成训练工程信息的创建。
    4. 单击工程界面Run > Run 'MyTraining1'或单击图6所示菜单,执行训练。
      图6 快捷方式执行训练
      训练过程如图7所示。
      图6 训练过程展示
    5. 训练完成后,生成的模型文件位于工程文件中的“result/”目录。