昇腾社区首页
中文
注册

在PC训练模型

制作数据集

  1. 收集待标记的png、jpg、JPEG、bmp、webp格式图片数据,推荐使用jpg格式。图片分辨率不高于1080P,单张图片不大于1MB,推荐每个类别的图片数量在100张左右,图片名称不支持字符".",需放置在全英文路径下。
  2. 为模型迁移准备数据集,进行图像标注,在工具界面选择“分类模型”
    图1 选择数据集标签界面
    • 选择制作数据集,配置1收集的数据集的路径。
      1. 配置标签信息,即需要分类的类别名称,用英文表示并用逗号隔开,不支持其他字符。例如:apple,banana,watermelon,tangerine。
      2. 单击“确认”,开始标注,对应每张图片,从右侧标记栏选择对应的标签名称,当前图片标注完成后,从图片上方菜单单击图标或左侧文件列表选择下一张图片进行标记,直到完成所有图片的标注任务。
        图2 图片标注界面
      • 在分类任务下进行标注时,只能选择右侧“标记”栏进行标注,选择图形标注不可用。
      • 分类模型下不能在标注界面增加分类类别,如果分类类型有增加,需要重新制作数据集,在制作数据集弹框输入即可。
      • 分类时会在输入图片文件夹地址下,生成与图片一一对应的json文件,记录标注信息。
      • 分类时会在输入图片文件夹同级目录生成flags.txt文件。
    • 选择“已有数据集”:无需进行图像标注,单击“确认”后,可直接开始模型迁移。

模型迁移

  1. 在工具界面单击下方“一键迁移”按钮,进入配置界面,输入迁移信息,单击“一键迁移”开始迁移。
    图3 模型一键迁移配置界面

    • 数据集路径:2中标注的数据集路径。
    • 数据集拆分:将图片划分成训练、验证以及测试集的比例,推荐值:0.3。默认拆分0.1的测试集用于边缘推理,训练集与验证集按输入拆分比例再次进行拆分。
    • 迭代次数:训练轮次,推荐值:100。
    • 每批图片数:参与每个批次训练的图片张数,推荐值:12。
    • 输出目录:模型输出路径。
    • 使用早停策略:勾选后,可根据设置的acc值(准确率,一般指在所有图片中,预测正确的概率得分)和持续迭代不上升次数,提前停止训练。
      • acc达到(值):该训练模型精度已达标,可停止训练的阈值,默认值:0.99。
      • acc连续迭代不上升次数:acc值达到某一水平,多次迭代后并无提升的次数,默认值:10。

    当使用模型适配工具一键迁移时突然断电、重启、进程卡死或手动取消时,可能会引起输出文件残留,请用户自行删除残留文件后再进行一键迁移,请参见使用模型适配工具一键迁移时出现输出文件夹残留手动取消迁移导致模型适配工具异常退出解决。

  2. 迁移完成后会出现提示框,提示已生成打包好的文件,如图4所示。在训练输出目录会生成以下文件与目录,如图5所示。
    • train_output:训练输出的权重文件、onnx文件以及训练数据信息json文件。
    • trans_output:经过数据转换,根据数据集拆分设置生成的测试集、验证集、训练集。
    • edge_infer.tar:打包好的推理相关模型文件与脚本。
      图4 迁移完成
      图5 输出文件