增量学习管理服务作为ICS-Manager的核心特性,承载着对增量学习进行全生命周期管理的任务。其主要功能包括创建增量学习任务的参数配置,任务启动、停止与删除,训练数据的收集与展示,对边缘推理数据进行定时批量难例筛选后难例图片的下载与标注数据的上传,以及训练完成后模型的部署。
条件约束
- 增量学习任务最多同时创建128个。
- 不同增量学习任务所使用的minio工作目录不可互相冲突。
- 用户填写的训练卡号必须确保在设备上存在。假如设备有8张NPU,卡号必须在0~7之间。假如设备有4张NPU,卡号必须在0~3之间。增量学习管理服务暂不支持对填写的卡的存在性进行检查,如果使用不存在的卡进行训练,可能导致训练组件异常卡死。
- 不同增量学习任务所使用的训练卡不可互相冲突(同一张训练卡只允许分配给一个任务)。如果训练过程中出现指定的卡被其他任务占用的情况,会导致训练组件报错。
- 使用多卡训练时,使用的卡需要满足昇腾设备对多卡训练的要求,如四卡只能是“0,1,2,3”或者“4,5,6,7”。
任务管理状态
- 运行中
此状态代表增量学习任务运行中,对应WFE实例处于运行状态。
此状态下中心难例筛选定时任务处于运行状态,支持下载难例进行标注,上传标注触发训练,查看训练信息和部署模型。
- 已停止
此状态代表增量学习任务已停止,对应WFE实例处于停止状态。
此状态下中心难例筛选定时任务处于停止状态,不支持上传标注文件,但支持查看训练数据和下载已标注文件。