昇腾社区首页
中文
注册

新建增量学习任务后立即上传标注文件无法正常触发训练

问题描述

由于创建任务流程有部分K8s操作需异步完成,创建API返回成功结果时实际工作Pod可能未完全就绪,立即上传难例无法正常触发训练流水线,此时如果继续上传会提示上一个上传任务未完成禁止再次上传。

解决措施

  • 可以等待一分钟后再次点击上传,此时K8s相关Pod已经启动完成,且增量学习管理服务检测到上一个上传任务触发时间达到了一分钟却未触发训练属于异常阻塞情况,会自动解锁上传阻塞状态,允许重新上传标注触发训练。
  • 另一种方案为先停止任务再重启任务,通过对状态文件进行复位消除错误状态。