约束限制
训练框架正在向MindIO保存CheckPoint时,如果遇到CheckPoint保存失败,当前正在保存的CheckPoint不能作为训练恢复点,训练框架需要从上一次完整的CheckPoint点进行恢复。
在训练过程中MindIO故障,已经下发的业务,MindIO SDK会重试5次连接,5次都失败则对接原生存储方式,重试最长等待60s;在训练开始前MindIO故障,MindIO SDK则会跳过对接MindIO,CheckPoint的数据直接对接原生数据存储方式。
父主题:
安装前必读