约束限制
- 训练故障快速恢复框架正在向MindIO ACP保存CheckPoint时,如果遇到CheckPoint保存失败,当前正在保存的CheckPoint不能作为训练恢复点,训练框架需要从上一次完整的CheckPoint点进行恢复。
- 在训练过程中发生MindIO ACP故障,已经下发的业务,MindIO ACP SDK会重试3次连接,3次都失败则对接原生存储方式,重试最长等待60s;在训练开始前发生MindIO ACP故障,MindIO ACP SDK则会跳过对接MindIO ACP,CheckPoint的数据直接对接原生数据存储方式。
- 本特性与MindIO TFT故障快速恢复特性不兼容。
- 本特性不配套MindSpore 2.7.0之前的版本,功能无法使用。
父主题: 安装前必读