昇腾社区首页
中文
注册

约束限制

  • 训练故障快速恢复框架正在向MindIO ACP保存CheckPoint时,如果遇到CheckPoint保存失败,当前正在保存的CheckPoint不能作为训练恢复点,训练框架需要从上一次完整的CheckPoint点进行恢复。
  • 在训练过程中发生MindIO ACP故障,已经下发的业务,MindIO ACP SDK会重试3次连接,3次都失败则对接原生存储方式,重试最长等待60s;在训练开始前发生MindIO ACP故障,MindIO ACP SDK则会跳过对接MindIO ACP,CheckPoint的数据直接对接原生数据存储方式。
  • 本特性与MindIO TFT故障快速恢复特性不兼容。
  • 本特性不配套MindSpore 2.7.0之前的版本,功能无法使用。