昇腾社区首页
中文
注册

约束限制

  • 训练框架正在向MindIO ACP保存CheckPoint时,如果遇到CheckPoint保存失败,当前正在保存的CheckPoint不能作为训练恢复点,训练框架需要从上一次完整的CheckPoint点进行恢复。
  • 在训练过程中发生MindIO ACP故障,已经下发的业务,MindIO ACP SDK会重试3次连接,3次都失败则对接原生存储方式,重试最长等待60s;在训练开始前发生MindIO ACP故障,MindIO ACP SDK则会跳过对接MindIO ACP,CheckPoint的数据直接对接原生数据存储方式。
  • 本特性与MindIO TFT故障快速恢复特性不兼容。
  • 安装过程中,会通过修改如下环境变量禁用内核的透明大页,会立即生效,无需重启系统:
    echo always > /sys/kernel/mm/transparent_hugepage/shmem_enabled
    echo always > /sys/kernel/mm/transparent_hugepage/enabled