约束限制
- 训练框架正在向MindIO ACP保存CheckPoint时,如果遇到CheckPoint保存失败,当前正在保存的CheckPoint不能作为训练恢复点,训练框架需要从上一次完整的CheckPoint点进行恢复。
- 在训练过程中发生MindIO ACP故障,已经下发的业务,MindIO ACP SDK会重试3次连接,3次都失败则对接原生存储方式,重试最长等待60s;在训练开始前发生MindIO ACP故障,MindIO ACP SDK则会跳过对接MindIO ACP,CheckPoint的数据直接对接原生数据存储方式。
- 本特性与MindIO TFT故障快速恢复特性不兼容。
- 安装过程中,会通过修改如下环境变量禁用内核的透明大页,会立即生效,无需重启系统:
echo always > /sys/kernel/mm/transparent_hugepage/shmem_enabled echo always > /sys/kernel/mm/transparent_hugepage/enabled
父主题: 安装前必读