约束限制
- 众多大模型框架都支持Zero-1来减少对显存的使用,当前临终遗言特性仅支持开启Zero-1,同时DP(Data Parallelism) Size大于2,且为偶数的场景。
- 临终遗言特性,会对优化器状态数据做副本,生成临终CheckPoint数据时,通过寻找有效的副本,拼凑出一份完整的优化器状态数据,当训练集群故障较多,通过副本仍然无法拼凑出一个完整副本时,则无法生成临终CheckPoint数据。
- 临终遗言特性,在生成临终CheckPoint数据时,除了考虑一个完整的数据副本,还要校验数据是否一致。如果发生故障后,存在一个OS(Optimizer State)数据Shard长期处于修改状态,或者OS数据不同Shard间训练迭代不一致,都认为是全局数据不一致,无法生成临终CheckPoint数据。
- TTP是在训练任务故障后,保存一次临时CheckPoint,写接口返回后,TTP会通知训练进程、容器立即退出。为了确保TTP写入的数据在进程、容器退出前数据已经到持久化存储,约束TTP写数据直接写入到持久化存储,不使用异步CheckPoint。
父主题: 安装前必读