约束限制

众多大模型框架都支持Zero-1来减少对显存的使用，当前临终遗言特性仅支持开启Zero-1，同时DP（Data Parallelism） Size大于2，且为偶数的场景。
临终遗言特性，会对优化器状态数据做副本，生成临终CheckPoint数据时，通过寻找有效的副本，拼凑出一份完整的优化器状态数据，当训练集群故障较多，通过副本仍然无法拼凑出一个完整副本时，则无法生成临终CheckPoint数据。
临终遗言特性，在生成临终CheckPoint数据时，除了考虑一个完整的数据副本，还要校验数据是否一致。如果发生故障后，存在一个OS（Optimizer State）数据Shard长期处于修改状态，或者OS数据不同Shard间训练迭代不一致，都认为是全局数据不一致，无法生成临终CheckPoint数据。
TTP是在训练任务故障后，保存一次临时CheckPoint，写接口返回后，TTP会通知训练进程、容器立即退出。为了确保TTP写入的数据在进程、容器退出前数据已经到持久化存储，约束TTP写数据直接写入到持久化存储，不使用异步CheckPoint。

父主题： 安装前必读