约束限制

众多大模型框架都支持Zero-1来减少对显存的使用，当前临终遗言特性仅支持开启Zero-1，同时DP（Data Parallelism） Size大于1，Megatron框架支持DP Size为偶数，Modellink框架支持DP Size为奇数或偶数。
DP Size限制：
- 为了保证故障发生后，有完整的优化器状态数据，要求DP Size大于1。
- 针对分布式优化器，MindIO实现优化器数据副本的方式，是在Zero-1功能的基础上，通过以算代传实现，在DP Size域上减少优化器Zero-1切分范围，实现了优化器副本。因此要求DP Size大于1，否则无法使用临终遗言功能。
临终遗言特性，会对优化器状态数据做副本，生成临终CheckPoint数据时，通过寻找有效的副本，拼凑出一份完整的优化器状态数据，当训练集群故障较多，通过副本仍然无法拼凑出一个完整副本时，则无法生成临终CheckPoint数据。
临终遗言特性，在生成临终CheckPoint数据时，除了考虑一个完整的数据副本，还要校验数据是否一致。如果发生故障后，存在一个OS（Optimizer State）数据Shard长期处于修改状态，或者OS数据不同Shard间训练迭代不一致，都认为是全局数据不一致，无法生成临终CheckPoint数据。
TTP是在训练任务故障后，保存一次临时CheckPoint，写接口返回后，TTP会通知训练进程、容器立即退出。为了确保TTP写入的数据在进程、容器退出前数据已经到持久化存储，约束TTP写数据直接写入到持久化存储，不使用异步CheckPoint。
TTP目前不支持故障叠加场景。例如：当TTP正在save时，如果出现其他故障，就会save失败。

父主题： 安装前必读