昇腾社区首页
中文
注册

约束限制

  • 众多大模型框架都支持Zero-1来减少对显存的使用,当前临终遗言特性仅支持开启Zero-1,同时DP(Data Parallelism) Size大于1,Megatron框架支持DP Size为偶数,Modellink框架支持DP Size为奇数或偶数。

    DP Size限制:

    • 为了保证故障发生后,有完整的优化器状态数据,要求DP Size大于1。
    • 针对分布式优化器,MindIO实现优化器数据副本的方式,是在Zero-1功能的基础上,通过以算代传实现,在DP Size域上减少优化器Zero-1切分范围,实现了优化器副本。因此要求DP Size大于1,否则无法使用临终遗言功能。
  • 临终遗言特性,会对优化器状态数据做副本,生成临终CheckPoint数据时,通过寻找有效的副本,拼凑出一份完整的优化器状态数据,当训练集群故障较多,通过副本仍然无法拼凑出一个完整副本时,则无法生成临终CheckPoint数据。
  • 临终遗言特性,在生成临终CheckPoint数据时,除了考虑一个完整的数据副本,还要校验数据是否一致。如果发生故障后,存在一个OS(Optimizer State)数据Shard长期处于修改状态,或者OS数据不同Shard间训练迭代不一致,都认为是全局数据不一致,无法生成临终CheckPoint数据。
  • TTP是在训练任务故障后,保存一次临时CheckPoint,写接口返回后,TTP会通知训练进程、容器立即退出。为了确保TTP写入的数据在进程、容器退出前数据已经到持久化存储,约束TTP写数据直接写入到持久化存储,不使用异步CheckPoint。
  • TTP目前不支持故障叠加场景。例如:当TTP正在save时,如果出现其他故障,就会save失败。