分布式优化器在开启ZeRO特性后,优化器状态数据全局只有一份,无数据冗余。MindIO TFT通过增加优化器状态冗余数据副本,保证故障场景下优化器状态数据的完整性,但同时该方案会导致片上内存使用增加。在原有的模型配置基础上,直接使用MindIO TFT可能会导致模型训练启动过程中出现片上内存OOM(Out Of Memory)异常。在此情况下,需要通过扩容增加训练作业的片上内存总量。增加副本对应增加的片上内存大小计算公式:增加片上内存总量(GB) = 模型参数量N(B) * 12 * 副本数,其中,模型参数量的单位为B(十亿),通过以上公式,计算出需要增加的片上内存,扩容后,再使用MindIO TFT。