参考断点续训的脚本适配(用户需保证模型脚本缩减任务规模后能正常加载模型参数)。其中,如果是混合并行模型除了参考基于Pangu_alpha模型的混合并行模型代码适配示例增加恢复的代码,还需要增加恢复策略检查功能。以MindSpore代码仓中master分支的pangu_alpha代码为例,增加恢复策略检查功能代码示例如下。
... """ PanguAlpha train script """ # 导入依赖 ... def run_train_pipeline(args_opt): ... # 参考hccl_check.py代码实现 def hccl_check(need_device_num) -> bool: ... def get_restore_strategy(): ... if __name__ == "__main__": get_restore_strategy() opt = get_args() ...