脚本适配

参考断点续训的脚本适配(用户需保证模型脚本缩减任务规模后能正常加载模型参数)。其中,如果是混合并行模型除了参考基于Pangu_alpha模型的混合并行模型代码适配示例增加恢复的代码,还需要增加恢复策略检查功能。以MindSpore代码仓中master分支的pangu_alpha代码为例,增加恢复策略检查功能代码示例如下。

参考MindXDL-deploy“hccl_check.py”文件提供的代码,在“train.py”文件中进行适配,如以下代码中加粗内容所示:
...
"""
PanguAlpha train script
"""
# 导入依赖
...
def run_train_pipeline(args_opt):
...

# 参考hccl_check.py代码实现
def hccl_check(need_device_num) -> bool:
...

def get_restore_strategy():
...

if __name__ == "__main__":
    get_restore_strategy()
    opt = get_args()
...