Torch对接X1框架
- 登录到计算节点。
- 进入X1安装目录。
cd {X1安装目录}/Megatron-LM/megatron
- 修改checkpointing.py文件。
- 打开checkpointing.py文件。
vim checkpointing.py
- 按“i”进入编辑模式,修改如下内容。
- 在文件首行加入以下内容。
import mindio_acp
- 将torch.load函数替换为mindio_acp.load函数。
替换后:
optim_checkpoint = mindio_acp.load(optim_load_path, map_location='cpu')
- 将普通的torch.save函数替换为mindio_acp.save函数。
替换后:
mindio_acp.save(state, save_path)
- 在文件首行加入以下内容。
- 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
- 打开checkpointing.py文件。
父主题: 使用指导