基于Megatron-LM的大模型迁移
Megatron_npu是昇腾基于NVIDIA Megatron-LM的适配插件,用户可使用该插件,配合Megatron-LM,在NPU上使用其分布式特性,当前Megatron_npu已适配其模型并行、流水线并行、序列并行、分布式优化器等主要特性。使用Megatron-LM训练的大模型,如GPT-3,可参考以下步骤进行模型的迁移与训练。
- 执行以下命令,下载原始代码仓。
git clone https://github.com/NVIDIA/Megatron-LM.git cd Megatron-LM git checkout 285068c8108e0e8e6538f54fe27c3ee86c5217a2
- 在Megatron-LM目录下,执行以下命令,下载安装模型套件。
git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu_adaptor cd megatron_npu_adaptor pip install -e .
- 执行以下命令,安装依赖。
pip3 install -r requirements.txt
- 环境准备与数据集获取详情请参考readme。
- 训练前执行如下命令。
cd tests_gpt/ mv pretrain_gpt.py ../../
- 执行训练。
父主题: PyTorch大模型训练适配
