基于Megatron-LM的大模型迁移

Megatron_npu是昇腾基于NVIDIA Megatron-LM的适配插件，用户可使用该插件，配合Megatron-LM，在NPU上使用其分布式特性，当前Megatron_npu已适配其模型并行、流水线并行、序列并行、分布式优化器等主要特性。使用Megatron-LM训练的大模型，如GPT-3，可参考以下步骤进行模型的迁移与训练。

执行以下命令，下载原始代码仓。

git clone https://github.com/NVIDIA/Megatron-LM.git
cd Megatron-LM
git checkout 285068c8108e0e8e6538f54fe27c3ee86c5217a2

在Megatron-LM目录下，执行以下命令，下载安装模型套件。

git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu_adaptor
cd megatron_npu_adaptor 
pip install -e .

执行以下命令，安装依赖。
```
pip3 install -r requirements.txt
```
环境准备与数据集获取详情请参考readme。
训练前执行如下命令。
```
cd tests_gpt/
mv pretrain_gpt.py ../../
```
执行训练。
```
bash pretrain_gpt_distributed.sh
```
更多拉起训练脚本请参考readme。

父主题： PyTorch大模型训练适配