基于Megatron-LM的大模型迁移

Megatron_npu是昇腾基于NVIDIA Megatron-LM的适配插件,用户可使用该插件,配合Megatron-LM,在NPU上使用其分布式特性,当前Megatron_npu已适配其模型并行、流水线并行、序列并行、分布式优化器等主要特性。使用Megatron-LM训练的大模型,如GPT-3,可参考以下步骤进行模型的迁移与训练。

  1. 执行以下命令,下载原始代码仓。

    git clone https://github.com/NVIDIA/Megatron-LM.git
    cd Megatron-LM
    git checkout 285068c8108e0e8e6538f54fe27c3ee86c5217a2

  2. 在Megatron-LM目录下,执行以下命令,下载安装模型套件。

    git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu_adaptor
    cd megatron_npu_adaptor 
    pip install -e .

  3. 执行以下命令,安装依赖。

    pip3 install -r requirements.txt

  4. 环境准备与数据集获取详情请参考readme
  5. 执行前置命令。

    cd tests_gpt/
    mv pretrain_gpt.py ../../

  6. 执行训练。

    bash pretrain_gpt_distributed.sh

    更多拉起训练脚本请参考readme