昇腾社区首页
中文
注册
开发者
下载

基于Megatron-LM的大模型迁移

Megatron_npu是昇腾基于NVIDIA Megatron-LM的适配插件,用户可使用该插件,配合Megatron-LM,在NPU上使用其分布式特性,当前Megatron_npu已适配其模型并行、流水线并行、序列并行、分布式优化器等主要特性。使用Megatron-LM训练的大模型,如GPT-3,可参考以下步骤进行模型的迁移与训练。

  1. 执行以下命令,下载原始代码仓。
    git clone https://github.com/NVIDIA/Megatron-LM.git
    cd Megatron-LM
    git checkout 285068c8108e0e8e6538f54fe27c3ee86c5217a2
  2. 在Megatron-LM目录下,执行以下命令,下载安装模型套件。
    git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu_adaptor
    cd megatron_npu_adaptor 
    pip install -e .
  3. 执行以下命令,安装依赖。
    pip3 install -r requirements.txt
  4. 环境准备与数据集获取详情请参考readme
  5. 训练前执行如下命令。
    cd tests_gpt/
    mv pretrain_gpt.py ../../
  6. 执行训练。
    bash pretrain_gpt_distributed.sh

    更多拉起训练脚本请参考readme