准备训练环境
准备环境
默认配置需要每张卡有60G以上空闲内存。
当前模型支持的 PyTorch 版本和已知三方库依赖如下表所示。
表 1 版本支持表
软件名称 版本 链接 CANN 8.0.RC3 LINK HDK 24.1.RC3 LINK FrameworkPTAdapter 6.0.rc3-pytorch2.1.0 LINK
准备模型权重
获取语言识别模型和预训练权重
用户从链接获取模型文件和8份权重文件(pytorch_model-0000*-of-00008.bin),并放于model目录下,微调依赖该模型权重。 model参考目录如下
├── model ├── .gitattributes ├── Baichuan2 模型社区许可协议.pdf ├── Community License for Baichuan2 Model.pdf ├── README.md ├── config.json ├── configuration_baichuan.py ├── generation_utils.py ├── modeling_baichuan.py ├── pytorch_model-00001-of-00003.bin (LFS) ├── pytorch_model-00002-of-00003.bin (LFS) ├── pytorch_model-00003-of-00003.bin (LFS) ├── pytorch_model.bin.index.json ├── quantizer.py ├── special_tokens_map.json ├── tokenization_baichuan.py ├── tokenizer.model (LFS) └── tokenizer_config.json
开始训练
通过MindSpeed-LLM执行高性能大模型训练
开发者可访问MindSpeed代码仓了解模型详细执行流程:
MindSpeed-LLM 环境配置指南详见:
https://gitee.com/ascend/MindSpeed-LLM/blob/master/docs/features/install_guide.md
Baichuan2模型预训练数据预处理可以参考:
https://gitee.com/ascend/MindSpeed-LLM/blob/master/docs/features/pretrain_dataset.md
Baichuan2模型权重分布式转换可以参考:
https://gitee.com/ascend/MindSpeed-LLM/blob/master/docs/features/checkpoint.md
Baichuan2模型预训练执行脚本:
https://gitee.com/ascend/MindSpeed-LLM/blob/master/examples/mcore/baichuan2/pretrain_baichuan2_13b_ptd.sh