MindSpeed MM全新支持FSDP训练后端，开启多模态模型训练敏捷创新

MindSpeed多模态训练后端

发表于: 2026/02/03

随着多模态AI应用日渐普及，大模型的高效训练已成为技术发展的核心挑战。然而，现有训练框架在扩展性、易用性和效率上均有不足，制约了模型开发效率和算法创新。为此，昇腾MindSpeed MM多模态模型套件正式支持FSDP训练后端，以直观设计、灵活扩展和高效部署为核心优势，致力于显著降低多模态模型的开发与调优门槛，助力AI技术更广泛、更深入地赋能千行百业。本文将以近期刚开源的先进语音大模型Qwen3-TTS为例，展示MindSpeed MM基于新FSDP训练后端对新模型的高效适配和快速迁移。

1 MindSpeed MM全新支持FSDP训练后端的核心亮点

图1 MindSpeed MM FSDP训练后端介绍

MindSpeed MM构建了一套基于FSDP训练后端的全新分布式多模态模型训练套件，区别于Megatron训练后端，该框架通过解耦并行策略与模型结构的设计，支持FSDP、EP、CP三维并行能力的灵活组合，显著降低了大模型训练的工程复杂性与配置成本。框架具备跨硬件平台支持能力，可高效运行于多种计算设备，确保在不同硬件环境下的训练效率。在性能优化方面，MindSpeed MM通过融合算子与显存管理技术，大幅提升了训练吞吐与资源利用效率。
相比较原有框架，全新FSDP训练后端的MindSpeed MM套件具有以下核心优势：
1）轻量化：解耦模型结构与并行策略，支持Hugging Face等三方模型，通过简单YAML配置即可启用分布式训练，大幅降低工程门槛；
2）多维并行：支持FSDP、EP、CP三维并行能力的灵活组合，支撑长序列、千亿参数规模大模型高效训练；
3）极致性能：提供昇腾亲和算子库、chunk loss、异步offload等计算优化、内存优化、通信加速等能力，大幅提升训练效率；
4）直观代码设计：提供端到端的预训练/微调功能，消减复杂臃肿的权重转换和环境依赖，提高二次开发和算法创新效率。

2 基于FSDP训练后端，MindSpeed MM套件针对新模型适配周期从周级降到天级

前不久，Qwen开源发布语音功能强大的Qwen3-TTS系列语音模型，凭借Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，实现高效声学压缩与高维语义建模，完整保留环境特征，并采用轻量级非DiT架构，达成端到端流式生成仅97ms的低延迟，支持实时交互。该模型通过离散多码本语言模型实现全信息端到端语音建模，突破传统“LM+DiT”架构的信息瓶颈。支持10种主流语言及方言，具备强大的上下文理解与抗噪鲁棒性，能够通过自然语言指令灵活控制音色、情感与语调，真正实现“你所想象的，便是你所听到的”。

图2 Qwen3-TTS模型结构图

MindSpeed MM多模态套件首次实现对该模型进行高效适配，直接导入开源模型数据和模型，通过YAML文件配置训练流程和使能并行方式，快速支持模型训练功能，相较原有基于Megatron训练后端的周级开发周期，基于FSDP训练后端的新版套件两天内即可完成功能适配和效果对齐，充分验证MindSpeed MM全新FSDP训练后端的多模态套件在新模型支持上的高易用性和扩展性。

3 快速上手-基于新FSDP训练后端的MindSpeed MM套件完成Qwen3-TTS模型训练

3.1 环境安装

1）环境准备

模型开发时推荐使用配套的环境版本，请参考安装指南：https://gitcode.com/Ascend/MindSpeed-MM/blob/master/docs/user-guide/installation.md

2）环境搭建

详细信息可参考文档：环境搭建

git clone --branch fsdp2_dev https://gitcode.com/Ascend/MindSpeed-MM.git

# 安装mindspeed及依赖
git clone https://gitcode.com/Ascend/MindSpeed.git
cd MindSpeed
cp -r mindspeed ../MindSpeed-MM/

# 安装mindspeed mm及依赖
cd ../MindSpeed-MM
pip install -e .

# 安装其它依赖
pip install -r examples/fsdp2/qwen3tts/requirements.txt

3.2 数据预处理

1）分词器准备

从Hugging Face库或ModelScope库下载对应的Tokenizer文件:

社区

下载地址

Hugging Face

https://huggingface.co/Qwen/Qwen3-TTS-Tokenizer-12Hz

ModelScope

https://modelscope.cn/models/Qwen/Qwen3-TTS-Tokenizer-12Hz

下载后将Tokenizer文件保存到本地目录下。

2）数据准备

以KAN-TTS数据集为例，下载KAN-TTS开源数据集文件，下载地址：https://modelscope.cn/datasets/modelscope/DAMO.NLS.KAN-TTS.OpenDataset/files

运行以下解压和数据格式转换脚本：

# 执行解压命令
unzip -o opentts_data.zip -d opentts_data

# 执行数据格式转换脚本
python examples/fsdp2/qwen3tts/process_data.py \
  --opentts_data_path opentts_data \
  --output_jsonl_path train_raw.jsonl \
  --ref_audio_path ref_audio.wav \

# 其中：
# opentts_data_path: tts数据集路径
# output_jsonl_path：转换后数据文件的保存路径
# ref_audio_path：参考音频文件路径，若参数不存在或参考音频不存在，则从数据集中随机选择一条数据作为参考音频

通过上述转换脚本将原始数据文件处理为JSONL格式的train_raw.jsonl文件，每行为一个JSON对象，包含以下字段：

字段	内容
audio	目标训练音频文件路径，支持wav格式，频率仅支持24kHz
text	目标训练音频对应的文本内容
ref_audio	参考音频文件路径，支持wav格式

转换后示例如下：

{"audio":"/opentts_data/000001.wav","text":"有一回来个参观团，是县文物局组织的。","ref_audio":"/opentts_data/ref.wav"}
{"audio":"/opentts_data/000002.wav","text":"基础设施是产业发展的前提。","ref_audio":"/opentts_data/ref.wav"}

3）数据转换

运行以下脚本将 train_raw.jsonl 转换为包含音频编码audio_codes的训练集JSONL文件train_with_codes.jsonl ：

# 设置环境变量
export NON_MEGATRON=true
source /usr/local/Ascend/ascend-toolkit/set_env.sh

python examples/fsdp2/qwen3tts/prepare_data.py \
  --device npu:0 \
  --tokenizer_model_path /Qwen3-TTS-Tokenizer-12Hz \
  --input_jsonl train_raw.jsonl \
  --output_jsonl train_with_codes.jsonl \

# 其中：
# device：数据转换的设备
# tokenizer_model_path：tokenizer文件路径
# input_jsonl：包含训练音频文件路径、对应文本内容和参考音频文件路径的JSONL文件路径
# output_jsonl：转换后数据文件的保存路径

处理后示例如下：

{"audio":"/opentts_data/000001.wav","text": "有一回来个参观团，是县文物局组织的。","ref_audio": "/opentts_data/ref.wav","audio_codes": [[1995, ..., 901]]}
{"audio":"/opentts_data/000002.wav","text": "基础设施是产业发展的前提。","ref_audio": "/opentts_data/ref.wav","audio_codes": [[1995, ..., 901]]}

3.3 开始训练

1）权重准备

从Hugging Face库下载Qwen3-TTS-12Hz-1.7B-Base模型文件，下载地址: https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base

下载后将模型文件保存到本地目录下。

2）启动训练

在qwen3tts_config.yaml文件中配置好数据集和权重之后，使用如下命令，即可实现Qwen3-TTS的训练：

bash examples/fsdp2/qwen3tts/finetune_qwen3tts.sh

4 结语

大模型向大参数量、多模态、长上下文持续演进，分布式训练也从专家技术逐步成为普惠工具。面向未来的训练框架，需平衡极致性能与易用性，既支撑千亿级参数高效扩展，也让算法工程师摆脱并行技术细节，专注模型创新。MindSpeed MM多模态模型套件正在落地这一理念，轻量、通用且亲和兼容PyTorch生态，让模型研发回归本质。我们将融合前沿并行策略、智能显存优化与硬件加速能力，在昇腾平台打造敏捷流畅的大模型训练基座，赋能开发者轻松拥抱智能未来。

欢迎开发者体验、贡献与共建！

· MindSpeed MM开源仓库：https://gitcode.com/Ascend/MindSpeed-MM

· 昇腾开源微信小助手：ascendosc

本页内容

1 MindSpeed MM全新支持FSDP训练后端的核心亮点

2 基于FSDP训练后端，MindSpeed MM套件针对新模型适配周期从周级降到天级

3 快速上手-基于新FSDP训练后端的MindSpeed MM套件完成Qwen3-TTS模型训练

3.1 环境安装

3.2 数据预处理

3.3 开始训练

4 结语

关于昇腾

新闻与活动

交流与资讯

支持与服务

开源社区