PP支持多参数传递和动态形状

背景与挑战

在深度学习的大规模分布式训练中,流水线并行(Pipeline Parallelism,PP)通过将模型分割为多个阶段并在不同设备上并发执行来提高效率。然而,在处理复杂的多模态数据时,PP面临了新的挑战:
  • 对于多参数传递:传统PP通常只涉及单一张量的传输,但在多参数传递的情况下,需要处理多个变量的传递,这不仅增加了通信复杂度,还要求对每个变量的shape、dtype等属性进行精确管理。
  • 对于动态形状:当输入数据的序列长度不固定时,传统的方法是将所有序列调整到统一长度,这导致了内存和计算资源的浪费。

解决方案

为了应对这些挑战,我们提供了一系列优化措施:
  • 多参数传递:开发了一套高效的通信机制,支持多种类型和格式的数据传输,并改进了反向传播算法,使得系统可以自动识别并处理来自多个输出的梯度信息。
  • 动态形状:引入对动态形状的支持,允许每个微批次中的序列保持其原始长度。这样可以通过在发送张量之前,提前通信张量的形状信息,在各个流水线阶段之间同步即将接收的数据形状,确保内存分配和预处理的准确性。

使用场景

使用方法

根据场景在训练脚本中添加如下参数。
  • 支持PP场景
    --pipeline-model-parallel-size  N    # 开启流水线并行, N大于等于2
    --use-multiparameter-pipeline-model-parallel
    --variable-seq-lengths
  • 支持VPP场景
    --pipeline-model-parallel-size  N    # 开启流水线并行, N大于等于2
    --num-layers-per-virtual-pipeline-stage  N    # N不为None
    --use-multiparameter-pipeline-model-parallel
    --variable-seq-lengths

用户需配置args.pipeline_tensor_shapes,并明确指定各阶段间传递的具体参数及其属性(如shape、dtype)。args.pipeline_tensor_shapes配置可参考“tests_extend/system_tests/multi_modal/multi_parameter_pipeline/pretrain_multi_parameter_pipeline_test.py”设置训练脚本参数。

使用效果

同时支持在流水线并行中各阶段间传递多个参数和处理变长输入数据。