操作步骤(集群场景的大模型并行方式优化推荐)

执行以下操作进行专家系统分析:

  1. 配置环境变量。

    . ${install_path}/ascend-toolkit/set_env.sh

    ${install_path}为Ascend-cann-toolkit开发套件包的指定安装路径。

  2. 执行分析命令。

    msadvisor -d ${data_path}/ -c ${install_path}/ascend-toolkit/latest/tools/msadvisor/conf/train.json -p "parallel_optimization_model.device=1024;parallel_optimization_model.model_mode=pangu_200B"

    其中-d参数指定的目录仅作为分析结果的输出目录。-p参数说明如下表:

    表1 -p参数配置说明

    参数

    说明

    parallel_optimization_model.device

    大模型训练时,所用到的集群的卡的数量。默认取值为1024。

    parallel_optimization_model.model_mode

    训练时,用到的模型类型,当前本知识库支持七种不同类型的大模型,当前支持取值为:

    • “pangu_200B”
    • “pangu_13B”
    • “pangu_2_6B”
    • “pangu_1_3B”
    • “GLaM_1_2T”
    • “GlaM_143B”
    • “Switch_C”

    默认取值为pangu_200B。

    注:parallel_optimization_model为训练并行优化知识库名称。

  3. 完成分析后,系统会将分析结果以打屏的形式展示并且保存分析结果为.json文件。

    • .json文件保存在数据路径下的recommendation子目录中,msadvisor分析命令执行完成后显示存放路径。如图1所示。
      图1 结果文件输出

      .json文件的命名格式为:时间戳_专家系统运行时PID信息。

    专家系统工具仅提供模型或算子的可优化项并给出优化建议,具体优化方式请开发者自行修改代码。