昇腾社区首页
EN
注册

使用样例

限制与约束

需要部署MindCluster服务,并启动Job重调度能力(配套部署脚本默认启用),重配置分为有冗余节点和无冗余节点两种。

  • 有冗余:当冗余节点足够恢复故障实例时,则恢复仅涉及到故障的Prefill和Decode实例。
  • 无冗余:出现故障节点时,实例无法直接恢复,需要根据弹性模板释放其他实例来恢复故障实例。当前的恢复策略为缩P保D,即D实例故障后,当P实例个数大于1个的情况下,则释放P实例得到冗余节点,以此恢复D实例。

操作步骤

  1. 开启Job重调度功能。

    该功能由deployment/server_init.yaml文件配置,关键配置参数如以下加粗内容所示。

    • fault-scheduling:取值为“force”,表示开启Job重调度功能。
    • fault-retry-times:表示重调度次数,取值范围:[7200, 10000]。
    • restartPolicy:取值为“Never”
    ...
    # 定义 PriorityClass
    apiVersion: scheduling.k8s.io/v1
    kind: PriorityClass
    metadata:
      name: high-priority
    value: 100
    globalDefault: false
    description: "D used for high-priority jobs and P for low-priority jobs"
    ---
    apiVersion: mindxdl.gitee.com/v1
    kind: AscendJob
    metadata:
      name: xxxx-server-0        #以具体任务为准, xxxx默认为mindie-ms
      namespace: mindie            #以MindIE为准,用户可修改
      annotations:
        sp-block: "384"
      labels:
        framework: pytorch
        app: mindie-ms-server      #固定
        jobID: xxxx               # 推理任务的名称,用户需配置,默认为mindie-ms
        ring-controller.atlas: ascend-910b
        fault-scheduling: force
        fault-retry-times: "10000"
        grt-group/deploy-server: 1
    spec:
      schedulerName: volcano   
      runPolicy:
        schedulingPolicy:      
          minAvailable: x      # 与replicas保持一致
          queue: default
          priorityClass: high-priority
      successPolicy: AllWorkers
      replicaSpecs:
        Master:
          replicas: 1           # server的副本数
          restartPolicy: Never
          template:
            metadata:
              labels:
                ring-controller.atlas: ascend-910b
                app: mindie-ms-server
                jobID: xxxx      #推理任务的名称,用户需配置,默认mindie
    ...
  2. 打开ms_controller.json配置文件,配置对接MindCluster的端口号,默认值为8899。
    {
      "allow_all_zero_ip_listening": false,
      "deploy_mode": "pd_separate",
      "initial_dist_server_port": 10000,
      "cluster_port":8899,
    ...
    }
  3. 进入/{MindIE安装目录}/latest/mindie-service目录并使用以下命令启动服务,当故障出现时将会自动触发故障重配置功能。
    ./bin/mindieservice_daemon