查看任务进程

操作步骤

  1. 执行以下命令,查看Pod运行状况。

    kubectl get pod --all-namespaces

    回显示例如下:

    1
    2
    3
    4
    NAMESPACE        NAME                                       READY   STATUS    RESTARTS   AGE
    ...
    default          resnetinfer1-2-scpr5                      1/1     Running   0          8s
    ...
    

  2. 执行以下命令,查看运行推理任务的节点详情。

    kubectl describe node <hostname>
    例如:
    kubectl describe node ubuntu
    • 整卡调度回显示例如下:
       1
       2
       3
       4
       5
       6
       7
       8
       9
      10
      11
      12
      13
      14
      ...
      Allocated resources:
        (Total limits may be over 100 percent, i.e., overcommitted.)
        Resource              Requests     Limits
        --------              --------     ------
        cpu                   4 (2%)       3500m (1%)
        memory                2140Mi (0%)  4040Mi (0%)
        ephemeral-storage     0 (0%)       0 (0%)
        huawei.com/Ascend310P  1            1
      Events:
        Type    Reason    Age   From                Message
        ----    ------    ----  ----                -------
        Normal  Starting  36m   kube-proxy, ubuntu  Starting kube-proxy.
      ...
      

      在显示的信息中,找到“Allocated resources”下的huawei.com/Ascend310P,该参数取值在执行推理任务之后会增加,增加数量为推理任务使用的NPU芯片个数。

    • 静态vNPU调度回显示例如下:
       1
       2
       3
       4
       5
       6
       7
       8
       9
      10
      11
      12
      13
      14
      ...
      Allocated resources:
        (Total limits may be over 100 percent, i.e., overcommitted.)
        Resource              Requests     Limits
        --------              --------     ------
        cpu                   4 (2%)       3500m (1%)
        memory                2140Mi (0%)  4040Mi (0%)
        ephemeral-storage     0 (0%)       0 (0%)
        Ascend310P-2c  1            1
      Events:
        Type    Reason    Age   From                Message
        ----    ------    ----  ----                -------
        Normal  Starting  36m   kube-proxy, ubuntu  Starting kube-proxy.
      ...
      

      在显示的信息中,找到“Allocated resources”下的Ascend310P-2c,该参数取值在执行推理任务之后会增加,增加数量为推理任务使用的vNPU芯片个数。

    如果使用的是Atlas 推理系列产品非混插模式,则上述的Ascend310显示为Ascend310P,Ascend310P-2c。如果使用的是Atlas 推理系列产品混插模式,则上述的Ascend310显示为Ascend310P-V、Ascend310P-VPro、Ascend310P-IPro之一