昇腾社区首页
中文
注册

使用样例

限制与约束

  • Atlas 800I A2 推理服务器Atlas 300I Duo 推理卡支持此特性。
  • 模型特性矩阵及相关文档请参见模型支持列表中的“多模态理解模型列表”页签。
  • 当用户使用多模态理解模型在服务化推理且输入输出序列为长序列时,可能会由于超出NPU内存限制而推理失败,导致服务化出现core dump问题。若遇到这种情况,需要先手动结束服务化进程,再重新拉起服务化。
    为了避免多模态模型推理失败,需要对服务化参数和并发数进行限制。以Atlas 800I A2 推理服务器(64G)8卡,输入tokens=16384,输出tokens=2048场景为例,需要使用以下服务化参数进行配置。当用户使用的序列更长时,可以适当下调并发数。

    模型名称

    maxPrefillTokens

    npuMemSize

    最大并发数

    Qwen2-VL-72B

    16384

    30

    40

    Qwen2.5-VL-72B

    16384

    30

    40

    InternVL2.5-78B

    16384

    20

    35

操作步骤

本章节以Qwen2-VL模型为例,简单介绍多模态如何使用。

更多多模态的使用详情请参见EndPoint业务面RESTful接口章节。

  1. 安装多模态模型依赖。
    cd /usr/local/Ascend/atb-models/requirements/models  # mindIE安装包默认路径
    pip install -r requirements_{model}.txt
  2. 下载基础模型权重后,配置服务化参数config.json文件,然后启动服务化,服务化参数说明请参见配置参数说明章节。
    cd {MindIE安装目录}/latest/mindie-service/
    vi conf/config.json  # 配置模型参数"modelName"、"modelWeightPath"等
    ./bin/mindieservice_daemon
  3. 使用以下指令发送请求,参数说明见文本/流式推理接口章节。
    curl https://127.0.0.11:1025/generate -H "Content-Type: application/json" --cacert ca.pem --cert client.pem  --key client.key.pem -X POST -d '{
        "prompt": [
            {"type": "text", "text": "What is in this image?"},
    	{ "type": "image_url", "image_url": "/xxx/test.png"}
        ],
        "max_tokens": 100,
        "repetition_penalty": 1.03,
        "presence_penalty": 1.2,
        "frequency_penalty": 1.2,
        "temperature": 0.5,
        "top_k": 10,
        "top_p": 0.95
    }'