昇腾社区首页
中文
注册

应用场景

  • 支持以下模型推理接口:
    • 同步推理(token_id to token_id)
    • 异步推理(token_id to token_id)
    • 全量文本推理(text to text)
    • 流式文本推理(text to text)
  • 支持以下请求管理接口:
    • 提前终止推理请求
    • 统计slot数量
  • 支持以下服务状态查询接口:
    • 查询Server和Model的状态和元数据
    • 查询Model配置