昇腾社区首页
中文
注册
开发者
下载

计算token数量接口

接口功能

计算token数量,默认对输入文本进行分词。

接口格式

操作类型:POST

URLhttps://{ip}:{port}/v1/tokenizer

{ip}和{port}请使用业务面的IP地址和端口号,即“ipAddress”“port”

请求参数

参数

是否必选

说明

取值要求

inputs

必选

待计算token数量的输入字符串。

string类型,取值范围[0, 4*1024*1024]。

do_decode

可选

决定tokens字段里返回的内容。默认为true。

bool类型。

  • true:返回的tokens字段里包含对输入文本的分词结果。
  • false:返回为空。

使用样例

  • 样例一:

    请求样例:

    POST https://{ip}:{port}/v1/tokenizer

    请求消息体:

    {
        "inputs": "xxxxxx"
    }
    响应样例:
    {
        "token_number": 1234,
        "tokens": ["abc", "xyz", ...]
    }
  • 样例二:

    请求样例:

    POST https://{ip}:{port}/v1/tokenizer

    请求消息体:

    {
        "inputs": "xxxxxx",
        "do_decode": false
    }
    响应样例:
    {
        "token_number": 1234,
        "tokens": []
    }

输出说明

返回值

类型

说明

token_number

int

token的数量。

tokens

字符串数组

解析出来的token列表。如果一个中文由多个token组成,这里会将多个token合并成一个中文展示。因此,这个数组的数量可能比token_number的值小。