昇腾社区首页
中文
注册
开发者
下载

embed_documents

功能描述

将文本列表进行向量化。

函数原型

def embed_documents(texts, batch_size)

输入参数说明

参数名

数据类型

可选/必选

说明

texts

List[str]

必选

文本列表,列表长度取值[1, 1000*1000],列表中每个文本长度取值[1, 256]。

batch_size

int

可选

组batch大小,每次会组合batch_size的texts进行embed操作,取值范围:[1, 1024],默认值为“32”。可配置的值由设备显存决定。

返回值说明

数据类型

说明

List[List[float]]

texts转换后的向量数组。

如果texts为长度是4的数组,embedding模型的输出是512维向量,最终的输出结果为(4,512)大小的数组