TfIdfVectorizer
功能
将输入文本序列向量化。
输入
一个输入:
data: tensor,数据类型是int32,int64。
输出
一个输出:
y:一个tensor,数据类型是float。
属性
max_gram_length:int,最大n-gram长度。
max_skip_count:int,从data中构造n-gram时最多skip数。
min_gram_length:int,最小n-gram长度。
mode:string,加权模式。可选为"TF" (term frequency), "IDF" (inverse document frequency)和"TFIDF" (the combination of TF and IDF)。
ngram_counts:int列表,n-gram池化的开始索引,有助于确认两个连续n-gram边界。
ngram_indexes:int列表,第i个元素表示输出tensor中第i个n-gram的坐标。
pool_int64s:int列表,不能与pool_strings同时赋值,表示从训练集学到的n-grams。
pool_strings:string列表,与pool_int64s含义一样。
weights:float列表,存储每个n-gram的池化权重数值。
支持的ONNX版本
Opset v9/v10/v11/ v12/v13/v14/v15/v16/v17/v18
父主题: 支持ONNX算子清单