Fingerprint Analyzer(指纹分析器)
Last updated
Was this helpful?
Last updated
Was this helpful?
fingerprint 分析器实现了OpenRefine项目使用的来协助聚类。
输入文本较低,规范化以删除扩展字符,排序,重复数据删除并连接到单个令牌。 如果配置了一个停用词列表,停止单词也将被删除。
它包括:
分词器
词语过滤器
(默认禁用)
上述的句子将产生以下的词语:
separator
用于连接条款的字符。 默认为空格。
max_output_size
要发出的最大标记大小。 默认为255.大于此大小的token将被丢弃。
stopwords
预定义的停止词列表,如_english_或包含停止词列表的数组。 默认为 _none_。
stopwords_path
包含停止词的文件的路径。
在这个例子中,我们配置 fingerprint 分析器以使用预定义的英文停止词列表:
以上示例产生以下词语:
有关停止字配置的更多信息,请参阅。