Standard Tokenizer(标准分词器)
standard
tokenizer(标准分词器)提供基于语法的分词(基于Unicode文本分割算法,如Unicode标准附件29中所述),并且适用于大多数语言。
输出示例
上面的句子会生成如下的词元:
配置
standard
tokenizer(标准分词器) 接受以下参数:
max_token_length 单个 token 的最大长度。如果一个 token 超过这个长度,则以max_token_length 为间隔分割。默认值是255
.。
配置示例
下面的例子中,我们配置标准分词器的 max_token_length为 5 (便于展示):
输出如下:
Last updated