Lowercase Tokenizer (小写分词器)
lowercase
tokenizer (小写分词器),类似于 letter
tokenizer,遇到非字母时分割文本,并将所有分割后的词元转为小写。功能上等同于 letter
tokenizer + lowercase
token filter,但是由于单次执行了所有步骤,所以效率更高。
输出示例
上面的句子会生成如下的词元:
配置
lowercase
tokenizer(小写分词器) 不支持配置。
Last updated