UAX URL Email Tokenizer
uax_url_email tokenizer类似 standard tokenizer,只不过它会把 URL和 email 地址当成一个词元。
输出示例
上面的句子会生成如下的词元:
而 standard
tokenizer 会生成:
配置
uax_url_email
tokenizer 接受以下参数:
max_token_length | 单个 token 的最大长度。如果一个 token 超过这个长度,则以 |
配置示例
下面的例子中,我们配置标准分词器的 max_token_length 为 5 (便于展示):
输出如下:
Last updated