UAX URL Email Tokenizer

uax_url_email tokenizer类似 standard tokenizer,只不过它会把 URLemail 地址当成一个词元。

输出示例

POST _analyze
{
  "tokenizer": "uax_url_email",
  "text": "Email me at john.smith@global-international.com"
}

上面的句子会生成如下的词元:

[ Email, me, at, john.smith@global-international.com ]

standardtokenizer 会生成:

[ Email, me, at, john.smith, global, international.com ]

配置

uax_url_email tokenizer 接受以下参数:

max_token_length

单个 token 的最大长度。如果一个 token 超过这个长度,则以 max_token_length 为间隔分割。默认值是255.

配置示例

下面的例子中,我们配置标准分词器的 max_token_length 为 5 (便于展示):

输出如下:

Last updated

Was this helpful?