Pattern Tokenizer(模式分词器)

Pattern Tokenizer 使用正则表达式分割文本。遇到单词分隔符将文本分割为词元, 或者将捕获到匹配的文本作为词元。

默认的匹配模式时 \W+ ,遇到非单词的字符时分割文本。

谨防病态的正则表达式

Pattern Tokenizer使用Java 正则表达式

一个书写不当的正则表达式会导致运行缓慢,甚至抛出StackOverflowError 导致运行中的节点突然退出。

查看更多关于病态的正则表达式 和 如何避免。

输出示例

POST _analyze
{
  "tokenizer": "pattern",
  "text": "The foo_bar_size's default is 5."
}

上面的句子会生成如下的词元:

[ The, foo_bar_size, s, default, is, 5 ]

配置

Pattern Tokenizer 有以下参数:

pattern

Java 正则表达式。默认是 \W+ 。

flags

Java正则表达式 flags. flag之间用管道分隔, 如`"CASE_INSENSITIVE

COMMENTS"。`

group

将哪个捕获分组作为词元。默认是 -1。

配置示例

下面的例子中,我们配置Pattern Tokenizer 遇到逗号时分隔文本。

输出为:

在下一个例子中,我们配置Pattern Tokenizer 遇到双引号( 忽视转义的引号 \" ) 时捕获分组。正则表达式如下:

解释:

  • 起始的引号 "

  • 开始捕获

    • 一个 \" 或者其他 非" 的字符

    • 重复直到无法匹配更多的字符

  • 结束的引号

在写入到 JSON 中,"\需要转义,因此表达式最终为:

输出为:

Last updated

Was this helpful?