HTML Strip Character Filter(HTML标签过滤)
HTML Strip Character Filter 会删除文本中的HTML元素,并且将HTML实体替换成对应的解码值(例如用&替换&)。
输出示例
keyword分词器只会返回一个词元(term), 也就是整体返回。
上面的案例将会返回如下的词元(term):
同样的示例,如果使用标准分词器(standar tokenizer)将会返回的词元(term)如下:
配置
HTML Strip Character Filter接收如下参数:
参数名称 | 说明 |
| 会原始文本中保留的一系列标签 |
配置示例:
上面示例将返回如下结果:
Last updated