3.3.6.Character Filters(字符过滤器)

Characterfilters(字符过滤器)用于字符流传递到分词器(tokenizer)之前对它进行预处理。

一个Characterfilters(字符过滤器)接收原始文本作为字符流,通过adding(添加),removing(删除)或changing(更改)字符来转换流。例如,可以使用字符过滤器将Arabic numerals(阿拉伯数字)(٠‎١٢٣٤٥٦٧٨‎٩‎)转换为和它等价的Latin(拉丁数字)(0123456789),也可以用于从字符流中剥离<b>HTML元素。

Elasticsearch内置了许多的characterfilters(字符过滤器),可以用来构建 custom analyzers(自定义分词器)。

HTML Strip Character Filter

html_strip字符串过滤器可以删除类似<b>HTML元素和解码类似于 &这样的 HTML实体。

Mapping Character Filter

mapping字符串过滤器可以将所有指定的字符串替换成特定的字符串。

Pattern Replace Character Filter

pattern_replace字符串过滤器可以将满足正则表达式的所有字符串替换成特定的字符串

Last updated